亚马逊云科技将提供基于NVIDIA Grace Blackwell GPU的Amazon EC2实例和NVIDIA DGX Cloud,以加速构建及运行数万亿参数的规模大型语言模型的性能
Amazon Nitro系统、Elastic Fabric Adapter加密,以及与Blackwell加密集成的Amazon KMS密钥管理服务,为客户提供从训练数据到模型权重的端到端控制,为客户在亚马逊云科技上的AI应用提供更强的安全保障
“Ceiba项目”——一台完全依托亚马逊云科技搭建、采用DGX Cloud的AI超级计算机,搭载了20,736颗GB200 Superchips芯片,能够提供414 exaflops的处理能力,专为NVIDIA自身的AI研发工作设计
Amazon SageMaker与NVIDIA NIM推理微服务集成,以帮助客户进一步优化在GPU上运行基础模型的性价比 亚马逊云科技与英伟达之间的合作加速了在医疗保健和生命科学领域的AI创新
2024年3月20日,亚马逊云科技和英伟达宣布,英伟达在2024年GTC大会上推出的新一代NVIDIA Blackwell GPU平台即将登陆亚马逊云科技。亚马逊云科技将提供NVIDIA GB200 Grace Blackwell Superchip和 B100 Tensor Core GPU,这一举措延续了双方长期的战略合作伙伴关系,旨在为客户提供安全、先进的基础设施、软件及服务,助力客户开启新一代生成式AI的能力。
英伟达与亚马逊云科技继续汇聚各自的领先技术,包括具备英伟达最新多节点系统的下一代NVIDIA Blackwell平台和AI软件,以及亚马逊云科技的Nitro系统、具备领先安全性的Amazon KMS密钥管理服务、千万亿比特级的Elastic Fabric Adapter(EFA)网络和Amazon EC2 UltraCluster超大规模集群等技术。基于上述技术打造的基础设施和工具,使客户能够在Amazon EC2上以更快速度、更大规模、更低成本地对其构建和运行数万亿参数的大型语言模型(LLMs)进行实时推理,性能相较于配备前一代英伟达GPU的EC2实例有显著改进。
亚马逊云科技首席执行官Adam Selipsky表示:“我们双方的深入合作可以追溯到13年前,当时我们共同推出了世界上第一个亚马逊云科技上的GPU云实例,而今天我们为客户提供了最广泛的英伟达GPU解决方案。英伟达的下一代Grace Blackwell处理器是生成式AI和GPU计算领域的标志性事件。当结合亚马逊云科技强大的EFA网络、Amazon EC2 UltraClusters的超大规模集群功能,以及我们独有的Amazon Nitro高级虚拟化系统及其安全功能时,我们就能够使客户更快、更大规模且更安全地构建和运行具有数万亿参数的大型语言模型。”
英伟达创始人兼首席执行官黄仁勋表示:“人工智能正在以前所未有的速度推动新应用、新商业模式和跨行业的创新。我们与亚马逊云科技的合作正在加速新的生成式AI能力的发展,并为客户提供前所未有的计算能力,以开创无限可能。”
亚马逊云科技与英伟达的新合作将显著加快超万亿参数前沿大型语言模型的训练
亚马逊云科技将提供配置GB200 NVL72的英伟达Blackwell平台,它配备72颗Blackwell GPU和36颗Grace CPU,通过第五代NVIDIA NVLink™互连。当与亚马逊云科技强大的EFA网络、Amazon Nitro高级虚拟化系统和Amazon EC2 UltraClusters超大规模集群等技术结合时,客户能够轻松扩展至数千个GB200 Superchips。英伟达Blackwell在亚马逊云科技上的应用,使得该平台在应对资源密集型和数万亿参数语言模型等推理工作负载加速方面实现了巨大飞跃。
基于此前搭载英伟达H100的Amazon EC2 P5实例的成功(客户短期使用这些实例可通过Amazon EC2 Capacity Blocks for ML功能),亚马逊云科技计划提供配备B100 GPUs新的Amazon EC2实例,并支持在Amazon EC2 UltraClusters中部署以加速超大规模生成式AI的训练和推理。GB200也将在NVIDIA DGX™ Cloud上可用,这是一个在亚马逊云科技上双方共同开发的AI平台,为企业开发者提供了构建和部署先进生成式AI模型所需的专用基础设施和软件。在亚马逊云科技上推出的基于Blackwell的DGX Cloud实例将加速前沿生成式AI和超过1万亿参数的大语言模型的开发。
提升AI安全性:亚马逊云科技Nitro系统、Amazon KMS、EFA加密与Blackwell加密技术紧密集成
随着AI技术应用越来越广泛,企业需要确信,在整个训练流程中,他们的数据都得到了安全的处理。保护模型权重的安全至关重要,模型权重是模型在训练过程中学习到的参数,对于模型做出预测的能力至关重要。确保模型权重的安全对保护客户的知识产权、防止模型被篡改以及维护模型的完整性都是非常重要的。
亚马逊云科技的AI基础设施和服务已经实现了安全特性,使客户能够控制其数据,并确保数据不会与第三方模型提供者共享。Amazon Nitro系统和英伟达GB200的结合将能够阻止未授权个体访问模型权重,从而把AI安全性提升到新的高度,。GB200支持对GPU之间NVLink连接进行物理加密,以及对Grace CPU到Blackwell GPU的数据传输进行加密,同时EFA也能够对服务器之间的分布式训练和推理过程的数据进行加密。GB200还将受益于Amazon Nitro系统,该系统将主机CPU/GPU的I/O功能卸载至专门的硬件上,以提供更加一致的性能,其增强的安全性可以在客户端和云端全程保护客户的代码和数据在处理过程中的安全。这一独有的功能已经获得了领先的网络安全公司 NCC Group 的独立验证。
通过在Amazon EC2上使用GB200,亚马逊云科技将使客户能够使用Amazon Nitro Enclaves和Amazon KMS,在其EC2实例旁创建一个可信执行环境。Amazon Nitro Enclaves允许客户使用Amazon KMS控制下的密钥来加密他们的训练数据和权重。从GB200实例内部可以加载安全区(enclave),并且可以直接与GB200 Superchip通信。这使得Amazon KMS能够以加密安全的方式直接与安全区通信,并直接传递密钥材料。然后,安全区可以将该材料传递给GB200,这样做能够保护客户实例中的数据,防止亚马逊云科技操作人员访问密钥或解密训练数据或模型权重,从而赋予客户对其数据的无与伦比的控制权。
“Ceiba项目”利用Blackwell在亚马逊云科技上推动英伟达未来生成式AI创新
在2023年亚马逊云科技re:Invent大会上宣布的“Ceiba项目”,是英伟达与亚马逊云科技合作建造的世界上最快的AI超级计算机之一。这台专为英伟达自身的研究和开发而设的超级计算机,独家托管在亚马逊云科技上。这台首创的拥有20,736颗GB200 GPU的超级计算机,采用新型NVIDIA GB200 NVL72配置构建,其特有的第五代NVLink将连接10,368颗NVIDIA Grace CPU。系统通过亚马逊云科技第四代EFA网络进行扩展,为每个Superchip提供高达800 Gbps的低延迟、高带宽网络吞吐量——能够处理高达414 exaflops的AI计算量,与之前计划在Hopper架构上构建Ceiba相比,性能提升了6倍。英伟达的研发团队将利用Ceiba推进大语言模型、图形(图像/视频/3D生成)与仿真、数字生物学、机器人技术、自动驾驶汽车、NVIDIA Earth-2气候预测等领域的AI技术,以帮助英伟达推动未来生成式AI的创新。
亚马逊云科技与英伟达的合作推动生成式人工智能应用开发及医疗健康与生命科学领域的应用进展。
亚马逊云科技与英伟达联手,通过Amazon SageMaker与NVIDIA NIM推理微服务的整合,提供了高性能、低成本的生成式AI推理解决方案,该服务作为NVIDIA AI企业版的一部分提供。客户可以利用这一组合在Amazon SageMaker中快速部署和运行已预编译且对NVIDIA GPU进行优化的基础模型,缩短生成式AI应用的推出时间。
亚马逊云科技与英伟达还在利用计算机辅助的药物发现领域进行合作拓展,推出了新的NVIDIA BioNeMo™基础模型,用于生成化学、蛋白质结构预测,以及理解药物分子与目标的相互作用。这些新模型将很快在Amazon HealthOmics上提供,这是一个专为帮助医疗保健和生命科学组织存储、查询和分析基因组、转录组及其他组学数据而设计的专用服务。
Amazon HealthOmics和英伟达医疗保健团队还合作推出生成式AI微服务,以推进药物发现、医疗技术和数字健康领域的发展,该服务提供一个新的GPU加速的云端服务目录,涵盖生物学、化学、成像和医疗保健数据,以便医疗企业能够在亚马逊云科技上利用生成式AI的最新成果。