亚马逊云科技与英伟达携手开发下一代基础设施，助力大型机器学习模型训练和生成式AI应用程序构建

部署在 Amazon EC2 UltraCluster 中的新型 Amazon EC2 P5 实例经过充分优化，可以利用英伟达 Hopper GPU 加速生成式AI的大规模训练和推理

北京 —— 2023 年 3 月 22 日亚马逊旗下的亚马逊云科技和英伟达宣布了一项多方合作，致力于构建全球最具可扩展性且按需付费的人工智能（AI）基础设施，以便训练日益复杂的大语言模型（LLM）和开发生成式 AI 应用程序。

借助由 NVIDIA H100 Tensor Core GPU 支持的下一代 Amazon Elastic Compute Cloud（Amazon EC2）P5 实例，以及亚马逊云科技最先进的网络和可扩展性，此次合作将提供高达 20 exaFLOPS 的计算性能来帮助构建和训练更大规模的深度学习模型。P5 实例将是第一个利用亚马逊云科技第二代 Amazon Elastic Fabric Adapter（EFA）网络技术的 GPU 实例，可提供 3200 Gbps 的低延迟和高带宽网络吞吐量。因此客户能够在 Amazon EC2 UltraCluster 中扩展多达 2 万个 H100 GPU，满足按需访问超级计算机的 AI 性能需求。

“亚马逊云科技和英伟达合作已超过12年，为人工智能、机器学习、图形、游戏和高性能计算（HPC）等各种应用提供了大规模、低成本的 GPU 解决方案。”亚马逊云科技首席执行官 Adam Selipsky 表示，“亚马逊云科技在交付基于 GPU 的实例方面拥有无比丰富的经验，每一代实例都大大增强了可扩展性，如今众多客户将机器学习训练工作负载扩展到1万多个 GPU。借助第二代 Amazon EFA，客户能够将其 P5 实例扩展到超过 2 万个英伟达 H100 GPU，为包括初创公司、大企业在内的所有规模客户提供所需的超级计算能力。”

“加速计算和人工智能已经到来，而且适逢其时。加速计算提升性能的同时，降低了成本和功耗，让企业事半功倍。生成式 AI 已促使企业重新思考产品和商业模式，力求成为颠覆者，而不是被颠覆。”英伟达创始人兼首席执行官黄仁勋表示，“亚马逊云科技是英伟达的长期合作伙伴，也是首家提供英伟达 GPU 的云服务提供商。我们很高兴能够结合各自的专长、规模和业务范围，帮助客户利用加速计算和生成式AI抓住未来的大好机遇。”

新的超级计算集群

新的 P5 实例构建于亚马逊云科技和英伟达十多年来在 AI 和 HPC 基础设施交付方面的合作基础之上，也立足于双方在 P2、P3、P3dn 和 P4d(e）前四代实例方面的合作。P5 实例是基于英伟达 GPU 的第五代亚马逊云科技产品，与最初部署的英伟达 GPU（始于 CG1 实例）已相隔近 13 年。

P5实例非常适合对日益复杂的 LLM 和计算机视觉模型进行训练和运行推理，并应用于要求严苛的计算密集型生成式 AI 应用程序，包括问题回答、代码生成、视频图像生成和语音识别等领域。

对于致力于以可扩展和安全的方式将 AI 赋能的创新推向市场的企业和初创公司而言，P5 实例是不二之选。P5 实例采用 8 个英伟达 H100 GPU，能够在一个Amazon EC2 实例中实现 16 petaFLOPs 的混合精度性能、640 GB 的高带宽内存和3200 Gbps 的网络连接（比上一代实例高出 8 倍）。P5 实例性能的提升使机器学习模型训练时间加快了 6 倍（将训练时间从数天缩短到数小时），额外的GPU内存可帮助客户训练更庞大更复杂的模型。预计P5实例的机器学习模型训练成本将比上一代降低 40%。相比灵活性较差的云产品或昂贵的本地系统，它为客户提供了更高的效率。

Amazon EC2 P5 实例部署在 Amazon EC2 UltraCluster 的超大规模集群中，该集群由云端最高性能的计算、网络和存储系统组成。每个 EC2 UltraCluster 都是世界上功能最强大的超级计算机之一，助力客户运行最复杂的多节点机器学习训练和分布式 HPC 工作负载。它们采用PB级无阻塞网络，基于 Amazon EFA，这种面向 Amazon EC2 实例的网络接口使客户能够在亚马逊云科技上运行需要在大规模高级节点间通信的应用程序。EFA 的定制操作系统绕过硬件接口，并与英伟达 GPUDirect RDMA 整合，可降低延迟、提高带宽利用率，从而提升实例间通信性能，这对于在数百个 P5 节点上扩展深度学习模型的训练至关重要。借助 P5 实例和 EFA，机器学习应用程序可以使用 NVIDIA Collective Communications Library（NCCL）扩展到多达 2 万个 H100 GPU。因此，客户可以通过亚马逊云科技的按需弹性和灵活扩展能力，获得本地 HPC 集群的应用性能。除了这些出色的计算能力外，客户可以使用业界最广泛最深入的服务组合，比如面向对象存储的 Amazon S3、面向高性能文件系统的 Amazon FSx，以及用于构建、训练和部署深度学习应用的 Amazon SageMaker。P5 实例将在今后几周提供有限预览版。

借助新的 Amazon EC2 P5 实例，Anthropic、Cohere、Hugging Face、Pinterest 和Stability AI 等客户将能够大规模构建和训练最庞大的机器学习模型。基于其它几代 Amazon EC2 实例的合作将帮助初创公司、大企业和研究人员无缝扩展来满足各自的机器学习需求。

Anthropic 构建了可靠、可解释和可操控的AI系统，将创造巨大商业价值并造福公众。 “Anthropic 正在努力构建可靠、可解释和可操控的AI系统。虽然当前已有的大型通用 AI 系统大有助益，但它们却是不可预测、不可靠和不透明的。我们的目的是解决这些问题，为人们部署更实用的系统。” Anthropic 的联合创始人Tom Brown 表示，“我们是全球为数不多的在深度学习研究领域建立基础模型的组织之一。这种模型高度复杂，为了开发和训练先进的模型，我们需要在庞大的 GPU 集群中有效地分布这些模型。我们正在广泛应用 Amazon EC2 P4 实例，我们更为即将发布的 P5 实例感到兴奋。预计 P5 实例会提供比 P4d 实例更显著的性价比优势，它们可以满足构建下一代大语言模型和相关产品的大规模需求。”

Cohere 是自然语言 AI 领域的先驱，它帮助开发者和企业使用世界领先的自然语言处理（NLP）技术构建出色的产品，同时确保数据的隐私和安全。 “Cohere 不遗余力地帮助企业利用自然语言AI的强大功能，以自然直观的方式探索、生成和搜索信息，并做出反应，并将产品部署在多云的数据环境中，为客户提供最佳体验。” Cohere 首席执行官 Aidan Gomez 表示，“基于英伟达 H100的Amazon EC2 P5 实例将释放企业潜能，利用计算能力以及 Cohere 最先进的 LLM 和生成式 AI 能力，更快地开发产品、拓展业务和扩大规模。”

Hugging Face 的使命是普及优秀的机器学习。 “作为发展最迅猛的机器学习开源社区，我们如今在面向 NLP、计算机视觉、生物学和强化学习等领域的平台上提供逾 15 万个预训练模型和 2.5万个数据集。” Hugging Face 首席技术官兼联合创始人 Julien Chaumond 表示，“鉴于大语言模型和生成式 AI 取得了显著进步，我们正与亚马逊云科技合作，以构建和贡献未来的开源模型。我们希望在结合了 EFA 的 UltraCluster 集群中通过大规模 Amazon SageMaker 使用 Amazon EC2 P5 实例，加快为所有客户交付新的基础 AI 模型。”

如今，全球超过 4.5 亿人通过 Pinterest 寻找视觉灵感，以购买符合自己品味的个性化产品、寻求线下创意，并发现最有才华的创作者。 “我们在用例中广泛使用深度学习技术，比如对上传到我们平台上的数十亿张照片进行标记和分类，以及让用户获得从灵感到付诸行动的视觉搜索能力。” Pinterest 首席架构师 David Chaiken 表示，“我们使用 P3 和最新的 P4d 等 Amazon GPU 实例构建和部署了这些应用场景。我们希望使用由 H100 GPU、EFA 和 Ultracluster 加持的 Amazon EC2 P5 实例，加快产品开发，为我们的客户提供共情式 AI（Empathetic AI）体验。”

作为多模态、开源 AI 模型开发和部署领域的领导者，Stability AI 与公共和私营部门的合作伙伴合作，将这种下一代基础架构提供给全球受众。 “ Stability AI 的目标是最大限度地提高现代 AI 的普及性，以激发全球创造力和创新性。” Stability AI首席执行官 Emad Mostaque 表示，“我们于 2021 年开始与亚马逊云科技合作，使用Amazon EC2 P4d 实例构建了一个潜在的文本到图像扩散模型 Stable Diffusion，我们将该模型部署在大规模环境下，将模型训练时间从数月缩短到数周。当致力于开发下一代开源生成式 AI 模型并扩展到新模型时，我们很高兴能使用第二代 EC2 UltraCluster 中的 Amazon EC2 P5 实例。我们预计 P5 实例会进一步将我们的模型训练时间缩短 4 倍，从而使我们能够以更低的成本更快地提供突破性的 AI。”

为可扩展、高效的AI采用新的服务器设计

在 H100 发布之前，英伟达和在热力、电气和机械领域拥有专业知识的亚马逊云科技工程团队合作设计了服务器，以利用 GPU 提供大规模 AI，重点关注亚马逊云科技基础设施的能源效率。在某些 AI 工作负载下，GPU 的能效通常是 CPU 的20倍，对于 LLM 而言，H100 的能效比 CPU 高 300 倍。