亚马逊云科技宣布具备 EC2 超级集群能力的 Amazon EC2 P4d 实例正式可用

由 NVIDIA A100 Tensor Core GPUs 和亚马逊云科技PB级网络支持的下一代加速计算实例,面向云端的机器学习训练和高性能计算。与上一代实例相比训练速度提升3倍,成本降低60%。

[2020 年 11 月 6 日] 日前,亚马逊云科技宣布 Amazon Elastic Compute Cloud (Amazon EC2) P4d 实例正式可用。P4d 是下一代 GPU 驱动的实例,与上一代的 P3 实例相比,在机器学习训练和高性能计算 (HPC) 工作负载场景下,性能提升 3 倍,成本降低 60%,GPU 内存增加 2.5 倍。P4d 实例配备 8 颗 NVIDIA A100 Tensor Core GPU,网络带宽达 400 Gbps (比 P3 实例多 16 倍)。通过将 P4d 实例与亚马逊云科技的 Elastic Fabric Adapter (EFA) 和 NVIDIA GPUDirect RDMA (远程直接访问内存) 技术一起使用,客户可以创建具备 EC2 超级集群功能的 P4d 实例。借助 EC2 超级集群,使用亚马逊云科技设计的、与 Amazon FSx for Lustre 高性能存储集成的 PB 级无阻塞网络基础架构,客户可将 P4d 实例扩展至超过 4000 多个 A100 GPU (相当于其它云供应商的 2 倍多),获得按需访问的超算级性能,加速机器学习训练和高性能计算。

数据科学家和工程师们正不断扩展机器学习的边界,通过创建规模更大、更复杂的模型,从而为一系列广泛用例提供更精准的预测,其中包括自动驾驶汽车的感知模型训练、自然语言处理、图像分类、对象检测,以及预测分析。针对大量数据训练这些复杂的模型是一项计算、网络和存储密集型任务,经常耗时数天或数周。客户不仅想减少训练模型的时间,也希望降低用于训练的整体支出。总体来说,时间长和成本高限制了客户训练模型的频率,降低了机器学习开发和创新的速度。

P4d 实例增强的性能可将机器学习模型训练时间缩短了 3 倍 (将训练时间从数天减少到数小时),额外的 GPU 内存可帮助客户训练更大、更复杂的模型。随着数据变得越来越丰富,客户训练的模型有数百万个甚至数十亿个参数,例如用于文档摘要和问题解答的自然语言处理、面向自动驾驶汽车的对象检测与分类、用于大规模内容审核的图像分类、电子商务网站的推荐引擎,以及智能搜索引擎的排名算法,所有这些都需要更多的网络吞吐量和 GPU 内存。P4d 实例具有 8 颗 NVIDIA A100 Tensor Core GPU,单台 EC2 实例混合精度性能高达 2.5 petaflops, GPU 内存网络带宽高达 320GB。P4d 实例是业界首个提供 400Gbps 网络带宽的实例,通过 Elastic Fabric Adapter (EFA) 和 NVIDIA GPUDirect RDMA 网络接口支持跨服务器的 GPU 之间直接通信,从而降低延迟,提高扩展效率,有助于消除跨多节点分布式工作负载的扩展瓶颈。每个 P4d 实例还提供 96 颗 Intel Xeon Scalable (Cascade Lake) vCPU,1.1TB 的系统内存,以及 8TB 的本地 NVMe 存储,以减少单节点的训练时间。通过将上一代 P3 实例的性能提升一倍以上,P4d 实例可将机器学习模型训练的成本降低多达 60%,与昂贵且不灵活的本地系统相比,为客户带来更高效的体验。高性能计算客户还将受益于 P4d 实例增加的处理性能和 GPU 内存,满足要求苛刻的工作负载,比如地震分析、药物发现、DNA 测序、材料科学、金融和保险风险建模。

P4d 实例也构建在 Amazon Nitro 系统之上,后者是亚马逊云科技自己设计的硬件和软件,让亚马逊云科技能够向客户提供越来越广泛的 EC2 实例和配置选择,同时提供与裸金属无差别的性能,快速存储和联网能力,并确保更安全的多租户。P4d 实例将网络功能卸载至专用的 Nitro Cards 上,加速多个 P4d 实例间的数据传输。Nitro Cards 同时支持 EFA 和 GPUDirect,支持 GPU 间跨服务器直接通信,实现 P4d 实例的 EC2 超级集群间更低的延迟表现和更强的伸缩性能。这些由 Nitro 驱动的能力让客户有可以在 EC2 超级集群中启动 P4d,按需和可扩展地访问超过 4000 个 GPU,以获得超算级的性能。

“客户使用亚马逊云科技服务构建、训练和部署机器学习应用的速度非常快。与此同时,我们从客户那里听到他们希望以成本更低的方式来训练其庞大的机器学习模型。” 亚马逊云科技 EC2 副总裁 Dave Brown 表示,“现在,通过 NVIDIA 最新的 A100 GPU 和 PB 级网络支持的 P4d 实例的 EC2 超级集群,我们让超算级的性能几乎适用于所有人。同时与上一代实例相比,将训练机器学习模型的时间缩短 3 倍,训练成本降低高达 60%。”

客户可以使用 Amazon Elastic Kubernetes Service (Amazon EKS) 或 Amazon Elastic Container Service (Amazon ECS) 服务的亚马逊云科技深度学习容器库,在 P4d 实例上运行容器化应用。要想获得更加完整的托管体验,客户可以通过 Amazon SageMaker 使用 P4d 实例,从而使开发者和数据科学家能够快速构建、训练和部署机器学习模型。高性能计算客户可以利用 Amazon Batch 和 Amazon ParallelCluster,使用 P4d 实例帮助高效协调任务和集群。P4d 实例支持所有主要的机器学习框架,包括 TensorFlow、PyTorch 以及 Apache MXNet,客户可以灵活地选择最适合其应用的框架。P4d 实例现已在美国东部 (弗吉尼亚) and 美国西部 (俄勒冈) 区域可用,并计划在其他区域很快推出。P4d 实例可以按需购买,也可以使用 Savings Plan、预留实例,或竞价型实例进行购买。

丰田研究院 (TRI) 成立于 2015 年,致力于为丰田开发自动驾驶、机器人和其他人力扩充技术。“TRI 致力于创造让每个人都可以自由移动的未来。”TRI 基础设施工程技术总监 Mike Garrison 表示,“上一代 P3 实例帮助我们将机器学习模型训练时间从数天减少至数小时。非常期待使用 P4d 实例,其更多的 GPU 内存和更高效的浮点格式可以让我们的机器学习团队更快速地训练更复杂的模型。”