亚马逊云科技宣布具备EC2超级集群能力的Amazon EC2 P4d实例正式可用

由NVIDIA A100 Tensor Core GPUs和亚马逊云科技PB级网络支持的下一代加速计算实例,面向云端的机器学习训练和高性能计算。与上一代实例相比训练速度提升3倍,成本降低60%。

[2020年11月6日] 日前,亚马逊云科技宣布Amazon Elastic Compute Cloud (Amazon EC2) P4d实例正式可用。P4d是下一代GPU驱动的实例,与上一代的P3实例相比,在机器学习训练和高性能计算(HPC)工作负载场景下,性能提升3倍,成本降低60%,GPU内存增加2.5倍。P4d实例配备8颗NVIDIA A100 Tensor Core GPU,网络带宽达400 Gbps(比P3实例多16倍)。通过将P4d实例与亚马逊云科技的Elastic Fabric Adapter(EFA)和NVIDIA GPUDirect RDMA(远程直接访问内存)技术一起使用,客户可以创建具备EC2超级集群功能的P4d实例。借助EC2超级集群,使用亚马逊云科技设计的、与Amazon FSx for Lustre高性能存储集成的PB级无阻塞网络基础架构,客户可将P4d实例扩展至超过4000多个A100 GPU(相当于其它云供应商的2倍多),获得按需访问的超算级性能,加速机器学习训练和高性能计算。

数据科学家和工程师们正不断扩展机器学习的边界,通过创建规模更大、更复杂的模型,从而为一系列广泛用例提供更精准的预测,其中包括自动驾驶汽车的感知模型训练、自然语言处理、图像分类、对象检测,以及预测分析。针对大量数据训练这些复杂的模型是一项计算、网络和存储密集型任务,经常耗时数天或数周。客户不仅想减少训练模型的时间,也希望降低用于训练的整体支出。总体来说,时间长和成本高限制了客户训练模型的频率,降低了机器学习开发和创新的速度。

P4d实例增强的性能可将机器学习模型训练时间缩短了3倍(将训练时间从数天减少到数小时),额外的GPU内存可帮助客户训练更大、更复杂的模型。随着数据变得越来越丰富,客户训练的模型有数百万个甚至数十亿个参数,例如用于文档摘要和问题解答的自然语言处理、面向自动驾驶汽车的对象检测与分类、用于大规模内容审核的图像分类、电子商务网站的推荐引擎,以及智能搜索引擎的排名算法,所有这些都需要更多的网络吞吐量和GPU内存。P4d实例具有8颗NVIDIA A100 Tensor Core GPU,单台EC2实例混合精度性能高达2.5 petaflops, GPU内存网络带宽高达320GB。P4d实例是业界首个提供400Gbps网络带宽的实例,通过Elastic Fabric Adapter (EFA)和NVIDIA GPUDirect RDMA网络接口支持跨服务器的GPU之间直接通信,从而降低延迟,提高扩展效率,有助于消除跨多节点分布式工作负载的扩展瓶颈。每个P4d实例还提供96颗Intel Xeon Scalable(Cascade Lake)vCPU,1.1TB的系统内存,以及8TB的本地NVMe存储,以减少单节点的训练时间。通过将上一代P3实例的性能提升一倍以上,P4d实例可将机器学习模型训练的成本降低多达60%,与昂贵且不灵活的本地系统相比,为客户带来更高效的体验。高性能计算客户还将受益于P4d实例增加的处理性能和GPU内存,满足要求苛刻的工作负载,比如地震分析、药物发现、DNA测序、材料科学、金融和保险风险建模。

P4d实例也构建在Amazon Nitro 系统之上,后者是亚马逊云科技自己设计的硬件和软件,让亚马逊云科技能够向客户提供越来越广泛的EC2实例和配置选择,同时提供与裸金属无差别的性能,快速存储和联网能力,并确保更安全的多租户。P4d实例将网络功能卸载至专用的Nitro Cards上,加速多个P4d实例间的数据传输。Nitro Cards同时支持EFA和GPUDirect,支持GPU间跨服务器直接通信,实现P4d实例的EC2超级集群间更低的延迟表现和更强的伸缩性能。这些由Nitro驱动的能力让客户有可以在EC2超级集群中启动P4d,按需和可扩展地访问超过4000个GPU,以获得超算级的性能。

“客户使用亚马逊云科技服务构建、训练和部署机器学习应用的速度非常快。与此同时,我们从客户那里听到他们希望以成本更低的方式来训练其庞大的机器学习模型。”亚马逊云科技EC2副总裁Dave Brown表示,“现在,通过NVIDIA最新的A100 GPU和PB级网络支持的P4d实例的EC2超级集群,我们让超算级的性能几乎适用于所有人。同时与上一代实例相比,将训练机器学习模型的时间缩短3倍,训练成本降低高达60%。”

客户可以使用Amazon Elastic Kubernetes Service (Amazon EKS)或Amazon Elastic Container Service (Amazon ECS)服务的亚马逊云科技深度学习容器库,在P4d实例上运行容器化应用。要想获得更加完整的托管体验,客户可以通过Amazon SageMaker使用P4d实例,从而使开发者和数据科学家能够快速构建、训练和部署机器学习模型。高性能计算客户可以利用Amazon Batch和Amazon ParallelCluster,使用P4d实例帮助高效协调任务和集群。P4d实例支持所有主要的机器学习框架,包括TensorFlow、PyTorch以及Apache MXNet,客户可以灵活地选择最适合其应用的框架。P4d实例现已在美国东部(弗吉尼亚) and 美国西部 (俄勒冈)区域可用,并计划在其他区域很快推出。P4d实例可以按需购买,也可以使用Savings Plan、预留实例,或竞价型实例进行购买。

丰田研究院(TRI)成立于2015年,致力于为丰田开发自动驾驶、机器人和其他人力扩充技术。“TRI致力于创造让每个人都可以自由移动的未来。”TRI基础设施工程技术总监Mike Garrison表示,“上一代P3实例帮助我们将机器学习模型训练时间从数天减少至数小时。非常期待使用P4d实例,其更多的GPU内存和更高效的浮点格式可以让我们的机器学习团队更快速地训练更复杂的模型。”