Amazon EC2 Inf2 实例正式可用 助力更低成本、更高性能的生成式 AI 推理

深度学习(DL)的创新,特别是大语言模型(LLM)的快速发展,已经席卷了整个行业。深度学习模型的参数已从数百万增加到数十亿,为我们呈现了越来越多激动人心的新能力。它们正在催生新的应用,如生成式AI或医疗保健和生命科学的高级研究。亚马逊云科技一直在芯片、服务器、数据中心互连和软件服务等多个方面创新,加速深度学习工作负载的大规模应用。

亚马逊云科技在 2022 re:Invent 全球大会上,以其最新的自研机器学习推理芯片 Amazon Inferentia2 为基础,发布了 Amazon EC2 Inf2 系列实例的预览版。Amazon EC2 Inf2 类型实例专门针对全球大规模运行高性能深度学习推理应用程序,为部署在EC2上的生成式AI应用提供最佳性价比,其中包含 GPT-J或开放式预训练TransformerOPT)语言模型。

现在,亚马逊云科技宣布 Amazon EC2 Inf2 实例正式可用!

Inf2 实例是 Amazon EC2 上首个推理优化的实例,支持可扩展的分布式推理,可实现多个 inferentia2 芯片之间的超高速连接。用户可以在Inf2实例中跨多个芯片高效部署具有数千亿个参数的模型。与 Amazon EC2 Inf1 实例相比,Inf2实例的吞吐量提高4倍,延迟降低10倍。

新Inf2实例的亮点

Inf2 实例目前有四种可用实例类型,最高扩展至 12Amazon Inferentia2 芯片和 192vCPU 配置。在 BF16 FP16 数据类型下,它们能够提供 2.3 petaFLOPS 的综合计算能力,并具有芯片间超高速NeuronLink 互连的功能。NeuronLink 可在多个 Inferentia2 芯片上扩展大模型,避免通信瓶颈,实现更高性能的推理。

每个Inferentia2芯片内有32 GB的高带宽内存(HBM),最高配置的 Inf2 实例可提供高达384 GB的共享加速器内存,总内存带宽为9.8 TB/s。对于需要大内存支持的的大型语言模型而言,这种带宽对于支持模型推理尤为重要。

基于专门为深度学习工作负载而构建的 Amazon Inferentia2 芯片的 Amazon EC2 Inf2,相比同类实例,单位功率性能高出了 50%

Amazon Inferentia2的创新之处

与亚马逊自研机器学习训练芯片 Amazon Trainium 类似,每个 Amazon Inferentia2 芯片都配有两个经过优化的 NeuronCore-v2 引擎、高带宽内存(HBM)堆栈和专用的集体计算引擎,以便在执行多加速器推理时实现计算与通信的并行。

每个 NeuronCore-v2 都有专为深度学习算法构建的标量、向量和张量三种引擎,其中张量引擎针对矩阵运算进行了优化;标量引擎针对 ReLU(修正线性单元)函数等元素性操作进行了优化;向量引擎针对批处理规范化或池化等非元素向量运算进行了优化。

以下是 Amazon Inferentia2 芯片和服务器硬件其他创新总结:

数据类型 —— Amazon Inferentia2 支持多种数据类型,包括 FP32TF32BF16FP16 UINT8,用户可以为工作负载选择最合适的数据类型。它还支持新的可配置 FP8cFP8) 数据类型,该数据类型特别适用于大模型,因为它减少了模型的内存占用和 I/O 要求。

动态执行和动态输入形状 —— Amazon Inferentia2 具有支持动态执行的嵌入式通用数字信号处理器 (DSP),因此无需在主机上展开或执行控制流运算符。Amazon Inferentia2 还支持动态输入形状,这些形状对于具有未知输入张量大小的模型(例如处理文本的模型)至关重要。

自定义运算符 —— Amazon Inferentia2 支持用 C++ 语言编写的自定义运算符。Neuron 自定义 C++ 运算符使用户能够编写在 NeuronCore 上天然运行的 C++ 自定义运算符。用户可以使用标准的 PyTorch 自定义运算符编程接口将 CPU 自定义运算符迁移到 Neuron 并实现新的实验运算符,所有这些都无需对 NeuronCore 硬件有任何深入了解。

NeuronLink v2 —— Inf2 实例是 Amazon EC2 类型中首个将 NeuronLink V2 用于推理优化的实例,NeuronLink v2 Inferentia2 芯片间的提供超高速连接,加强分布式推理性能。NeuronLink v2 使用 all-reduce 等聚合通信(CC)运算符,将高性能推理管道扩展到所有的推理芯片上。

新 Inf2 实例现已可用

用户可在亚马逊云科技美东(俄亥俄州)和美东(北弗吉尼亚州)地区启动 Inf2 实例,以按需、预留和竞价实例或 Savings Plan 方式调用。用户仅需为其实际使用的服务付费。

Inf2 实例可使用亚马逊云科技深度学习镜像进行部署,并可通过 Amazon SageMakerAmazon Elastic Kubernetes Service(Amazon EKS)Amazon Elastic Container Service(Amazon ECS) Amazon ParallelCluster 等托管服务调用。

如需了解更多信息,请访问 Amazon EC2 Inf2 实例页面,并将相关反馈发送给 Amazon re:Post for EC2;或垂询您的 Amazon Support 联系人。

关闭
热线

热线

1010 0766
由光环新网运营的
北京区域
1010 0966
由西云数据运营的
宁夏区域