带有 EFA 的 NIXL 可大规模加速 LLM 推理,现已在亚马逊云科技中国区域推出
发布于:
2026年3月31日
我们宣布支持带有 Elastic Fabric Adapter(EFA)的 NVIDIA Inference Xfer Library(NIXL),以加速 Amazon EC2 上的分解大型语言模型(LLM)推理。这种集成通过三项关键改进增强了分解推理服务:提高 KV-cache 吞吐量、减少令牌间延迟,以及优化 KV-cache 内存利用率。
带有 EFA 的 NIXL 可在预填充和解码节点之间实现高吞吐量、低延迟的 KV-cache 传输,并可在不同存储层之间实现高效的 KV-cache 移动。NIXL 可与所有启用 EFA 的 EC2 实例互操作,并与包括 NVIDIA Dynamo、SGLang 和 vLLM 在内的框架进行原生集成。NIXL 与 EFA 相结合,可以灵活地与您选择的 EC2 实例和框架集成,大规模提供性能分解推理。
所有启用 EFA 的 EC2 实例类型上的 NIXL 版本 1.0.0 或更高版本(其中 EFA 安装程序版本 1.47.0 或更高版本)适用于所有商业亚马逊云科技区域,包括由光环新网运营的亚马逊云科技中国(北京)区域和由西云数据运营的亚马逊云科技中国(宁夏)区域,不收取额外费用。有关更多信息,请访问 EFA 文档。