带有 EFA 的 NIXL 可大规模加速 LLM 推理，现已在亚马逊云科技中国区域推出

发布于: 2026年3月31日

我们宣布支持带有 Elastic Fabric Adapter（EFA）的 NVIDIA Inference Xfer Library（NIXL），以加速 Amazon EC2 上的分解大型语言模型（LLM）推理。这种集成通过三项关键改进增强了分解推理服务：提高 KV-cache 吞吐量、减少令牌间延迟，以及优化 KV-cache 内存利用率。

带有 EFA 的 NIXL 可在预填充和解码节点之间实现高吞吐量、低延迟的 KV-cache 传输，并可在不同存储层之间实现高效的 KV-cache 移动。NIXL 可与所有启用 EFA 的 EC2 实例互操作，并与包括 NVIDIA Dynamo、SGLang 和 vLLM 在内的框架进行原生集成。NIXL 与 EFA 相结合，可以灵活地与您选择的 EC2 实例和框架集成，大规模提供性能分解推理。

所有启用 EFA 的 EC2 实例类型上的 NIXL 版本 1.0.0 或更高版本（其中 EFA 安装程序版本 1.47.0 或更高版本）适用于所有商业亚马逊云科技区域，包括由光环新网运营的亚马逊云科技中国（北京）区域和由西云数据运营的亚马逊云科技中国（宁夏）区域，不收取额外费用。有关更多信息，请访问 EFA 文档。

带有 EFA 的 NIXL 可大规模加速 LLM 推理，现已在亚马逊云科技中国区域推出

关于我们

产品与解决方案

资源与支持

管理账户