新的 Elastic Fabric Adapter(EFA)指标旨在提高亚马逊云科技中国联网的可观测性
发布于:
2025年9月24日
今天,我们推出了五个新的 Elastic Fabric Adapter(EFA)指标,进而增强人工智能/机器学习和高性能计算(HPC)工作负载的网络可观测性。这些新指标通过跟踪重新传输的数据包和字节、连接超时事件、远程连接受损事件和远程接收器无响应事件来帮助诊断性能问题。
利用这些新指标,您可以监控网络拥塞或实例配置问题,从而及时采取恢复措施以保持应用程序性能。这些指标以每个 EFA 设备级别的计数器形式实现,累积自实例启动或最近一次驱动程序重置以来的数据。这些指标计数器存储在 sys 文件系统中,可通过实例命令行访问。为了增强监控和警报功能,您可以将这些指标集成到 Prometheus 脚本中,从而便于导出到 Grafana 等第三方工具,进而创建控制面板和设置警报。新指标适用于 Nitro v4(及更高版本)实例,需要 EFA 安装程序版本 1.44.0 或更高版本。有关指标的完整列表以及如何使用这些指标的更多信息,请访问监控 EFA 用户指南。有关基于不同 Nitro 系统版本构建的实例的完整列表,请参阅 Amazon Nitro Systems 文档。
这些指标已在由光环新网运营的亚马逊云科技中国(北京)区域和由西云数据运营的亚马逊云科技中国(宁夏)区域推出。要了解有关 EFA 的更多信息,请访问 EFA 文档。