发布于: Apr 1, 2024

具有 EKS 增强可观测性的 Amazon CloudWatch Container Insights 现在会自动发现 NVIDIA GPU 中的关键运行状况和性能指标,并将其发送到自动控制面板中,从而通过人工智能/机器学习工作负载可观测性更快地隔离问题并进行故障排除。具有增强可观测性的 Container Insights 可为您提供基础设施运行状况的开箱即用趋势和模式,并消除手动控制面板和警报设置的开销,从而节省时间和精力。

使用 Container Insights 上增强的可观测性,您现在可以轻松了解加速实例上的 GPU 和内存是否正常,并确保训练作业保持性能。您可以轻松查明错误并快速向下钻取以确定根本原因,同时尽量减少训练作业的长时间中断。具有 EKS 增强可观测性的 Container Insights 可在精选的可视化中提供加速的计算可观测性,使您能够轻松监控分布式训练模型消耗资源的效率并相应地优化分配。

NVIDIA GPU 可观测性入门很简单。您可以通过 EKS 控制台或通过编程访问将 CloudWatch Observability 插件安装到您的集群中,从而在 Enhanced Container Insights 中加载 NVIDIA GPU 可观测性。配置完成后,您可以导航到 Container Insights 控制台并查看开箱即用的 NVIDIA GPU 指标。

NVIDIA GPU 指标现已在由光环新网运营的亚马逊云科技中国(北京)区域和由西云数据运营的亚马逊云科技中国(宁夏)区域中,在具有 EKS 增强可观测性的 Container Insights 中推出。NVIDIA GPU 指标遵循基于观测的定价,有关详细信息,请参阅 Container Insights 定价页面。有关更多信息,请参阅 Container Insights 用户指南