发布于: Mar 29, 2021

Amazon SageMaker Debugger 的新功能现已在由光环新网运营的亚马逊云科技中国(北京)区域和西云数据运营的亚马逊云科技中国(宁夏)区域推出。Amazon SageMaker Debugger 的新功能可实时监控系统资源以实现高效利用率。借助这些新功能,您现在可以获得自动建议,为训练作业重新分配资源,以便更好地进行训练并减少时间和成本。

Amazon SageMaker Debugger 是 Amazon SageMaker 的一项功能,它通过捕获实时指标(如学习梯度和权重),提供训练流程的透明度,使您可以轻松且更快地训练机器学习模型,从而纠正损失、过度拟合和过度训练等异常情况。SageMaker Debugger 提供了称为规则的内置技术来轻松分析输出的数据,包括对成功进行训练作业至关重要的张量,例如识别为什么机器学习模型在训练精度超过 90% 的情况下将右流量信号预测为左流量信号。

借助新的分析功能,SageMaker Debugger 现在可以自动监控系统资源,如 CPU、GPU、网络、I/O 和内存,从而提供训练作业的完整资源利用情况视图。您还可以分析整个训练作业或其中的一部分,以便在训练作业的不同阶段得出详细的框架指标。框架指标是从训练脚本中捕获的指标,例如 CPU 和 GPU 上的步长、数据加载、预处理和操作员执行时间。SageMaker Debugger 将系统和框架指标关联起来,这有助于您识别问题的可能根本原因,例如 GPU 利用率下降到零,以便您可以检查训练脚本并适当地进行故障排除。您可以根据分析报告中的建议重新分配资源,从而缩短训练时间并降低成本。使用 SageMaker Python 开发工具包或通过 Amazon SageMaker Studio 以可视化方式捕获和监控指标和见解。

Amazon SageMaker Debugger 也在美洲和欧洲的所有亚马逊云科技区域以及亚太地区的一些区域可用,并且即将在其他区域推出。如需更多信息,请参阅文档。要了解如何在 SageMaker Debugger 中使用新的分析功能,请访问博客文章