发布于: Mar 18, 2021

我们很高兴地推出 Amazon SageMaker Pipelines,这是 Amazon SageMaker 的一项新功能,用于构建、管理、自动化和扩展端到端机器学习工作流。SageMaker Pipelines 为机器学习工作流实现自动化和协调,使您能够加速机器学习项目,并将生产环境中的模型扩展到数千个。

机器学习是一个迭代过程,需要数据工程师、数据科学家、机器学习工程师和 DevOps 工程师等不同利益相关者之间的协作。建立可扩展的流程来构建模型具有很大的挑战性,因为跨数据准备、特征工程、训练和模型评估的步骤可能变得很多,从而增加管理数据依赖的复杂性。 随着模型数量的增加,管理模型版本和在生产环境中部署模型需要以一种简单和可扩展的方式进行自动化。最后,要跟踪整个端到端管道的线程,就需要使用自定义工具来跟踪数据以及模型构件和操作。

Amazon SageMaker Pipelines 使数据科学和工程团队能够在机器学习项目上无缝协作,并简化端到端机器学习工作流的构建、自动化和扩展。Amazon SageMaker SDK 通过定义参数和步骤,可以让您轻松建立模型构建管道,其中可以包括 Amazon SageMaker Data Wrangler、处理、训练、批量转换、条件评估以及将模型注册到中央模型注册表。一旦构建了管道,Amazon SageMaker 就会负责管道的执行,您可以在 Amazon SageMaker Studio 中查看管道的执行情况以及每个步骤的实时指标和日志。模型将注册到新的 Amazon SageMaker 模型注册表中,该注册表会自动对管道所生成的新模型进行版本控制,并提供内置的审批工作流程来选择将哪些模型部署到生产环境。Amazon SageMaker Pipelines 会自动跟踪机器学习管道每一步的线程,这有助于满足任何治理和审计要求,而无需构建任何自定义工具。

如需更多信息和示例笔记本,请参阅文档。欲了解如何使用该功能,请访问博客文章