发布于: Jan 7, 2021

Amazon SageMaker Studio 是第一个适用于机器学习的完全集成式开发环境 (IDE)。只需单击一下,数据科学家和开发人员就可以快速启动 SageMaker Studio 笔记本,以探索和准备数据集,从而在单个管理平台上构建、培训和部署机器学习模型。Amazon Elastic MapReduce (EMR) 是一种 Web 服务,让您能够轻松快速并经济高效地处理大量的数据。从今天开始,客户可以使用 Studio 笔记本轻松地以安全的方式连接到 Amazon EMR 集群,并准备大量数据以用于分析和报告、模型培训或推理。 

数据准备是机器学习工作流程中的关键步骤。借助 SageMaker Studio,您可以根据自己的喜好使用各种工具进行数据准备。如果您喜欢编写代码,您可以通过 SageMaker Studio 笔记本使用库和开发工具包以交互的方式准备数据,或者结合使用 Amazon SageMaker Processing 与内置 Spark 容器来批量处理大量数据。但是,如果您希望将 Studio 笔记本连接到现有的 EMR 集群以访问和处理数据,则需要先手动设置环境,设置自己的 Sparkmagic 内核,配置目标集群信息,安装用于身份验证的 Kerberos 等工具,然后才能运行 Spak 或 Hive 作业。 

Amazon SageMaker Studio 现在带有内置工具,借此您可以轻松快速地将笔记本安全地连接到 EMR 集群,以处理大量数据。您可以使用带有 PySpark 内核的内置 SageMaker 映像创建 Studio 笔记本,使用内置命令连接到 EMR 集群,并且只需几个步骤即可开始运行 Spark 或 Hive 作业以处理数据。为了提高安全性,您可以在连接到 EMR 集群时使用 Kerberos 身份验证。此功能现已在由光环新网运营的亚马逊云科技中国(北京)区域和由西云数据运营的亚马逊云科技中国(宁夏)区域推出。有关更多信息,请参阅 Amazon SageMaker Studio 文档