Amazon SageMaker Studio 现在支持对 Amazon Lake Formation 和 Amazon EMR 进行精细数据访问控制

发布于: May 30, 2023

Amazon SageMaker Studio 是面向机器学习的完全集成开发环境（IDE），让数据科学家和开发人员能够执行机器学习流程的每个步骤，不管是准备数据还是构建、训练、微调和部署模型。 SageMaker Studio 内置与 Amazon EMR 的集成，因此，数据科学家可以使用 Studio 笔记本中的开源框架（如 Apache Spark、Hive 和 Presto）交互式准备 PB 级别数据。数据通常存储在由 Amazon Lake Formation 托管的数据湖中，这使您可以通过简单的授权或撤销机制进行精细访问控制。我们很高兴地宣布，SageMaker Studio 现在支持在访问 Amazon EMR 中的数据时对 Amazon Lake Formation 应用此精细数据访问控制。

到目前为止，当您在 EMR 集群上运行多个数据处理作业时，所有作业都会使用相同的 Amazon Identity and Access Management (IAM) 角色（即集群的 EC2 实例配置文件）来访问数据。因此，要运行需要访问不同数据源（例如不同的 S3 存储桶）的作业，您必须使用允许访问所有此类数据源合并的策略来配置 EC2 实例配置文件。此外，为了让一组用户能够差异化访问数据，您必须创建多个单独的集群，每个组一个，这就会产生运营开销。另外，从 Studio 笔记本向 EMR 提交的作业无法通过 Amazon LakeFormation 应用精细数据访问控制。

即日起，从 SageMaker Studio 笔记本连接到 Amazon EMR 集群时，您可以直观地进行浏览并选择名为运行时 IAM 角色的实时 IAM 角色。随后，通过 Studio 笔记本创建的所有 Apache Spark、Apache Hive 或 Presto 作业将仅访问附加到运行时角色的策略所允许的数据和资源。此外，当从由 Amazon LakeFormation 托管的数据湖访问数据时，您可以使用附加到运行时角色的策略强制执行表级和列级访问。借助这项新功能，多个 SageMaker Studio 用户可以连接到同一个 EMR 集群，这些用户每个都拥有一个运行时 IAM 角色，其权限范围与其个人数据访问级别匹配。其用户会话也在共享集群上完全相互隔离。通过对同一共享集群上的数据的精细访问控制功能，客户可以简化 EMR 集群的配置，从而减少运营开销并节省成本。

此功能现已在由光环新网运营的亚马逊云科技中国（北京）区域和由西云数据运营的亚马逊云科技中国（宁夏）区域中在连接至 Amazon EMR 6.9 时的 Amazon SageMaker Studio 中全面支持。要详细了解 SageMaker Studio，请访问 SageMaker 用户指南。

Amazon SageMaker Studio 现在支持对 Amazon Lake Formation 和 Amazon EMR 进行精细数据访问控制

关于我们

产品与解决方案

资源与支持

管理账户

亚马逊云科技中国简介

Amazon SageMaker Studio 现在支持对 Amazon Lake Formation 和 Amazon EMR 进行精细数据访问控制

终止对 Internet Explorer 的支持