发布于: May 13, 2021

EMR 6.3 上的 Amazon EMR 与 Apache Ranger 集成现已在由光环新网运营的亚马逊云科技中国(北京)区域和西云数据运营的亚马逊云科技中国(宁夏)区域推出。您可以通过此功能定义、强制执行和审核精细的数据访问控制。借助此功能,您可以通过 Hive Metastore 为 Apache SparkApache Hive 用户定义和强制执行 1/ 数据库、表和列级授权策略,并在通过 Amazon EMR File System (EMRFS) 访问 Amazon S3 中的数据时定义和强制执行 2/ 前缀和对象级授权策略,从而利用 Amazon CloudWatch 捕获审计日志。

Apache Ranger 是一种开源工具,用于在 Hadoop 平台上启用、监控和管理全面的数据安全性。以前,您可以使用 Apache Ranger 按照本博文所述对 HDFS 中使用 Apache Hive 的数据强制实施精细授权。现在,这种本机集成还实现了其他功能。您可以在 Apache Ranger 策略管理服务器上定义三种类型的授权策略。您可以为 Apache Hive 设置表、列和行级授权,为 Apache Spark 设置表和列级授权,以及为 Amazon S3 设置前缀和对象级授权。Amazon EMR 会自动在集群上安装和配置相应的 Apache Ranger 插件。这些 Ranger 插件与授权策略的策略管理服务器同步,强制实施数据访问控制,并将审计事件发送到 Amazon CloudWatch Logs

下面是在 Amazon EMR 上启用 Apache Ranger 集成之前应考虑的一些注意事项和限制。1/ 目前只有 Apache Hive 支持行级授权和数据屏蔽策略。2/ 在使用 Spark API 配合 Java、Scala、R 和 Pyspark 读取和写入数据时,EMR Ranger-Spark 插件强制实施精细授权。但是,目前不支持在启用 Ranger 的集群上使用 Spark SQL 写入数据;仅支持使用 SparkSQL 读取数据。3/ 本机集成支持 Apache Zeppelin 和 Hue 等选定应用程序。有关受支持应用程序的完整列表,请参阅支持的应用程序

EMR 6.3 上的 Amazon EMR 与 Apache Ranger 集成现已在由光环新网运营的亚马逊云科技中国(北京)区域和西云数据运营的亚马逊云科技中国(宁夏)区域推出

要开始使用,请查看以下资源列表: