发布于: Sep 28, 2021

今天,我们很高兴地宣布推出 Amazon Glue 3.0 版,Amazon Glue 的这一新版本可加快 Amazon Web Services 中的数据集成工作负载。Amazon Glue 3.0 引入了性能优化的 Spark 运行时,其中包括来自 Amazon Glue 和 Amazon EMR 的优化,且是基于开源 Apache Spark 3.1.1。Amazon Glue 3.0 运行时使用更快的矢量化读取器和已经 Amazon S3 优化的输出提交器,优化了对Amazon Simple Storage Service(Amazon S3)的读写访问。它还使用分区谓词来优化对 Amazon Glue 数据目录的访问。对于高度分区的数据集,Glue 3.0 通过使用分区索引筛除掉不必要的分区来提高执行速度。 Amazon Glue 3.0 运行时也已与 Amazon Lake Formation 实现完全集成,因此您可以使用资源名称和基于访问控制的 Amazon Lake Formation 标签来保障不同粒度数据访问的安全,例如数据库、表、列、行和单元级访问控制。 借助 Amazon Glue 3.0,我们还引入了新功能,以改善监控、调试和调优 Spark 应用程序时的用户体验。Spark 3.1.1 实现了对Spark UI 体验的改进,其中包括新的 Spark 执行器内存指标Spark 结构化流式传输指标,这些指标对 Amazon Glue 流式传输任务非常有用。与 Amazon Glue 2.0 类似的是,Amazon Glue 3.0 减少了启动延迟并缩短了整体任务完成时间。

AMAZON Glue 3.0 现已在所有支持 Amazon Glue 的区域推出,其中包括由光环新网运营的亚马逊云科技中国(北京)区域和由西云数据运营的亚马逊云科技中国(宁夏)区域。要了解有关此功能的详情,请访问博客Amazon Glue 用户指南