发布于: Jul 9, 2025

Amazon Glue 数据质量自动监测功能现已在亚马逊云科技中国区域正式推出。Glue 数据质量自动监测功能自动测量并监控数据存储库和 Amazon Glue ETL 管道中的数据质量。

Amazon Glue 数据质量自动监测功能通过自动分析您的数据来收集数据统计信息,从而帮助减少对手动数据质量工作的需求。该功能使用开源 Deequ 来评估规则,测量并监控 PB 级数据湖的数据质量。然后,会推荐数据质量规则开始使用。您可以更新推荐规则或添加新规则。如果数据质量恶化,您可以配置操作来提醒用户并深入了解问题的根本原因。还可以在 Amazon Glue 数据管道上配置数据质量规则和操作,这有助于防止“不良”数据进入数据湖和数据仓库。

此外,Glue DQ 在 Glue ETL 中具有基于机器学习的异常检测功能,该功能使用高级算法来检测难以发现的数据质量问题和异常。虽然基于规则的方法适用于已知的数据模式,但此功能可帮助客户主动识别意想不到的问题。数据工程师和分析师可以编写规则或分析器,然后在 Glue ETL 中启用“异常检测”,收集列统计数据,应用机器学习算法,并生成易于理解的视觉观测结果来解释检测到的问题。

要了解更多信息,请访问 Amazon Glue 数据质量自动监测功能

这些新功能现已作为 Amazon Glue 在各区域推出
• 由光环新网运营的亚马逊云科技中国(北京)区域
• 由西云数据运营的亚马逊云科技中国(宁夏)区域

要了解更多信息,请访问 Amazon Glue 文档