跳至主要内容

Amazon Glue

Amazon Glue Data Quality

在数据湖和管道中提供高质量的数据

概述

如果没有适当的监督,数据湖可能会变成数据沼泽。设置数据质量检查非常耗时、乏味且容易出错。您必须手动创建数据质量规则并编写代码来监控数据管道,在数据质量下降时提醒数据使用者。Amazon Glue 数据质量自动监测功能将这些手动质量监测工作从几天缩短到几小时。该功能会自动计算统计数据,推荐质量规则,进行监测,并在检测到问题时提醒您。对于隐藏和难以发现的问题,Glue 数据质量自动监测功能使用机器学习算法。基于规则的方法和机器学习方法相结合,再加上无服务器、可扩展和开放的解决方案,使您能够提供高质量的数据,从而做出自信的业务决策。 

功能

Amazon Glue 是无服务器服务,因此您无需管理基础设施即可进行扩展。该服务可以根据任何数据大小进行扩展,并具有按使用量付费的计费功能,进而提高灵活性并降低成本。Amazon Glue 数据质量自动监测功能使用 Deequ,这是亚马逊构建的开源框架,用于管理 PB 级数据集。由于使用开源方法构建,Amazon Glue 数据质量自动监测功能提供不受限制的灵活性和可移植性。

Amazon Glue 数据质量自动监测功能会自动计算您的数据集的统计数据。使用这些统计数据来推荐一套质量规则,检查新鲜度、准确性、完整性甚至难以发现的问题。您可以根据需要调整推荐规则、放弃规则或添加新规则。如果检测到质量问题,Amazon Glue 数据质量自动监测功能还会提醒您,以便您可以对其采取措施。

Amazon Glue 数据质量自动监测功能非常智能。该功能使用机器学习算法学习随时间推移收集的数据统计数据模式。可以检测异常、异常数据模式并提醒用户。还会自动创建规则来监测这些特定模式,以便您可以逐步构建数据质量规则。

您的数据存储在不同的存储库中,会从一个存储库移动到另一个存储库。在数据登录和传输过程中,监测数据的质量非常重要。Amazon Glue 数据质量自动监测功能规则可以应用于数据集和数据湖中的静态数据,也可以应用于数据流动的整个数据管道。您可以将规则应用于多个数据集。对于基于 Amazon Glue Studio 构建的数据管道,您可以应用转换来评估整个管道的质量,而与数据已经在内存中的情况相比,成本只是一小部分。您还可以定义规则,在质量下降时停止管道,防止不良数据登录到数据湖。

使用超过 25 条开箱即用的 Amazon Glue 数据质量自动监测功能规则来验证您的数据并识别导致问题的特定数据。使用开箱即用的规则,实施数据质量检查,在几分钟内比较不同数据来源中的不同数据集。使用 Glue ETL,您可以轻松修复这些问题,并将高质量的数据摄取到您的数据存储库中。