概述
Amazon Glue 是一项无服务器数据集成服务,可用于轻松准备数据,以便进行分析、机器学习和应用程序开发。Amazon Glue 提供有数据集成所需的所有功能,从而让您只需几分钟而不是几个月即可获得见解并使您的数据付诸使用。使用 Amazon Glue,无需设置或管理基础设施。您只需为运行作业时耗费的资源付费。
数据发现
全部打开-
Amazon Glue 数据目录是您所有数据资产的持久性元数据存储,且无论数据资产位于何处都将如此。数据目录包含表定义、作业定义、架构和其他控制信息,以帮助您管理 Amazon Glue 环境。它会自动计算统计信息并注册分区,以便经济高效地针对您的数据进行查询。它还会维护一个全面的架构版本历史记录,以便您能够了解数据是如何随着时间变化的。
-
Amazon Glue 抓取程序可以连接到源或目标数据存储,按分类器的优先级列表逐个抓取来确定数据的架构,然后在 Amazon Glue 数据目录中创建元数据。元数据存储在数据目录的表中,会在 ETL 作业的创建过程中使用。您可以按计划、按需运行抓取程序,或者根据事件触发抓取程序,以确保您的元数据是最新的。
-
Amazon Glue Schema Registry 是 Amazon Glue 的一项无服务器功能,使您能够使用注册的 Apache Avro 架构验证和控制流数据的演变,而无需额外付费。通过 Apache 许可的序列化器和反序列化器,Schema Registry 与为 Apache Kafka、Amazon Managed Streaming for Apache Kafka(MSK)、Amazon Kinesis Data Streams、Apache Flink、Amazon Kinesis Data Analytics for Apache Flink 和 Amazon Lambda 开发的 Java 应用程序相集成。当数据流应用程序与 Schema Registry 集成时,您可以使用管理架构演变的兼容性检查来提高数据质量并防止意外更改。此外,您还可以使用存储在注册表中的架构创建或更新 Amazon Glue 表和分区。
数据转换
全部打开-
Amazon Glue 作业可以按计划、按需或者根据事件进行调用。您可以并行启动多个作业,或者指定作业之间的依赖关系,以构建复杂的 ETL 管道。Amazon Glue 能够处理作业之间的所有依赖关系、筛选不良数据,以及在作业失败时进行重试。所有日志和通知都会推送到 Amazon CloudWatch,以便您从中心服务处进行监控和获得提醒。
-
Amazon Glue 中的无服务器流 ETL 作业持续使用来自包括 Amazon Kinesis 和 Amazon MSK 在内的流来源的数据,清理和转换正在运行的数据,并在几秒钟内在目标数据存储中使用数据进行分析。使用此功能可处理 IoT 事件流、点击流和网络日志等事件数据。Amazon Glue 流 ETL 作业可以丰富和聚合数据、加入批处理和流来源以及运行各种复杂的分析和机器学习操作。
数据准备
全部打开-
Amazon Glue 可帮助清理和准备数据以进行分析,而无需成为机器学习专家。它的 FindMatches 具有消除重复数据功能,并且可查找彼此不完美匹配的记录。例如,使用 FindMatches 工具来查找餐厅数据库中的重复记录,例如一条记录列出了“121 Main St.”的“Joe's Pizza”,另一条记录显示了“121 Main”的“Joseph's Pizzeria”。FindMatches 仅要求您将记录集标记为“匹配”或“不匹配”。 然后,系统会了解您将一对记录视为“匹配”的标准,并构建 ETL 作业,以供您用来查找数据库中的重复记录或两个数据库中的匹配记录。
-
如果您选择以交互方式开发 ETL 代码,Amazon Glue 会提供开发端点,以供您编辑、调试和测试为您生成的代码。您可以使用自己最喜欢的 IDE 或笔记本电脑。您可以编写自定义读取器、写入器或转换程序,并将其作为自定义库导入 Amazon Glue ETL 作业中。您还可以在我们的 GitHub 存储库中与其他开发人员共用和分享代码。
-
Amazon Glue DataBrew 为数据分析师和数据科学家等用户提供了一个交互式的点击式视觉界面,无需编写代码即可清理和规范化数据。您可以轻松可视化、清理和规范化数据湖、数据仓库和数据库(包括 Amazon S3、Amazon Redshift、Amazon Aurora 和 Amazon RDS)中的数据。您可以从 250 多种内置转换中进行选择,以合并、透视和转置数据,并通过将保存的转换直接应用于新传入数据来自动执行数据准备任务。