- 首页›
- 亚马逊云科技文档概述›
- Amazon Glue 文档
Amazon Glue 文档
概述
Amazon Glue 是一项无服务器数据集成服务,可帮助您轻松准备数据,以用于分析、机器学习和应用程序开发。Amazon Glue 可提供数据集成所需的各项能力,让您能在几分钟内获取见解并使用数据。
数据探索
在您的所有亚马逊云科技数据集中发现和搜索
Amazon Glue Data Catalog 旨在成为一款永久的元数据存储服务,可用于管理您所有的亚马逊云科技数据资产,无论这些数据资产位于何处。Data Catalog 包含表定义、作业定义、架构和其他控制信息,可帮助您管理 Amazon Glue 环境。该服务设计为可自动计算统计信息并注册分区,以便高效且有效地针对您的数据进行查询。此外,它还会维护一个架构版本历史记录,以便您能够了解数据随时间推移的变化。
自动发现架构
Amazon Glue 爬网程序设计为连接到源或目标数据存储,按分类器的优先级列表逐个抓取来确定数据的架构,然后在 Amazon Glue Data Catalog 中创建元数据。元数据存储在数据目录的表中,可在 ETL 作业的创建过程中使用。您可以按计划、按需运行爬网程序,或者根据事件触发爬网程序,以确保您的元数据是最新的。
管理和强制执行数据流的架构
Amazon Glue Schema Registry 是 Amazon Glue 的一项无服务器功能,可帮助您使用注册的 Apache Avro 架构验证和控制流数据的演变。通过 Apache 许可的序列化器和反序列化器,Schema Registry 在设计上可与为 Apache Kafka、Amazon Managed Streaming for Apache Kafka(MSK)、Amazon Kinesis Data Streams、Apache Flink、Amazon Kinesis Data Analytics for Apache Flink 和 Amazon Lambda 开发的 Java 应用程序集成。当您将数据流应用程序与 Schema Registry 集成时,它可以帮助提高数据质量,并使用管理架构演变的兼容性检查来并帮助防止意外更改。此外,您还可以使用存储在注册表中的架构创建或更新 Amazon Glue 表和分区。
根据工作负载自动扩展
Amazon Glue Autoscaling 是 Amazon Glue 的一项无服务器功能,可根据工作负载动态地向上和向下扩展资源。使用 Autoscaling 时,只会在需要时为您的作业分配工作节点。随着作业推进以及执行高级转换,Amazon Glue 会根据工作负载的可拆分程度来添加或删除资源。您无需再为资源过度预置、花时间优化工作节点数量,或者为闲置资源付费而担心。
数据转换
使用拖放界面直观地转换数据
Amazon Glue Studio 可帮助您编写可扩展的 ETL 作业,让您无需成为 Apache Spark 专家即可进行分布式处理。在拖放作业编辑器中定义 ETL 流程,Amazon Glue 会生成用于提取、转换和加载数据的代码。代码使用 Scala 或 Python 生成,并针对 Apache Spark 编写。
通过简单的作业安排构建复杂的 ETL 管道
Amazon Glue 作业可以按计划、按需或者根据事件进行调用。您可以并行启动多个作业,或者指定作业之间的依赖关系,以构建复杂的 ETL 管道。Amazon Glue 设计为可处理作业之间的所有依赖关系、筛选不良数据,以及在作业失败时重试。日志和通知会推送到 Amazon CloudWatch,以便您从中心服务处进行监控并获得提醒。
动态清理和转换流数据
Amazon Glue 中的无服务器流 ETL 作业设计为可持续使用来自包括 Amazon Kinesis 和 Amazon MSK 在内的流来源的数据,清理和转换正在运行的数据,以及在目标数据存储中使用数据进行分析。您可以使用此功能来处理 IoT 事件流、点击流和网络日志等事件数据。Amazon Glue 流 ETL 作业可以帮助您丰富和聚合数据、加入批处理和流式传输源,以及运行各种复杂的分析和机器学习操作。
集成
简化数据集成作业的开发流程
Amazon Glue 交互式会话是作业开发的一项无服务器功能,可简化数据集成作业的开发流程。Amazon Glue 交互式会话使数据工程师能够以交互方式探索和准备数据。工程师可以使用自己选择的 IDE 或笔记本电脑,以交互方式浏览、试验和处理数据。
内置作业笔记本
Amazon Glue Studio 作业笔记本在 Amazon Glue Studio 中提供无服务器笔记本功能,且所需配置极少,因此开发人员可快速上手使用。此外,Glue Studio 作业笔记本还为 Amazon Glue 交互式会话提供内置界面,用户可通过该界面将笔记本中的代码保存并调度为 Amazon Glue 作业。
数据准备
使用内置的机器学习消除重复数据和清理数据
即便您不是机器学习专家,也可借助 Amazon Glue 清理和预处理数据,为分析做好准备。其 FindMatches 功能旨在实现数据去重并查找彼此不完全匹配的记录。例如,您可以使用 FindMatches 工具来帮助查找餐厅数据库中的重复记录,例如一条记录列出了“121 Main St.”的“Joe's Pizza”,另一条记录显示了“121 Main”的“Joseph's Pizzeria”。FindMatches 仅要求您将记录集标记为“匹配”或“不匹配”。 该系统旨在了解您将一对记录视为“匹配”的标准,并构建 ETL 作业,您可以使用该作业来帮助查找数据库中的重复记录或两个数据库中的匹配记录。
通过开发人员终端节点编辑、调试和测试 ETL 代码
如果您选择以交互方式开发 ETL 代码,Amazon Glue 会提供开发端点,以供您编辑、调试和测试为您生成的代码。您可以使用自己最喜欢的 IDE 或笔记本电脑。您可以编写自定义读取器、写入器或转换程序,并将其作为自定义库导入 Amazon Glue ETL 作业中。您还可以在我们的 GitHub 存储库中与其他开发人员共用和分享代码。
使用可视化界面标准化数据而无需编写代码
Amazon Glue DataBrew 提供了一个交互式的点击式视觉界面,可帮助数据分析师和数据科学家等用户清理和规范化数据,无需编写代码。您可以可视化、清理和规范化数据湖、数据仓库和数据库(包括 Amazon S3、Amazon Redshift、Amazon Aurora 和 Amazon RDS)中的数据。您可以从 250 多种内置转换中进行选择,以便合并、透视和转置数据,并通过将保存的转换直接应用于新传入数据来自动执行数据准备任务。
定义、检测并修复敏感数据
借助 Amazon Glue 敏感数据检测功能,您可以定义、识别和处理数据管道和数据湖中的敏感数据。识别出敏感数据后,您可以通过编辑、替换或报告个人身份信息(PII)数据及其他被认定为敏感的数据类型,对敏感数据进行修复处理。Amazon Glue 敏感数据检测功能可简化敏感数据的识别与掩蔽流程,这些敏感数据包括姓名、SSN、地址、电子邮件和驾照等个人身份信息。
其他信息
有关服务控制、安全特性及功能的其他信息,包括有关存储、检索、修改、限制和删除数据的信息,请参见:https://docs.amazonaws.cn/。以上链接包含的信息不构成光环新网关于亚马逊云科技(北京区域)的客户协议或西云数据关于亚马逊云科技(宁夏区域)的客户协议的“文档”的一部分,也不构成您与光环新网或西云数据之间就您使用亚马逊云科技中国区域服务达成的其他协议的任何部分。