发布于: May 30, 2023

Amazon Glue 现在提供 3 种新功能:自定义可视化转换,该功能让客户可以在其团队中定义、重复使用和共享业务特定 ETL 逻辑;三种开源数据湖存储框架,该功能可以事务一致的方式在 Amazon Simple Storage Service (Amazon S3) 中读取和写入数据;以及新连接器。Amazon Glue 是一项无服务器、可扩展的数据集成服务,该服务使您可以更轻松地发现、准备、移动和集成多个来源的数据。借助这些新功能,数据工程师可以为 Amazon Glue 可视任务编辑器写入可重复使用的转换,以开源数据湖格式标准写入数据,并连接到更多原生数据存储。

您可以使用 Apache Spark 代码和用户输入表单定义 Amazon Glue 自定义可视化变换。此外,您还可以为输入表单指定验证,以帮助保护用户,使其免犯错误。将定义转换的文件保存到您的账户后,它会自动出现在可视化任务编辑器中可用转换的下拉列表中。您可以调用可视化和基于代码的任务中的自定义可视化转换,并且在账户之间共享转换也非常简单。此外,在读取或写入数据时,数据湖框架简化了在 Amazon S3 上构建的数据湖中的增量数据处理。它们支持的功能包括时间旅行查询、ACID(原子性、一致性、隔离、耐久性)事务、流式摄取、变更数据捕获 (CDC)、upsert 和删除。

本次升级在提供 Amazon Glue 服务的区域开放

  • 由光环新网运营的亚马逊云科技中国(北京)区域
  • 由西云数据运营的亚马逊云科技中国(宁夏)区域

要了解更多信息,请访问我们的文档