跳至主要内容

Amazon S3

Amazon S3 表类数据存储服务

随着数据湖的扩展,优化查询性能和成本

Amazon S3 表类数据存储服务入门

Amazon S3 表类数据存储服务提供了首个具有内置 Apache Iceberg 支持的云对象存储,而且简化了表格数据的大规模存储。持续的表优化会在后台自动扫描和重写表数据,实现最佳查询性能,随着时间的推移,这种性能将继续改善。S3 表类数据存储服务包括特定于 Iceberg 工作负载的优化,与存储在通用 S3 存储桶中的 Iceberg 表相比,每秒可提供高达 10 倍的事务量。此外,借助 Intelligent-Tiering 存储类别,S3 表类数据存储服务可以根据访问模式自动优化成本,不会影响性能或运营开销。

借助为 Apache Iceberg 标准版提供的 S3 表类数据存储服务支持,可以使用常用的亚马逊云科技查询引擎和第三方查询引擎轻松查询您的表格数据。使用 S3 表类数据存储服务将每日采购记录、流式传输传感器数据或广告展示次数等表格数据存储为 Iceberg 表,并使用自动表格维护随着数据的变化优化性能和成本。

优势

Amazon S3 表类数据存储服务的优势

可扩展性

轻松扩展数据湖(从第一个表到企业规模)管理数千个 Iceberg 表,无需担心基础设施或维护开销。

增强的性能

与非托管式 Iceberg 表相比,通过持续的表优化(包括高级排序和堆叠顺序压缩)获得更快的查询性能,并且与存储在通用 S3 存储桶中的 Iceberg 表相比,每秒的事务量高出 10 倍。

完全托管式

自动执行表维护任务,包括压缩、快照管理和未引用文件移除,进而持续优化性能并降低成本。使用 Intelligent-Tiering 存储类别进一步优化主动查询数据的成本。利用 CloudWatch 中的精细指标以及 CloudTrail 中的存储、请求和维护操作日志,获得运营可见性。

高级分析

通过 S3 表类数据存储服务与 Amazon Glue Data Catalog 的集成,使用 Amazon Athena、Redshift 和 EMR 等熟悉的亚马逊云科技服务访问高级 Iceberg 分析功能并查询数据。此外,您还可以使用 Apache Spark、Apache Flink、Trino、DuckDB、PyIceberg 等与 Iceberg REST 兼容的第三方应用程序,对 S3 表类数据存储服务执行数据读写操作。

简化的安全性

使用 IAM 资源策略将表作为一流的亚马逊云科技资源进行管理,实现表级访问控制。使用标签进行基于属性的访问控制(ABAC),进而大规模简化权限管理。使用客户自主管理型密钥通过 Amazon KMS 加密保护数据,保持对加密策略的控制。

工作原理

S3 表类数据存储服务提供专门构建的 S3 存储方案,用于以 Apache Iceberg 格式存储结构化数据。在表存储桶内,您可以直接在 S3 中将表创建为一流资源。这些表可以使用基于身份或基于资源的策略定义的表级权限进行保护,并且可以通过支持 Apache Iceberg 标准版的应用程序或工具访问。当您在表存储桶中创建表时,S3 会保留必要的元数据,使您的应用程序能够查询该数据。表存储桶包含一个 Iceberg REST 目录端点,任何与 Iceberg 兼容的查询引擎均可使用该端点发现、访问和更新表存储桶中表的 Iceberg 元数据。这样,多个客户端就能够安全地对您的表中的数据执行读写操作。随着时间的推移,S3 会通过重写或“压缩”对象来自动优化底层数据。压缩操作可以优化 S3 上的数据,从而提高查询性能。此外,快照过期清理和未引用文件移除功能还可以在表中的数据老化时优化存储成本。要了解更多信息,请参阅用户指南