我们使用机器学习技术将英文博客翻译为简体中文。您可以点击导航栏中的“中文(简体)”切换到英文版本。
更多内容:Amazon S3 Tables 如何在前 5 个月内快速提供新功能
Amazon S3 在 2006 年作为第一项普遍可用的亚马逊云科技服务推出时重新定义了数据存储,以提供几乎无限扩展的高度可靠、耐用、安全、低延迟的存储。虽然 S3 旨在提供简单的存储,但事实证明,它是为处理我们在过去 19 年中看到的数据爆炸式增长而构建的。就在 10 年前,只有不到 100 个 S3 客户存储了 1PB 以上的数据。如今,有成千上万的客户存储的存储量不止于此,实际上,有些个人客户存储了数艾字节的数据。我们大多数人认为这是理所当然的事情,但是 S3 消除了客户扩展存储空间的挑战,同时又经济高效、耐用且安全地实现了这一目标。
可扩展性、性能、成本效益、易用性和耐用性是 S3 成为超过一百万个数据湖的基础的部分原因,这些数据湖为交互式数据分析、财务建模、实时广告和人工智能等延迟敏感型应用程序提供支持。虽然我们经常听到的最好的赞美之一是"S3 可以正常工作",但我们经常问:"我们如何让 S3 更好运行...?"
与客户的密切合作表明了需求:让 S3 更强大地处理分析工作负载。随着 Apache Parquet 成为大型数据集的首选格式,许多 S3 客户存储了数百万或数十亿个 Parquet 文件,随着 Apache Iceberg 逐渐成为最流行的 Parquet 文件管理解决方案,我们看到了简化数据湖管理的机会。
尽管 Iceberg 提供了强大的表格格式,可实现海量数据集的事务一致性和 SQL 查询,但对其进行大规模管理会增加操作复杂性。它需要专门的团队来构建自定义系统,以优化表格以提高成本和性能,这需要许多组织缺乏的专业知识。
这就是我们在亚马逊云科技 re:Invent 2024 上推出 Amazon S3 Tables 的原因。Amazon S3 Tables 引入了专门构建的表格存储和新的 Iceberg 表存储桶类型,可轻松在 S3 中存储结构化数据。S3 Tables 可自动处理压缩、快照管理和未引用文件删除等维护任务,因此即使您的数据湖在扩展,您也可以持续优化查询性能和成本。
自发布以来的势头简直非同寻常。在五个月的时间里,S3 团队通过直接回应客户反馈来推动创新。例如,S3 Tables 从 3 个亚马逊云科技区域扩展到 30 个,推出了强大的新功能,引入了迁移解决方案,并与亚马逊云科技和第三方分析服务建立了集成。
在这篇文章中,我概述了 S3 Tables 中的关键启动以及如何在分析工作流程中使用它们。

自发布以来的更新
亚马逊云科技和第三方分析应用程序之间的无缝集成
S3 Tables 与 Amazon SageMaker Lakehouse 集成,可通过各种分析引擎和工具提供统一的 S3 表格数据访问。通过这种集成,您可以从 Amazon SageMaker Unified Studio 访问 SageMaker Lakehouse,这是一个汇集了来自亚马逊云科技分析和人工智能/机器学习服务的功能和工具的单一数据和人工智能开发环境。所有集成到 SageMaker Lakehouse 的 S3 表格数据都可以从 SageMaker Unified Studio 和 Amazon Athena、Amazon EMR、Amazon Redshift 等引擎以及兼容 Apache Iceberg 的引擎(例如 Apache Spark、Trino 或 PyiceBerg)中查询。通过这种集成,您可以简化安全分析工作流程的构建,在其中可以读取和写入 S3 表,并与 Redshift 数据仓库以及第三方和联合数据源(例如 Amazon DynamoDB 或 PostgreSQL)中的数据联接。这种统一的数据管理体验使您可以使用各种亚马逊云科技和第三方查询引擎和应用程序分析数据,同时通过 SageMaker Unified Studio 中的集中式细粒度权限管理安全性。阅读博客文章以获取更多信息。
使用任何兼容引擎上的 Apache Iceberg REST 目录标准访问 S3 表
S3 Tables 添加了与 Apache Iceberg REST Catalog 标准兼容的表管理 API,使您能够使用任何与 Iceberg 兼容的查询引擎(例如 Spark、Trino、Pyiceberg 或 DuckDB)直接从 S3 表访问表格数据。S3 Tables Iceberg REST 终端节点可用于访问亚马逊云科技合作伙伴网络 (APN) 目录实现或自定义目录实现中的表。如果您只需要对单个表存储桶的基本读/写访问权限,也可以使用它。随着支持 Iceberg 的应用程序社区不断壮大,这些 API 使您可以更轻松地将首选应用程序集成到数据管道的每个步骤。阅读文档以开始使用。
使用 Athena 可以更轻松地从 S3 控制台上手
我们通过 S3 控制台简化了 S3 Tables 的入门流程。您可以创建表,在其中填充数据,使用 Athena 查询表,所有这些都在 S3 控制台中完成。通过这种集成,比以往任何时候都更容易开始通过亚马逊云科技分析服务自动发现数据,以查询新的或现有的表存储桶。
增强的架构定义功能
我们在 CreateTable API 中添加了架构定义支持,使您能够通过 CLI 命令轻松创建具有完整架构的表,而无需启动与 Iceberg 兼容的引擎。使用其架构创建表后,您可以开始流式传输来自各种来源的交易、日志或其他数据,例如 Apache Kafka、Apache Flink 和 Amazon Data Firehose。这种简化的工作流程可帮助您更有效地构建数据基础架构,同时保持对表结构的精确控制。
按比例计算的表格配额
我们支持在每个表存储桶内创建多达 10,000 个表,从而显著提高了 S3 Tables 的可扩展性。这意味着数据团队可以在单个亚马逊云科技区域和亚马逊云科技账户内通过 10 个表存储桶扩展多达 100,000 个表。此增强功能使组织能够以更高的效率和灵活性管理不断增长的数据需求。
将表格数据从 S3 迁移到 S3 Tables 的指南
本解决方案指南演示了如何将表格数据从通用 S3 存储桶迁移到 S3 Tables。它向您展示了如何通过使用 Amazon Step Functions、EMR 和 Amazon Glue 数据目录来设置自动迁移流程来移动 Apache Iceberg 和 Apache Hive 表。迁移后,您将受益于更高的性能和成本节约。
使用 Amazon KMS 进行服务器端加密
S3 Tables 现在提供增强的加密选项,并支持客户管理的密钥 Amazon Key Management Service (SSE-KMS)。虽然默认情况下使用 S3 管理的密钥对表进行加密,但您现在可以为特定表或整个表存储桶实现自己的 KMS 密钥。此功能可以更好地遵守监管要求,包括 S3 存储桶密钥以提高成本效益,并提供 Amazon CloudTrail 日志以进行安全审计。
区域可用性
S3 Tables 现已在三十个亚马逊云科技区域推出,不久还会有更多区域推出。查看文档,了解当前支持的亚马逊云科技区域列表。
我们正在倾听和交付
我们不断收集客户和合作伙伴的反馈,以增强 S3 Tables。通过整合这些宝贵的见解,我们正在提高 S3 Tables 对数据湖工作负载的性能。
许多客户正在使用 S3 Tables 来扩展其生产工作负载。Genesys 是人工智能体验编排领域的全球云领导者,重点介绍了 S3 Tables 的托管 Iceberg 支持如何简化其复杂的数据工作流程,同时提高性能。在 Pendulum,他们分析来自数亿个社交渠道的数据,S3 Tables 通过自动化关键维护任务,改变了他们的数据湖管理,使他们的团队能够专注于获得切实可行的见解。医疗保健技术提供商 Zus Health 强调了 S3 Tables 的托管优化功能对于处理经常变化的患者数据特别有价值,而 SnapLogic 则指出了该功能如何帮助公司在保持监管合规性的同时优化分析成本。
根据客户需求,我们还与合作伙伴合作建立无缝集成。支持 Apache Iceberg REST API 可实现与 Dremio 和 DuckDB 的直接互操作性。Snowflake 重点介绍了他们的客户现在如何以非凡的简单性无缝读取和处理 S3 Tables 数据,而 StreamNative 则强调了集成如何使实时、人工智能就绪的数据更易于访问且更具成本效益。从 Starburst 到 PuppyGraph 等各行各业的合作伙伴都在使用 S3 Tables 来增强其在图形分析到工业数据运营等领域的产品,展示了在支持各种用例和工作负载方面的多功能性。
结论
Amazon S3 Tables 的快速发展表明我们致力于简化数据湖管理,同时支持强大的分析功能。这些改进已经帮助各行各业的组织从其表格数据中获得新的见解。我们很高兴能根据您的反馈继续创新——敬请关注更多进展!
要了解更多信息:
- 浏览 S3 Tables 概述页面,了解客户和合作伙伴的感言
- 继续在亚马逊云科技存储博客上阅读 S3 Tables
- 访问 S3 Tables 用户指南以获取详细的技术指导
*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您发展海外业务和/或了解行业前沿技术选择推荐该服务。