发布于: Dec 4, 2018

现在,客户可以获取 Apache Parquet 文件格式的 Amazon S3 Inventory 报告。Amazon S3 Inventory 为存储桶或共享前缀提供对象和选定元数据的平面文件列表。您可以使用 S3 Inventory 列出、审计和报告对象的状态,或者使用它简化和加快业务工作流和大数据作业。 

Parquet 是一种列式存储文件格式,和 ORC(优化行列式)类似。它可用于 Hadoop 生态系统中的任何项目,无论选择什么数据处理框架、数据模型或编程语言。借助列式存储格式,读取程序可以只读取、解压和处理当前查询所需的列。如要使用 Amazon Athena 或 Redshift Spectrum 等应用程序或使用诸如 Apache Hive、Spark、HBase 或 Presto 之类的工具查询 S3 Inventory,我们建议您将清单配置为 Parquet 或 ORC 格式,以获得更快的查询性能和更低的查询成本。

S3 Inventory 的 Parquet 输出格式目前在由光环新网运营的 AWS 中国(北京)区域和由西云数据运行的 AWS 中国(宁夏)区域提供。您可以通过访问 AWS 管理控制台或使用 API、CLI 或 SDK 开始设置清单配置。