发布于: Sep 5, 2018

Amazon S3 宣布推出 S3 Select 的增强功能。S3 Select 是一项全新的 Amazon S3 功能,专用于从对象中仅提取所需数据,从而显著提高性能,并降低需要访问 S3 中的数据的应用程序成本。

目前,Amazon S3 Select 处理以 CSV 和 JSON 格式存储的对象。基于客户反馈,我们很高兴地宣布 S3 Select 支持 Apache Parquet 格式、JSON Arrays 和面向 CSV 和 JSON 对象的 BZIP2 压缩格式。我们还增加了对 S3 Select CloudWatch 指标的支持,从而允许您监控应用程序的 S3 Select 使用情况。

Parquet 之所以得到广泛采用,是因为它支持各种各样的查询引擎(如 Hive、Presto 和 Impala)以及多个框架,其中包括 Spark 和 MapReduce。S3 Select Parquet 允许您使用 S3 Select 从存储在 S3 中的数据中检索特定列,并且它支持使用 GZIP 或 Snappy 进行列式压缩。您可以将结果中的格式指定为 CSV 或 JSON,并且可以确定结果中记录的分隔方式。

借助 JSON Arrays 支持,您可以遍历 JSON 对象中的内部节点。您可以通过在 S3 Select 查询的 FROM 子句中指定路径导航来查询这些嵌套的 JSON 对象。

BZIP2 是一种被广泛采用的压缩格式,用于压缩文本数据,通常比许多其他类型的压缩算法效率更高。

S3 CloudWatch 指标允许您跟踪应用程序的运行状况。这些指标可以在 1 分钟的时间间隔内提供,并且允许您快速识别和处理操作问题。新的 S3 Select 特定指标包括 S3 Select 请求计数、扫描的数据量和返回的数据量。

Amazon S3 Select 的这些功能在由光环新网运营的 亚马逊云科技中国(北京)地区和由西云数据运营的 亚马逊云科技中国(宁夏)地区提供。

要了解有关 Amazon S3 Select 的更多信息,请访问 Amazon S3 开发人员指南中的选择对象内容页面。要了解有关 Amazon S3 CloudWatch 指标的更多信息,请访问 Amazon S3 开发人员指南中的监控 Amazon CloudWatch 指标页面。请访问 亚马逊云科技管理控制台以开始使用。