跳至主要内容

Amazon S3

Amazon S3 Metadata

利用近乎实时的对象元数据加速数据发现

Amazon S3 中的对象元数据

Amazon S3 中的每个对象都带有描述性的元数据。S3 中包含四种类型的对象元数据。系统定义的元数据:S3 会自动捕获该元数据,其中包括对象的创建时间、大小、存储类别和加密状态等属性。系统定义的元数据始终存在且由 S3 维护。用户定义的元数据:由您在上传时设置的自定义键值对组成,如部门名称或项目代码。用户定义的元数据上传后不可变,且大小受限。对象标签:这是键值标签,可以随时添加、修改或删除。标签与 IAM 策略、生命周期规则、成本分配和 S3 分析集成,使其成为访问控制和运营工作流的理想之选。注释:让您可以随时将丰富的大规模业务上下文附加到任何对象。注释支持 JSON、XML 和 YAML 等格式,每个对象最多可以附加 1 GB 注释。注释是可变的,与对象具有相同的耐久性和一致性,并通过自己的一组 S3 API 进行管理。

在一个位置显示、存储和查询所有元数据

Amazon S3 Metadata 将所有四种类型的对象元数据整合到可查询的单一体验中。S3 Metadata 会自动显示、存储和查询 S3 存储桶中对象的元数据,包括系统定义的详细信息、用户定义的元数据、对象标签和注释,让您可以找到业务分析、实时推理应用程序、人工智能代理等场景所需的数据。

S3 Metadata 将这些信息存储在完全托管的、只读的 Apache Iceberg 表中,您可以使用 Amazon Athena 和其他与 Iceberg 兼容的工具对其进行查询。S3 Metadata 提供三种表类型:日记表可以近乎实时地捕获对象级事件和注释更改,支持事件驱动的工作流程和变更跟踪。实时清单表提供存储桶中所有对象及其当前元数据的持续更新视图。注释表以可查询的格式存储注释,支持您大规模搜索所有注释。

S3 Metadata 会自动填充新对象和现有对象的元数据,无需构建或维护单独的元数据系统,即可为您提供全面、始终最新的数据视图。您还可以在 Amazon SageMaker 融通式合作开发工作室或任何带有 S3 表类数据存储服务 MCP 服务器的 IDE 中使用代理,以自然语言通过元数据搜索对象。

优势

    旨在为 S3 存储桶中的所有对象(包括现有对象和新上传对象)创建和管理元数据,从而提供全面的数据视图。

    在 S3 中多达数万亿个对象中,快速查找并检索所需数据。我们每小时更新一次元数据,让您轻松了解最新的存储状况。

    使用注释为每个对象附加最多 1GB 的可变元数据。存储人工智能生成的摘要、技术规格、合规性详细信息或任何上下文信息,无需单独的元数据管理系统。

    通过托管 S3 表类数据存储服务中的实时清单表、日记表和注释表访问元数据,并且内置对 Apache Iceberg 的支持。

    通过 S3 表类数据存储服务与 Amazon SageMaker 的集成,借助 Amazon Athena、Redshift 和 EMR 等您熟悉的服务分析元数据。通过模型上下文协议(MCP)服务器,以 SQL 或自然语言查询注释。S3 元数据与热门开源工具兼容。

使用案例

    使用丰富的注释跟踪和管理 AI 生成的视频、图像和文档,注释包括其来源、创建时间、Amazon Bedrock 使用的人工智能模型、置信度分数和处理谱系,所有这些内容都直接存储在对象中。

    使用注释对所有包含丰富业务上下文的数据进行编目,以便发现和利用这些数据。将转录文本、场景描述、技术规格和许可信息直接附加到媒体文件中,无需单独的数据库。

    通过将监管元数据、审计跟踪、数据血统和合规状态直接附加到对象,改善数据组织和合规性。可对 PB 级数据进行查询,以确定受特定法规或留存政策约束的数据。

    分析整个存储空间中的对象元数据,以确定节省成本和提高性能的机会。

    快速识别和分析商业智能和决策所需的相关数据集。