跳至主要内容

Amazon Glue

Amazon Glue 定价

概述

借助 Amazon Glue,您可以对抓取程序(发现数据)和 ETL 作业(处理和加载数据)按小时付费(不足一小时按秒计费)。对于 Amazon Glue 数据目录,您需要支付月度费用,以便存储和访问元数据。如果您预置开发端点以交互方式开发 ETL 代码,那么您需要按小时付费(不足一小时按秒计费)。

ETL 作业和交互式会话

全部打开

借助 Amazon Glue,您只需为 ETL 作业运行所需的时间付费。无需管理资源,无需前期投资,同时不收取启动或关闭时间的费用。我们根据用于运行 ETL 作业的数据处理单元 (DPU) 的数量按小时向您付费。一个数据处理单元 (DPU) 提供 4 个 vCPU 和 16GB 的
内存。 我们以 1 秒为增量对作业和开发端点计费,四舍五入到最接近的秒数。 

Amazon Glue 作业有三种类型:Apache Spark、Spark Streaming 和 Python Shell。 

Apache Spark 和 Spark Streaming 作业运行至少需要 2 个 DPU。默认情况下,Amazon Glue 为每个 Apache Spark 作业分配 10 个 DPU,为每个串流作业分配 2 个 DPU。使用 Amazon Glue 版本 0.9 或 1.0 的作业的最短计费时长为 10 分钟,而使用 Glue 2.0 及更高版本的作业的最短计费时长为 1 分钟。

对于 Python Shell 作业, 您可以分配 1 个 DPU 或 0.0625 DPU。默认情况下,Amazon Glue 为每个 Python Shell 作业分配 0.0625 个 DPU。这些作业的最短计费时长为 1 分钟。 

交互式会话是可选的,并且仅在将它们用于交互式 ETL 代码开发时才计费。我们根据会话的活跃时间和 DPU 的数量对交互式会话收费。交互式会话具有可配置的空闲超时。Amazon Glue 交互式会话需要至少 2 个 DPU,默认值为 5 个 DPU。每个预置的交互式会话的最短计费时长为 1 分钟。Amazon Glue Studio 作业笔记本为交互式会话提供了内置界面。我们不会为作业笔记本付费,但会为它们使用的交互式会话付费。

开发端点是可选的,并且仅在将它们用于交互式 ETL 代码开发时才计费。我们根据端点的预置时间和 DPU 的数量对开发端点收费。开发端点不会超时。开发端点需要至少 2 个 DPU,默认值为 5 个 DPU。每个预置的开发端点的最短计费时长为 10 分钟。

借助 Amazon Glue Studio 数据预览,您可以在作业创作过程中测试自己的转换。每个 Amazon Glue Studio 数据预览会话使用 2 个 DPU,运行时长 30 分钟,并自动停止。

定价

  • 每个 Apache Spark 或 Spark Streaming 作业 ¥3.021/DPU-小时,按秒计费,最短持续时间为 1 分钟(Glue 版本 2.0 及更高版本),或者最短持续时间为 10 分钟(Glue 版本 0.9/1.0)  
  • 每个 Python Shell 作业 ¥3.021/DPU-小时,按秒计费,最短持续时间为 1 分钟
  • 每个预置的开发端点 ¥3.021/DPU-小时,按秒计费,最短持续时间为 10 分钟
  • 每个交互式会话 ¥3.021/DPU-小时,按秒计费,最短持续时间为 1 分钟。 
  • 每个 Amazon Glue Studio 数据预览会话 ¥3.021/DPU-小时,,以 30 分钟为单位计费,并作为开发端点开具发票

额外费用

如果 ETL 数据来自 Amazon S3、Amazon RDS 或 Amazon Redshift 等数据源,您需要按标准请求和数据传输费率付费。如果您使用的是 Amazon CloudWatch,您需要按 CloudWatch 日志和 CloudWatch 事件的标准费率付费。

定价示例

ETL 作业示例:假设一个 Amazon Glue Apache Spark 作业运行了 15 分钟并使用了 6 个 DPU。1 DPU-小时的价格为 ¥3.021。由于作业运行了四分之一小时,并且使用了 6 个 DPU,我们将向您收取 6 个 DPU * 1/4 小时 * ¥3.021 的费用,即 ¥4.532。 

Amazon Glue Studio 作业笔记本和交互式会话示例:假设您在 Amazon Glue Studio 中使用笔记本以交互方式开发 ETL 代码。默认情况下,交互式会话有 5 个 DPU。如果您让该会话运行 24 分钟(也就是 2/5 个小时),则我们将按每个 DPU 小时向您收取 5 个 DPU * 2/5 小时 * ¥3.021 的费用,也就是 ¥6.042。 

ML 转换示例:与 Amazon Glue 作业运行类似,运行 ML 转换(包括对数据进行 FindMatches)的成本将因数据大小、数据内容以及所用节点的数量和类型而异。在以下示例中,我们使用 FindMatches 集成来自多个数据源的兴趣点信息。如果数据集大小约为 11,000,000 行 (1.6 GB),标签数据(真实匹配或真正不匹配示例)的大小约为 8,000 行 (641kb),在类型为 G.2x 的 16 个实例上运行,则标签集生成运行时间为 34 分钟,成本为 ¥54.781;指标估计运行时间为 11 分钟,成本为 ¥17.723;FindMatches 作业执行运行时间为 32 分钟,成本为 ¥51.558。

数据目录存储和请求

全部打开

借助 Amazon Glue 数据目录,您每月将为每 100000 个对象支付 ¥6.866。Amazon Glue 数据目录中的对象是表、表版本、分区或数据库。

每百万个请求将收取 ¥6.866。某些常见请求为 CreateTable、CreatePartition、GetTable 和 GetPartitions。有关 Amazon Glue 数据目录所支持请求的完整列表,请参阅我们的文档

定价

存储:

  • 每个月每 100000 个对象 ¥6.866


请求:

  • 每个月每百万个请求 ¥6.866

抓取程序

全部打开

Amazon Glue 抓取程序运行时,用于发现数据并填充 Amazon Glue 数据目录,按小时收费。您需要根据用于运行抓取程序的数据处理单元 (DPU) 的数量按小时付费。一个数据处理单元 (DPU) 提供 4 个 vCPU 和 16GB 的内存。以 1 秒为增量计费,四舍五入到最接近的秒数,每个抓取程序的最短持续时间为 10 分钟。可以选择使用 Amazon Glue 抓取程序,您可以直接通过 API 填充 Amazon Glue 数据目录。

定价

  • 每 DPU 小时 ¥3.021(不足一小时按秒计费),每个抓取程序至少运行 10 分钟 

DataBrew 交互式会话

全部打开

当您打开一个 Amazon Glue DataBrew 项目时,会启动会话。您需要按使用的会话总数计费。每个会话的时间为 30 分钟。由光环新网运营的中国(北京)区域和西云数据运营的中国(宁夏)区域中第一次使用 DataBrew 的用户可免费体验前 40 场交互式会话。使用 DataBrew API 操作时,您需要按同样的费率付费。

定价

  • 每个 DataBrew 会话 ¥ 6.53

定价示例

Amazon Glue DataBrew 示例:每 30 分钟交互式会话的价格为 ¥ 6.53。如果您将 2 个会话用于一个 Amazon Glue DataBrew 项目,则将向您收取 2 次交互式会话 * ¥ 6.53/每次会话的费用,或 ¥13.06。

如果 Amazon Glue DataBrew 作业运行 10 分钟并使用 12 个 DataBrew 节点,则 1 节点小时的价格为 ¥ 3.1344。由于您的作业运行了 1/6 个小时并使用了 12 个节点,将向你收取 ¥ 6.2688 的费用,计算公式为 12 个节点 * 1/6 小时 * 每节点小时 ¥ 3.1344。

DataBrew 作业

全部打开

使用 Amazon Glue DataBrew,您只需为运行作业时用于清理和规范化数据的时间付费。您需要根据用于运行作业的 DataBrew 节点数量按小时费率付费。默认情况下,DataBrew 为每个作业分配 10 个节点。DataBrew 作业的计费持续时间为 1 分钟。

单个 Amazon Glue DataBrew 节点提供 4 vCPU 和 16GB 的内存。无需管理资源,也无需前期投资,并且不收取启动或关闭时间的费用。

定价

  • 每个 DataBrew 节点小时价格为 ¥ 3.1344,按分钟计费

额外费用

如果您的 Amazon Glue DataBrew 作业使用了其他 Amazon 服务或传输了数据,则可能会产生额外费用。例如,如果您的 DataBrew 作业从 Amazon S3 读取并向其写入数据,您就需要为读写请求和 Amazon S3 中存储的数据而支付费用。有关 Amazon 服务定价的详情,请参阅相关 Amazon 服务详情页面的定价部分。

定价示例

Amazon Glue DataBrew 示例:每 30 分钟交互式会话的价格为 ¥ 6.53。如果您将 2 个会话用于一个 Amazon Glue DataBrew 项目,则将向您收取 2 次交互式会话 * ¥ 6.53/每次会话的费用,或 ¥13.06。

如果 Amazon Glue DataBrew 作业运行 10 分钟并使用 12 个 DataBrew 节点,则 1 节点小时的价格为 ¥ 3.1344。由于您的作业运行了 1/6 个小时并使用了 12 个节点,将向你收取 ¥ 6.2688 的费用,计算公式为 12 个节点 * 1/6 小时 * 每节点小时 ¥ 3.1344

数据质量

全部打开

Amazon Glue 数据质量自动监测功能可帮助您实现高数据质量,从而建立对数据的信心。该功能可以自动测量、监测并管理数据湖和管道中的数据质量,从而更容易识别丢失、过时或错误的数据。

您可以通过 Data Catalog 和 Amazon Glue Studio 以及 Amazon Glue API 访问数据质量功能。

管理 Data Catalog 中编目数据集的数据质量的定价:

您可以从 Data Catalog 中选择一个数据集并生成建议。此操作将创建建议任务,您将为其预置数据处理单元(DPU)。获得建议后,您可以修改或添加新规则并安排这些规则。这些任务称为数据质量任务,您将为其预置 DPU。您将需要至少 2 个 DPU,最低计费时长为 1 分钟。

管理在 Amazon Glue ETL 上处理的数据集的数据质量的定价:

您还可以在 ETL 作业中添加数据质量检查,以防止不良数据进入数据湖。这些数据质量规则将驻留在您的 ETL 作业中,从而延长运行时或增加 DPU 消耗。或者,您可以对非 SLA 敏感的工作负载使用灵活执行。

在 Amazon Glue ETL 中检测异常的定价:

异常检测:
除了检测异常所需时间的 ETL 作业 DPU 外,您还需要为每个统计数据的 1 个 DPU 支付费用。平均而言,检测 1 个统计数据的异常需要 10-20 秒。假设您配置了两条规则(规则 1:数据量必须大于 1000 条记录,规则 2:列数必须大于 10)和一个分析器(分析器 1:监控列的完整性)。此配置将生成三种统计数据:行数、列数和列的完整性百分比。您将额外为 3 个 DPU 支付费用,用于检测异常所需的时间(最少 1 秒)。有关更多详细信息,请参见示例 - 4。

重新训练:
您可能需要排除异常作业运行或统计数据,以便异常检测算法能够准确预测后续异常。为此,Amazon Glue 允许您排除或包含统计数据。在重新训练模型所需的时间内,您将为重新训练模型的 1 个 DPU 支付费用。 平均而言,重新训练每个统计数据需要 10 秒到 20 分钟。有关更多详细信息,请参见示例 5。

统计数据存储:
存储收集的统计数据不收取任何费用。每个账户的统计数据上限为 10 万个,并将存储 2 年。

额外费用:
Amazon Glue 直接处理来自 Amazon Simple Storage Service(Amazon S3)的数据。使用 Amazon Glue 读取数据不会产生额外的存储费用。存储、请求和数据传输时,您需要按照标准的 Amazon S3 费率付费。根据您的配置,临时文件、数据质量结果和随机文件存储在您选择的 S3 存储桶中,也按标准 S3 费率计费。

如果您使用 Data Catalog,则需要按照标准的 Data Catalog 费率付费。有关详细信息,请选择 Data Catalog 存储和请求选项卡。

定价

  • Glue Data Catalog、Glue ETL 和异常检测功能中的 Amazon Glue 数据质量自动监测功能每 DPU 小时 ¥3.021。

定价示例

示例 1 – 获取有关 Data Catalog 中表的建议

例如,假设一个包含 5 个 DPU 的建议任务,该任务在 10 分钟内完成。您将支付 5 个 DPU * 1/6 小时 * ¥3.021,等于 ¥2.52。

示例 2 – 评估 Data Catalog 中表的数据质量

查看建议后,可以在必要时对其进行编辑,然后通过预置 DPU 来计划数据质量任务。例如,假设一项包含 5 个 DPU 的数据质量评估任务,该任务在 20 分钟内完成。
您将支付 5 个 DPU * 1/3 小时 * ¥3.021,等于 ¥5.04。

示例 3 – 评估 Amazon Glue ETL 作业中的数据质量

您还可以将这些数据质量检查添加到您的 Amazon Glue ETL 作业中,防止错误数据进入您的数据湖。您可以通过在 Amazon Glue Studio 上添加数据质量转换或在 Amazon Glue Studio 笔记本中编写的代码中使用 Amazon Glue API 来实现此目的。以一个 Amazon Glue 作业为例,该作业在管道内配置数据质量规则的情况下运行,使用 6 个 DPU 执行 20 分钟(1/3 小时)。您需要支付 6 个 DPU * 1/3 小时 * ¥3.021,等于 ¥6.04。

示例 4 – 使用异常检测功能评估 Amazon Glue ETL 作业中的数据质量

以 Amazon Glue 作业为例,该作业在加载到 Amazon Redshift 之前从 Amazon S3 读取数据、转换数据并进行数据质量检查。假设该管道有 10 个规则和 10 个分析器,从而收集了 20 个统计数据。另外,假设提取、转换过程、加载、统计数据收集、数据质量评估将需要 20 分钟。如果未启用异常检测功能,客户将支付 6 个 DPU * 1/3 小时(20 分钟)* ¥3.021 = ¥6.04(A)。

如果已开启异常检测功能,我们将为每个统计数据添加 1 个 DPU,检测异常平均需要 15 秒。在此示例中,客户将支付 20 个统计数据 * 1 个 DPU * 15/3600(0.0041 小时/统计数据)* ¥3.021 = ¥0.25(B)
其作业的总成本将为 ¥6.04(A)+ ¥0.25(B)= ¥6.29。

示例 5 – 重新训练

假设您的 Glue 作业检测到了异常。您决定从模型中排除异常,以便异常检测算法能够准确预测未来的异常。为此,您可以通过排除该异常统计数据来重新训练模型。在重新训练模型所需的时间内,您将为每个统计数据的 1 个 DPU 支付费用。平均而言,这可能需要 15 秒。在此示例中,假设您排除了 1 个数据点,将支付 1 个统计数据 * 1 个 DPU * 15/3600(0.0041 小时/统计数据)* ¥3.021 = ¥0.0124