概述
借助 Amazon Glue,您可以对抓取程序(发现数据)和 ETL 作业(处理和加载数据)按小时付费(不足一小时按秒计费)。对于 Amazon Glue 数据目录,您需要支付月度费用,以便存储和访问元数据。如果您预置开发端点以交互方式开发 ETL 代码,那么您需要按小时付费(不足一小时按秒计费)。
ETL 作业和交互式会话
全部打开借助 Amazon Glue,您只需为 ETL 作业运行所需的时间付费。无需管理资源,无需前期投资,同时不收取启动或关闭时间的费用。我们根据用于运行 ETL 作业的数据处理单元 (DPU) 的数量按小时向您付费。一个数据处理单元 (DPU) 提供 4 个 vCPU 和 16GB 的
内存。 我们以 1 秒为增量对作业和开发端点计费,四舍五入到最接近的秒数。
Amazon Glue 作业有三种类型:Apache Spark、Spark Streaming 和 Python Shell。
Apache Spark 和 Spark Streaming 作业运行至少需要 2 个 DPU。默认情况下,Amazon Glue 为每个 Apache Spark 作业分配 10 个 DPU,为每个串流作业分配 2 个 DPU。使用 Amazon Glue 版本 0.9 或 1.0 的作业的最短计费时长为 10 分钟,而使用 Glue 2.0 及更高版本的作业的最短计费时长为 1 分钟。
对于 Python Shell 作业, 您可以分配 1 个 DPU 或 0.0625 DPU。默认情况下,Amazon Glue 为每个 Python Shell 作业分配 0.0625 个 DPU。这些作业的最短计费时长为 1 分钟。
交互式会话是可选的,并且仅在将它们用于交互式 ETL 代码开发时才计费。我们根据会话的活跃时间和 DPU 的数量对交互式会话收费。交互式会话具有可配置的空闲超时。Amazon Glue 交互式会话需要至少 2 个 DPU,默认值为 5 个 DPU。每个预置的交互式会话的最短计费时长为 1 分钟。Amazon Glue Studio 作业笔记本为交互式会话提供了内置界面。我们不会为作业笔记本付费,但会为它们使用的交互式会话付费。
开发端点是可选的,并且仅在将它们用于交互式 ETL 代码开发时才计费。我们根据端点的预置时间和 DPU 的数量对开发端点收费。开发端点不会超时。开发端点需要至少 2 个 DPU,默认值为 5 个 DPU。每个预置的开发端点的最短计费时长为 10 分钟。
借助 Amazon Glue Studio 数据预览,您可以在作业创作过程中测试自己的转换。每个 Amazon Glue Studio 数据预览会话使用 2 个 DPU,运行时长 30 分钟,并自动停止。
定价
- 每个 Apache Spark 或 Spark Streaming 作业 ¥3.021/DPU-小时,按秒计费,最短持续时间为 1 分钟(Glue 版本 2.0 及更高版本),或者最短持续时间为 10 分钟(Glue 版本 0.9/1.0)
- 每个 Python Shell 作业 ¥3.021/DPU-小时,按秒计费,最短持续时间为 1 分钟
- 每个预置的开发端点 ¥3.021/DPU-小时,按秒计费,最短持续时间为 10 分钟
- 每个交互式会话 ¥3.021/DPU-小时,按秒计费,最短持续时间为 1 分钟。
- 每个 Amazon Glue Studio 数据预览会话 ¥3.021/DPU-小时,,以 30 分钟为单位计费,并作为开发端点开具发票
额外费用
如果 ETL 数据来自 Amazon S3、Amazon RDS 或 Amazon Redshift 等数据源,您需要按标准请求和数据传输费率付费。如果您使用的是 Amazon CloudWatch,您需要按 CloudWatch 日志和 CloudWatch 事件的标准费率付费。
定价示例
ETL 作业示例:假设一个 Amazon Glue Apache Spark 作业运行了 15 分钟并使用了 6 个 DPU。1 DPU-小时的价格为 ¥3.021。由于作业运行了四分之一小时,并且使用了 6 个 DPU,我们将向您收取 6 个 DPU * 1/4 小时 * ¥3.021 的费用,即 ¥4.532。
Amazon Glue Studio 作业笔记本和交互式会话示例:假设您在 Amazon Glue Studio 中使用笔记本以交互方式开发 ETL 代码。默认情况下,交互式会话有 5 个 DPU。如果您让该会话运行 24 分钟(也就是 2/5 个小时),则我们将按每个 DPU 小时向您收取 5 个 DPU * 2/5 小时 * ¥3.021 的费用,也就是 ¥6.042。
ML 转换示例:与 Amazon Glue 作业运行类似,运行 ML 转换(包括对数据进行 FindMatches)的成本将因数据大小、数据内容以及所用节点的数量和类型而异。在以下示例中,我们使用 FindMatches 集成来自多个数据源的兴趣点信息。如果数据集大小约为 11,000,000 行 (1.6 GB),标签数据(真实匹配或真正不匹配示例)的大小约为 8,000 行 (641kb),在类型为 G.2x 的 16 个实例上运行,则标签集生成运行时间为 34 分钟,成本为 ¥54.781;指标估计运行时间为 11 分钟,成本为 ¥17.723;FindMatches 作业执行运行时间为 32 分钟,成本为 ¥51.558。
抓取程序
全部打开Amazon Glue 抓取程序运行时,用于发现数据并填充 Amazon Glue 数据目录,按小时收费。您需要根据用于运行抓取程序的数据处理单元 (DPU) 的数量按小时付费。一个数据处理单元 (DPU) 提供 4 个 vCPU 和 16GB 的内存。以 1 秒为增量计费,四舍五入到最接近的秒数,每个抓取程序的最短持续时间为 10 分钟。可以选择使用 Amazon Glue 抓取程序,您可以直接通过 API 填充 Amazon Glue 数据目录。
定价
- 每 DPU 小时 ¥3.021(不足一小时按秒计费),每个抓取程序至少运行 10 分钟
DataBrew 交互式会话
全部打开当您打开一个 Amazon Glue DataBrew 项目时,会启动会话。您需要按使用的会话总数计费。每个会话的时间为 30 分钟。由光环新网运营的中国(北京)区域和西云数据运营的中国(宁夏)区域中第一次使用 DataBrew 的用户可免费体验前 40 场交互式会话。使用 DataBrew API 操作时,您需要按同样的费率付费。
定价
- 每个 DataBrew 会话 ¥ 6.53
定价示例
Amazon Glue DataBrew 示例:每 30 分钟交互式会话的价格为 ¥ 6.53。如果您将 2 个会话用于一个 Amazon Glue DataBrew 项目,则将向您收取 2 次交互式会话 * ¥ 6.53/每次会话的费用,或 ¥13.06。
如果 Amazon Glue DataBrew 作业运行 10 分钟并使用 12 个 DataBrew 节点,则 1 节点小时的价格为 ¥ 3.1344。由于您的作业运行了 1/6 个小时并使用了 12 个节点,将向你收取 ¥ 6.2688 的费用,计算公式为 12 个节点 * 1/6 小时 * 每节点小时 ¥ 3.1344。
DataBrew 作业
全部打开使用 Amazon Glue DataBrew,您只需为运行作业时用于清理和规范化数据的时间付费。您需要根据用于运行作业的 DataBrew 节点数量按小时费率付费。默认情况下,DataBrew 为每个作业分配 10 个节点。DataBrew 作业的计费持续时间为 1 分钟。
单个 Amazon Glue DataBrew 节点提供 4 vCPU 和 16GB 的内存。无需管理资源,也无需前期投资,并且不收取启动或关闭时间的费用。
定价
- 每个 DataBrew 节点小时价格为 ¥ 3.1344,按分钟计费
额外费用
如果您的 Amazon Glue DataBrew 作业使用了其他 Amazon 服务或传输了数据,则可能会产生额外费用。例如,如果您的 DataBrew 作业从 Amazon S3 读取并向其写入数据,您就需要为读写请求和 Amazon S3 中存储的数据而支付费用。有关 Amazon 服务定价的详情,请参阅相关 Amazon 服务详情页面的定价部分。
定价示例
Amazon Glue DataBrew 示例:每 30 分钟交互式会话的价格为 ¥ 6.53。如果您将 2 个会话用于一个 Amazon Glue DataBrew 项目,则将向您收取 2 次交互式会话 * ¥ 6.53/每次会话的费用,或 ¥13.06。
如果 Amazon Glue DataBrew 作业运行 10 分钟并使用 12 个 DataBrew 节点,则 1 节点小时的价格为 ¥ 3.1344。由于您的作业运行了 1/6 个小时并使用了 12 个节点,将向你收取 ¥ 6.2688 的费用,计算公式为 12 个节点 * 1/6 小时 * 每节点小时 ¥ 3.1344
数据质量
全部打开Amazon Glue 数据质量自动监测功能可帮助您实现高数据质量,从而建立对数据的信心。该功能可以自动测量、监测并管理数据湖和管道中的数据质量,从而更容易识别丢失、过时或错误的数据。
您可以通过 Data Catalog 和 Amazon Glue Studio 以及 Amazon Glue API 访问数据质量功能。
管理 Data Catalog 中编目数据集的数据质量的定价:
您可以从 Data Catalog 中选择一个数据集并生成建议。此操作将创建建议任务,您将为其预置数据处理单元(DPU)。获得建议后,您可以修改或添加新规则并安排这些规则。这些任务称为数据质量任务,您将为其预置 DPU。您将需要至少 2 个 DPU,最低计费时长为 1 分钟。
管理在 Amazon Glue ETL 上处理的数据集的数据质量的定价:
您还可以在 ETL 作业中添加数据质量检查,以防止不良数据进入数据湖。这些数据质量规则将驻留在您的 ETL 作业中,从而延长运行时或增加 DPU 消耗。或者,您可以对非 SLA 敏感的工作负载使用灵活执行。
在 Amazon Glue ETL 中检测异常的定价:
异常检测:
除了检测异常所需时间的 ETL 作业 DPU 外,您还需要为每个统计数据的 1 个 DPU 支付费用。平均而言,检测 1 个统计数据的异常需要 10-20 秒。假设您配置了两条规则(规则 1:数据量必须大于 1000 条记录,规则 2:列数必须大于 10)和一个分析器(分析器 1:监控列的完整性)。此配置将生成三种统计数据:行数、列数和列的完整性百分比。您将额外为 3 个 DPU 支付费用,用于检测异常所需的时间(最少 1 秒)。有关更多详细信息,请参见示例 - 4。
重新训练:
您可能需要排除异常作业运行或统计数据,以便异常检测算法能够准确预测后续异常。为此,Amazon Glue 允许您排除或包含统计数据。在重新训练模型所需的时间内,您将为重新训练模型的 1 个 DPU 支付费用。 平均而言,重新训练每个统计数据需要 10 秒到 20 分钟。有关更多详细信息,请参见示例 5。
统计数据存储:
存储收集的统计数据不收取任何费用。每个账户的统计数据上限为 10 万个,并将存储 2 年。
额外费用:
Amazon Glue 直接处理来自 Amazon Simple Storage Service(Amazon S3)的数据。使用 Amazon Glue 读取数据不会产生额外的存储费用。存储、请求和数据传输时,您需要按照标准的 Amazon S3 费率付费。根据您的配置,临时文件、数据质量结果和随机文件存储在您选择的 S3 存储桶中,也按标准 S3 费率计费。
如果您使用 Data Catalog,则需要按照标准的 Data Catalog 费率付费。有关详细信息,请选择 Data Catalog 存储和请求选项卡。
定价
- Glue Data Catalog、Glue ETL 和异常检测功能中的 Amazon Glue 数据质量自动监测功能每 DPU 小时 ¥3.021。
定价示例
示例 1 – 获取有关 Data Catalog 中表的建议
例如,假设一个包含 5 个 DPU 的建议任务,该任务在 10 分钟内完成。您将支付 5 个 DPU * 1/6 小时 * ¥3.021,等于 ¥2.52。
示例 2 – 评估 Data Catalog 中表的数据质量
查看建议后,可以在必要时对其进行编辑,然后通过预置 DPU 来计划数据质量任务。例如,假设一项包含 5 个 DPU 的数据质量评估任务,该任务在 20 分钟内完成。
您将支付 5 个 DPU * 1/3 小时 * ¥3.021,等于 ¥5.04。
示例 3 – 评估 Amazon Glue ETL 作业中的数据质量
您还可以将这些数据质量检查添加到您的 Amazon Glue ETL 作业中,防止错误数据进入您的数据湖。您可以通过在 Amazon Glue Studio 上添加数据质量转换或在 Amazon Glue Studio 笔记本中编写的代码中使用 Amazon Glue API 来实现此目的。以一个 Amazon Glue 作业为例,该作业在管道内配置数据质量规则的情况下运行,使用 6 个 DPU 执行 20 分钟(1/3 小时)。您需要支付 6 个 DPU * 1/3 小时 * ¥3.021,等于 ¥6.04。
示例 4 – 使用异常检测功能评估 Amazon Glue ETL 作业中的数据质量
以 Amazon Glue 作业为例,该作业在加载到 Amazon Redshift 之前从 Amazon S3 读取数据、转换数据并进行数据质量检查。假设该管道有 10 个规则和 10 个分析器,从而收集了 20 个统计数据。另外,假设提取、转换过程、加载、统计数据收集、数据质量评估将需要 20 分钟。如果未启用异常检测功能,客户将支付 6 个 DPU * 1/3 小时(20 分钟)* ¥3.021 = ¥6.04(A)。
如果已开启异常检测功能,我们将为每个统计数据添加 1 个 DPU,检测异常平均需要 15 秒。在此示例中,客户将支付 20 个统计数据 * 1 个 DPU * 15/3600(0.0041 小时/统计数据)* ¥3.021 = ¥0.25(B)
其作业的总成本将为 ¥6.04(A)+ ¥0.25(B)= ¥6.29。
示例 5 – 重新训练
假设您的 Glue 作业检测到了异常。您决定从模型中排除异常,以便异常检测算法能够准确预测未来的异常。为此,您可以通过排除该异常统计数据来重新训练模型。在重新训练模型所需的时间内,您将为每个统计数据的 1 个 DPU 支付费用。平均而言,这可能需要 15 秒。在此示例中,假设您排除了 1 个数据点,将支付 1 个统计数据 * 1 个 DPU * 15/3600(0.0041 小时/统计数据)* ¥3.021 = ¥0.0124