为需要处理大型有效负载并长时间处理推理的工作负载推出 Amazon SageMaker 异步推理功能

发布于: 2023年9月12日

我们宣布在由光环新网运营的亚马逊云科技中国（北京）区域和由西云数据运营的亚马逊云科技中国（宁夏）区域中正式推出 Amazon SageMaker 异步推理。异步推理是 Amazon SageMaker 中的一个新的推理选项，它可以将传入的请求排队并异步处理这些请求。此选项非常适合于在请求到达时需要处理的大型有效负载（最大 1GB）和/或处理时间长（最长 15 分钟）的推断。异步推断使您能够在没有请求需要处理时自动将实例计数缩放到零，这样您就只需在端点处理请求时才需要付费，从而节省成本。

创建异步推理端点与创建实时端点类似。您可以使用现有 Amazon SageMaker 模型，并且只需要在创建端点配置时指定其他异步推理特定的配置参数即可。要调用端点，您需要将请求有效负载置于 Amazon S3 中，并在调用请求中提供指向有效负载的指针。调用后，Amazon SageMaker 会将请求排队进行处理，并返回输出位置作为响应。处理后，Amazon SageMaker 会将推理响应置于之前返回的 Amazon S3 位置。您可以选择通过 Simple Notification Service（SNS）接收成功或错误通知。

有关如何创建、调用和监控异步推理端点的详细说明，请阅读我们的文档，此文档还包含一个可帮助您入门的示例笔记本。有关定价信息，请访问 Amazon SageMaker 定价页面。

为需要处理大型有效负载并长时间处理推理的工作负载推出 Amazon SageMaker 异步推理功能

关于我们

产品与解决方案

资源与支持

管理账户