发布于: Jun 29, 2022

自 2006 年以来,Amazon Web Services 一直在帮助数百万客户构建和管理他们的 IT 工作负载。从初创公司到大型企业,再到公共部门,各种规模的组织都在使用我们的云计算服务,它们实现了前所未有的安全性、弹性和可扩展性水平。每天,他们都能够以比以往更少的时间和更低的成本进行试验、创新和生产部署。因此,他们可以探索、抓住商业机会,并将其转化为工业级产品和服务。

随着 Machine Learning 成为客户日益关注的重点,他们要求我们构建具有同样的敏捷性和稳健性的 ML 服务。于是便产生了 Amazon SageMaker,这是一项完全托管的服务,在 Amazon Web Services re:Invent 2017 上推出,该服务为每位开发人员和数据科学家提供快速构建、训练和部署 ML 模型的能力。
 

现在,Amazon SageMaker 正在帮助各行各业数以万计的客户构建、训练和部署高质量模型的生产:金融行业(Euler Hermes、Intuit、Slice Labs、Nerdwallet、Root Insurance、Coinbase、NuData Security、Siemens Financial Services)、医疗保健行业(GE Healthcare、Cerner、Roche、Celgene、Zocdoc)、新闻和媒体行业(Dow Jones、Thomson Reuters、ProQuest、SmartNews、Frame.io、Sportograf)、体育行业(Formula 1、Bundesliga、Olympique de Marseille、NFL、Guiness Six Nations Rugby)、零售行业(Zalando、Zappos、Fabulyst)、汽车行业(Atlas Van Lines、Edmunds、Regit)、约会行业 (Tinder)、酒店行业(Hotels.com、iFood)、工业和制造业(Veolia、Formosa Plastics)、游戏行业 (Voodoo)、客户关系管理行业(Zendesk、Freshworks)、能源行业(Kinect Energy Group、Advanced Microgrid Systems)、房地产行业 (Realtor.com)、卫星图像行业 (Digital Globe)、人力资源行业 (ADP) 等等。

我们曾问客户,他们为什么决定使用 Amazon SageMaker 实现其 ML 工作负载的标准化,我们得到的最常见回答是:“SageMaker 可以消除 ML 过程每一步中千篇一律的繁重工作。”我们拉近镜头,仔细查看,发现了 SageMaker 对客户帮助最大的五个领域。
随着很多 ML 模型被用于为业务应用程序和最终用户提供实时预测,从而可以确保它们保持可用性,且快速性是至关重要的。这就是 Amazon SageMaker 终端节点跨多个 Amazon Web Services 可用区为负载均衡提供内置支持,以及提供内置 Auto Scaling 以根据传入的流量动态调整预置实例数量的原因。

为了提供更高的稳健性和可扩展性,Amazon SageMaker 依赖 TensorFlow Serving、多模型服务器和 TorchServe 等生产级开源模型服务器。Amazon Web Services 还与 Facebook 合作推出了 TorchServe 作为 PyTorch 项目的一部分,TorchServe 可轻松地大规模部署经过训练的模型,无需编写自定义代码。

除了提供弹性基础设施和可扩展模型之外,您还可以依赖 Amazon SageMaker Model Monitor 捕获可能会发生在终端节点上的预测质量问题。通过保存传入的请求以及传出的预测,并将它们与通过训练集构建的基线进行比较,您可以快速确定并修复功能缺失或数据漂移等问题。
Veolia Water Technologies 首席数字官 Aude Giard 说:“在短短 8 周内,我们与Amazon Web Services合作开发了一个原型,用于预测何时清洗或更换海水淡化装置的滤水膜。使用 Amazon SageMaker,我们构建了一个 ML 模型,从以前的模式中学习并预测污垢指标的未来演变。通过在Amazon Web Services 上实现我们的 ML 工作负载的标准化,我们能够降低成本并防止停机,同时改善所生产的水质。如果没有两个团队的技术经验、信任和为了实现持续供应清洁且安全的水而作出的贡献,这些结果就无法实现。”您可以在此视频中了解更多信息。
说到构建模型,Amazon SageMaker 可以为您提供很多选项。您可以访问 Amazon Web Services Marketplace,选择其中一个合作伙伴分享的算法或模型,通过点击几次将它部署到 SageMaker 上。或者,您可以使用其中一个内置算法、您自己为常用的开源 ML 框架(TensorFlow、PyTorch 和 Apache MXNet)编写您的代码或您自己打包在 Docker 容器中的自定义代码训练模型。
 
您还可以依赖一项颠覆性 AutoML 功能 Amazon SageMaker AutoPilot。不论您有没有 ML 经验,是不是需要探索数百个数据集的经验丰富的从业人员,您只需进行一次 API 调用,SageMaker AutoPilot 即可为您处理一切。它会自动分析数据集、查明您尝试解决的问题类型、构建多个数据处理和训练管道、对它们进行训练,并优化它们以获得最高精确度。此外,数据处理和训练源代码提供在自动生成的笔记本中,您可以查看此笔记本并自行运行此笔记本以进行进一步实验。SageMaker Autopilot 现在还能够以最高快 40% 的速度创建机器学习模型,并使精确度最高提高 200%,即使使用的是小型不均衡的数据集。
 
另一个常见功能是自动模型调整。不再需要手动探索,也不再需要进行运行数天的昂贵网格搜索作业:使用 ML 优化,SageMaker 可以快速融合到高性能模型中,从而为您节省时间和成本,并让您可以更快地将最佳模型部署到生产环境中。
“NerdWallet 依赖数据科学和 ML 为客户提供个性化的金融产品”,高级工程经理 Ryan Kirkman 说。“我们选择在Amazon Web Services 上实现 ML 工作负载标准化是因为它使我们能够快速实现数据科学工程实践的现代化,从而消除障碍并加快交付时间。借助 Amazon SageMaker,我们的数据科学家可以将更多时间投入到战略追求上,把更多的精力放在我们的竞争优势上——我们对正在为用户解决的问题的洞察力。”您可以在此案例研究中了解更多信息。
Freshworks Platform 高级产品总监 Tejas Bhandarkar 说:“我们选择在Amazon Web Services 上实现 ML 工作负载的标准化是因为我们可以轻松构建、训练和部署针对我们的客户使用案例优化的机器学习模型。得益于 Amazon SageMaker,我们为 11000 名客户构建了 30000 多种模型,同时将训练这些模型的时间从 24 小时缩短到 33 分钟以下。借助 SageMaker Model Monitor,我们可以跟踪数据偏移并重新训练模型,以确保精确度。Freddy AI Skills 由 Amazon SageMaker 提供支持,该服务凭借智能操作、深度数据洞察和目的驱动型对话不断发展。”

相关文章