在 亚马逊云科技 上使用 DXC 的 mLOPs 快速入门加快机器学习计划

作者:mLOps — DXC Technology 发行所有者塞巴斯蒂安·克洛瑟 作者:mLOps CoE 主管 Robin Reuben — DXC Tech
nology 作者:DHiraj Thakur,解决方案架构师 — 亚马逊云科技

DXC-AWS-Partners-3
DXC Technology
Connect with DXC-1

人工智能(AI)在为日常企业和企业大规模采用和广泛创造价值的道路上正处在一个有趣的时刻。

直到最近,许多使用人工智能的企业还主要关注以下问题:

  • 我们可以从人工智能中创造价值的领域或用例吗?
  • 对于我们确定的用例,正确的模型方法是什么?
  • 我们应该使用哪种算法?
  • 我们需要收集哪些数据?

所有这些问题都属于人工智能应用程序生命周期的早期 “实验” 阶段。起初考虑这些问题很自然,解决这些问题可能既费时又复杂。但是,这不应分散人们对一个重要事实的注意力:这些仍然是实验室的科学问题。

用制造业的比喻来说:在研发(研发)阶段制作令人印象深刻的原型是一回事,而在现代工厂的高度自动化的装配线上生产则完全是另一回事。

不幸的是,有了人工智能,许多组织已经投资了人工智能研发实验室,并希望它能为他们提供内部开发的全功能人工智能软件。但是他们忘记建造工厂,也忘记引入可以从原型平稳过渡到批量生产和产品售后服务的流程。

因此,当今只有少数公司设法利用其机器学习 (ML) 概念验证的真正价值,其中大多数公司仍在努力克服由机器学习和数据推动的人工智能应用程序在实验生产方面的差距。

在这篇文章中,我们将介绍什么是 mLOP,为什么组织应该在其 AI 之旅中关注它,以及 DXC 技术和 亚马逊网络服务 (亚马逊云科技) 如何使用 亚马逊云科技 上的 mLOps 快速入门帮助将 mLOP 最佳实践快速整合到您的日常业务中。

DXC 是 A WS 顶级服务合作伙伴 和托管云服务提供商 (MSP),了解在大规模环境中将工作负载迁移到 亚马逊云科技 的复杂性以及成功所需的技能。

mLOP 及其好处

许多企业逐渐意识到,让机器学习项目进入利润区的解决方案就是所谓的 mLOP,是机器学习操作的缩写。

正如 DevOps 彻底改变了软件的开发和维护方式一样,mLops 也将同样的思维方式引入了数据科学和机器学习领域。与 DevOps 类似,mLops 不仅仅是一种工具或方法,而是由技术框架支持的文化实践、合作计划和端到端流程的组合。

mLOps 为机器学习系统的生命周期管理提供了结构和自动化,从而使公司能够安全快速地开发、测试、部署、监控和操作集成到日常业务中的机器学习模型。

它的组织宗旨是实现五个核心价值观:

  • 相关业务部门之间的协作。
  • 新的 AI 用例可以缩短上市时间。
  • 机器学习的透明度和可审计性。
  • 坚固性和可靠性
  • 无缝可扩展性。

DXC-MLOps-Quick-Start-1

图 1 — 一段时间内的利润天真与 mLOP 的对比。

图 2 总结了 mLOP 的最佳实践,但比技术细节更重要的是了解其对业务层面的影响。专业化机器学习模型的开发、部署和运营方式会对 1 所示的 “一段时间内的利润” 曲线产生重大影响。

如您所见,如果没有 mLOP 最佳实践和基础架构,则以天真的方式进行操作将导致部署时间过长,并需要定期解决各种运营事件,而这些事件需要定期解决,但要付出高昂的代价。

另一方面,适应和简化机器学习生命周期固有的运营事件的部署和处理已纳入 mLOP 的最佳实践。这使公司能够更快地达到收支平衡点,并提高整个 ML 应用程序的盈利能力。

DXC-MLOps-Quick-Start-2

图 2 — mLOP 最佳实践。

凭借更快的部署时间和更稳定的运营,mLOps 以三种方式释放了 AI 的商业价值:

  1. 由于 mLOP 支持可操作,因此终于实现了用例的好处。
  2. 机器学习模型的部署和运营成本大大降低,通常可降低 75%。
  3. 可靠的人工智能应用带来了拥抱人工智能的文化,从而推动了创新和新产品的开发。

DXC 在 亚马逊云科技 上的 mLOP 快速入门

如果 mLOps 是可持续地获得 AI 真正优势和力量的关键,那么你该如何开始呢?

大多数组织在这方面都需要帮助,需要两个级别的支持:1) 专业的 mLops 环境,或 2) 经验丰富的服务合作伙伴。为了满足这些需求,亚马逊云科技 和 DXC Technology 联合开发了一款组合产品,为 mLOP 提供最好的技术和服务。

DXC 是全球最大的 IT 服务提供商之一,专门为 mLOP 设立了卓越中心 (CoE)。它帮助全球客户采用 mLOP 的方法和技术,并提供咨询、实施和机器学习工程即服务方面的服务。

DXC 的服务基于庞大的可重复使用资产库,例如组织和流程蓝图、参考架构、基础设施即代码 (IaC) 部署、监控包、标准仪表板和可解释的人工智能模块。

联合开发的 亚马逊云科技 版 DXC mLops 快速入门是一个可快速部署(如 IaC)、标准化但可自定义的 mLOPs 环境,基于 亚马逊云科技 原生服务构建。

DXC-MLOps-Quick-Start-3

图 3 — 适用于 亚马逊云科技 的 DXC mLOps 快速入门提供的核心功能。

适用于 亚马逊云科技 的 DXC mLops Quick Start 为 mLOP 提供了企业就绪的基础环境,并允许机器学习用例在短时间内投入运营。它经过精心设计,可以完全根据任何公司的特定需求、要求和限制进行自定义,并反映了每个 mLoPs 环境的复杂要求。

该解决方案由以下元素组成:

功能存储

由于数据是人工智能应用的动力,端到端的人工智能开发涉及稳定和受监控的数据管道的设计和实施。但是,为了保持模块化并在架构上将数据与 mLOP 分开,特征存储充当两个域之间的接口。

对于大型人工智能计划,功能存储为机器学习开发提供了单一的数据来源,并确保开发的功能可重复使用,不会嵌入到特定用例的特定代码中。

灵活的实验

尽管 mLOP 侧重于部署和运营,但数据科学家需要灵活性才能在首选环境和工具框架中进行实验。为了实现这一目标,同时确保数据科学家在生产就绪环境中工作,DXC 架构利用了版本控制、可共享和可扩展的容器化笔记本电脑和集成开发环境 (IDE)。

模型存储库

可重复性对于长期保持大型解决方案中的模型质量至关重要。因此,精心编排且完整记录的模型训练在开发和生产中均可运行。这样可以确保无论模型以后是否在生产中使用,模型的所有方面都得到存储,并且可以随着时间的推移以及在各种训练和验证集上进行适当的模型比较。

机器学习管道开发

天真的模型部署侧重于将单个模型直接投入生产。这种方法忽略了这样一个事实,即模型恶化不是罕见现象,而是常态。

频繁的模型重新训练应该始终是预料之中的,因此,这不是需要将模型推向生产阶段,而是模型训练管道。如有必要,这些建模管道由某些条件(例如新标签数据的到来)触发,将自动训练、测试和比较新的模型版本。

用于 ML 管道部署的 CI/CD

为了最大限度地减少手动操作,模型管道部署本身是在 CI/CD 管道的帮助下执行的。

模型服务

借助自动触发的训练管道,新的完全记录的模型版本将在模型存储库中提供。可以自动将其转移到消耗品预测服务中,也可以在手动批准后执行。

这种方法允许用户通过向生产环境提供多个版本来设计 A/B 测试,以比较一段时间内的实际性能。DXC 为微服务等模型、预先计算基于数据的结果以及在边缘运行的模型提供多种标准服务模式。

模型监控

在生产环境中运行机器学习模型需要密切监控其性能。根据用例和服务模式,需要建立监控服务。

通常,模型监控至少涉及两个级别:

  • 监控预测服务需要记录服务的状态、请求数量和模型的输出。
  • 如果有新的标签数据到达,则监控模型性能需要评估新数据的当前生产模型。监控相关数据管道可确保实时验证数据质量。

结论

在人工智能带来的竞争压力的环境中,mLOps使公司能够在现实世界的实际应用中释放人工智能的潜力。但是,构建专业的 mLops 解决方案需要一组复杂的互联功能。

适用于 亚马逊云科技 的 DXC mLops 快速入门是一款久经考验的 mLops 解决方案,它基于 亚马逊云科技 原生服务构建,使用户能够无缝扩展。

DXC 提供标准化服务,为人员提供建议和指导、改变组织结构以及大规模实施和运行专业 mLOPs 平台。

适用于mLOps的DXC CoE确保了许多全球客户的最高质量水平。联系 DXC 申请演示并与专家就成功实现机器学习的正确途径进行更深入的对话。


DXC-APN-Blog-Connect-2023


DXC 科技 — 亚马逊云科技 合作伙伴聚焦

DXC Technology 是 亚马逊云科技 顶级服务合作伙伴和 MSP ,了解在大规模环境中将工作负载迁移到 亚马逊云科技 的复杂性以及成功所需的技能。

联系 DXC 科技 | 合作伙伴概述