汤森路透如何使用亚马逊 SageMaker 构建人工智能平台来加速机器学习项目的交付

这篇文章由汤森路透的拉姆杰夫·伍达利和基兰·曼特里普拉加达共同撰写。

1992年，汤森路透（TR）发布了其首款人工智能法律研究服务WIN（Westlaw Is Natural），这是当时的一项创新，因为大多数搜索引擎仅支持布尔术语和连接器。从那时起，TR实现了更多里程碑，因为其人工智能产品和服务的数量和种类不断增长，为全球法律、税务、会计、合规和新闻服务专业人士提供支持，每年产生数十亿的机器学习 (ML) 见解。

随着人工智能服务的巨大增长，TR的下一个里程碑是简化创新和促进协作。在业务职能部门和人工智能从业者角色中标准化人工智能解决方案的构建和重复使用，同时确保遵守企业最佳实践：

自动化和标准化重复的无差别工程工作
确保根据通用治理标准对敏感数据进行必要的隔离和控制
提供对可扩展计算资源的轻松访问

为了满足这些要求，TR 围绕以下五大支柱构建了企业人工智能平台：数据服务、实验工作区、中央模型注册表、模型部署服务和模型监控。

在这篇文章中，我们讨论了 TR 和亚马逊云科技如何合作开发 TR 的第一个企业 AI 平台，这是一个基于 Web 的工具，将提供机器学习实验、训练、中央模型注册表、模型部署和模型监控等各种功能。所有这些功能都是为了满足 TR 不断变化的安全标准而构建的，并为最终用户提供简单、安全和合规的服务。我们还分享了 TR 如何通过单一管理平台对跨不同业务部门创建的机器学习模型进行监控和治理。

面临的挑战

从历史上看，在 TR，机器学习一直是拥有高级数据科学家和工程师的团队的一项能力。拥有高技能资源的团队能够根据自己的需求实施复杂的机器学习流程，但很快就变得非常孤立。孤立的方法无法提供任何可见性，无法对极其关键的决策预测进行监管。

TR 业务团队拥有丰富的领域知识；但是，机器学习所需的技术技能和繁重的工程设计工作使得他们很难利用深厚的专业知识来利用机器学习的力量解决业务问题。TR 希望使这些技能大众化，使组织内更多的人能够获得这些技能。

TR 中的不同团队遵循自己的做法和方法。TR 希望为用户构建横跨机器学习生命周期的功能，使团队能够专注于业务目标，而不是重复的无差别工程工作，从而加快机器学习项目的交付。

此外，围绕数据和道德人工智能的法规不断发展，要求在TR的人工智能解决方案中制定共同的治理标准。

解决方案概述

TR 的企业 AI 平台旨在为不同的角色提供简单和标准化的服务，为机器学习生命周期的每个阶段提供功能。TR 已经确定了对 TR 的所有要求进行模块化的五个主要类别：

数据服务 -实现对企业数据资产的轻松、安全访问
实验工作区 -提供实验和训练 ML 模型的功能
中央模型注册表 — 跨不同业务部门构建的模型的企业目录
模型部署服务 — 按照 TR 的企业 CI/CD 实践提供各种推理部署选项
模型监控服务 — 提供监控数据和对偏差和偏差进行建模的功能

如下图所示，这些微服务在构建时考虑到了一些关键原则：

移除用户无差别的工程设计工作
只需点击一下按钮即可提供所需的功能
按照 TR 的企业标准保护和管理所有功能
为机器学习活动带上单一的玻璃窗

Thomson Reuters AI Platform

TR 的人工智能平台微服务以亚马逊 SageMaker 为核心引擎、用于工作流程的亚马逊云科技无服务器组件和用于 CI/CD 实践的亚马逊云科技 DevOps 服务构建。 SageMaker Stud io 用于实验和训练，SageMaker 模型注册表用于注册模型。中央模型注册表由 SageMaker 模型注册表和亚马逊 Dynam oDB 表组成。 SageMaker 托管服务用于部署模型，而 SageMaker 模型监控器和 SageMak er Clarify 用于监控模型的偏差、偏差、自定义指标计算器和可解释性。

以下各节详细描述了这些服务。

数据服务

传统的机器学习项目生命周期从查找数据开始。通常，数据科学家会在需要时花费60％或更多的时间来寻找正确的数据。就像每个组织一样，TR 有多个数据存储，可作为不同数据域的单一事实点。TR 确定了两个为其大部分 ML 用例提供数据的关键企业数据存储：对象存储和关系数据存储。TR 构建了 AI Platform 数据服务，以无缝提供从用户实验工作区访问这两个数据存储的权限，并减轻了用户自行浏览复杂流程以获取数据的负担。TR 的人工智能平台遵循数据和模型治理团队定义的所有合规性和最佳实践。这包括强制性的数据影响评估，该评估可帮助机器学习从业者了解并遵守数据的道德和适当用途，并通过正式的批准流程来确保数据的适当访问权限。根据TR和行业确定的最佳实践，该服务以及所有平台服务的核心是安全性和合规性。

Amazon Simple Storage Servic e (Amazon S3) 对象存储充当内容数据湖。TR 构建了安全访问从内容数据湖到用户实验工作空间的数据的流程，同时保持所需的授权和可审计性。Snowflake 用作企业关系主数据存储。应用户请求并根据数据所有者的批准，AI Platform 数据服务向用户提供数据快照，随时可以在他们的实验工作空间中使用。

访问来自各种来源的数据是一个可以轻松解决的技术问题。但是，TR 解决的复杂性是建立批准工作流程，自动识别数据所有者，发送访问请求，确保通知数据所有者有待处理的访问请求，并根据批准状态采取措施向请求者提供数据。整个过程中的所有事件都经过跟踪和记录，以提高可审计性和合规性。

如下图所示，TR 使用亚马逊云科技 Step Functions 来协调工作流程，使用 AW S Lambda 来运行该功能。 Amazon API Gatew ay 用于通过其门户网站使用的 API 端点来提供功能。
Data service

模型实验和开发

标准化机器学习生命周期的一项基本能力是允许数据科学家试验不同的机器学习框架和数据大小的环境。在几分钟之内在云中实现如此安全、合规的环境可以减轻数据科学家处理云基础架构、网络要求和安全标准措施的负担，转而专注于数据科学问题。

TR 构建了一个实验工作空间，提供对亚马逊云科技 Glue 、A mazon EMR 和 SageMaker Studio 等服务的访问，使数据处理和机器学习功能符合企业云安全标准和每个业务部门所需的账户隔离。TR 在实施解决方案时遇到了以下挑战：

早期的编排并不是完全自动化的，涉及多个手动步骤。追踪问题发生的地方并不容易。TR 通过使用 Step Functions 协调工作流程来克服这个错误。通过使用 Step Functions，构建复杂的工作流程、管理状态和错误处理变得更加容易。
很难为实验工作空间定义正确的 A WS 身份和访问管理 (IAM) 角色。为了符合 TR 的内部安全标准和最低权限模型，最初，工作空间角色是使用内联策略定义的。因此，内联策略随着时间的推移而增长并变得冗长，超过了 IAM 角色允许的策略大小限制。为了缓解这种情况，TR 转而使用更多客户管理的策略，并在工作空间角色定义中引用这些策略。
TR 偶尔会达到适用于亚马逊云科技账户级别的默认资源限制。由于达到所需的资源类型限制，这偶尔会导致启动 SageMaker 作业（例如训练作业）失败。TR 在这个问题上与 SageMaker 服务团队密切合作。在亚马逊云科技团队于 2022 年 6 月将 SageMaker 作为服务配额的支持服务推出后，这个问题得到了解决。

如今，TR 的数据科学家可以通过创建独立的工作空间并添加所需的团队成员来启动机器学习项目。通过向他们提供不同大小的自定义内核映像，SageMaker 提供的无限扩展触手可及。SageMaker Studio 很快成为 TR 人工智能平台的关键组件，并将用户行为从使用受限的桌面应用程序转变为可扩展的临时专用引擎。下图说明了这种架构。

中央模型登记处

模型注册库为TR的所有机器学习模型提供了一个中央存储库，允许以标准化的方式对这些模型进行跨业务职能的风险和健康管理，并简化潜在模型的重复使用。因此，该服务需要执行以下操作：

提供注册新模型和旧模型的功能，无论是在 SageMaker 内部还是外部开发
实施治理工作流程，使数据科学家、开发人员和利益相关者能够查看和共同管理模型的生命周期
通过创建 TR 中所有模型以及元数据和运行状况指标的集中视图，提高透明度和协作性

TR 最初只使用 SageMaker 模型注册表进行设计，但是 TR 的关键要求之一是提供注册在 SageMaker 之外创建的模型的功能。TR 评估了不同的关系数据库，但最终选择了 DynamoDB，因为来自传统来源的模型的元数据架构将大不相同。 TR 也不想将任何额外的工作强加给用户，因此他们使用亚马逊 EventBrid ge 规则和所需的 IAM 角色实现了人工智能平台工作空间 SageMaker 注册表与中央 SageMaker 注册表之间的无缝自动同步。 TR 使用 DynamoDB 增强了中央注册表，以扩展注册在用户桌面上创建的旧模型的功能。

TR 的 AI Platform 中央模型注册表已集成到 AI Platform 门户中，为搜索模型、更新模型元数据以及了解模型基线指标和定期自定义监控指标提供了可视化界面。下图说明了这种架构。

模型部署

TR 确定了两种主要的自动部署模式：

使用 SageMaker 通过 SageMaker 批量转换作业开发的模型，以便按首选时间表进行推断
在 SageMaker 外部使用开源库在本地桌面上开发的模型，通过自带容器方法，使用 SageMaker 处理作业来运行自定义推理代码，这是一种无需重构代码即可迁移这些模型的有效方法

借助 AI Platform 部署服务，TR 用户（数据科学家和机器学习工程师）可以通过用户界面驱动的工作流程提供所需的参数，从目录中识别模型并将推理任务部署到他们选择的亚马逊云科技账户中。

TR 使用亚马逊云科技 CodePip eline 和亚马逊云科技 Cod eBuild 等亚马逊云科技 DevOps 服务自动执行此部署。 TR 使用步骤函数来协调读取和预处理数据的工作流程，以创建 SageMaker 推理作业。TR 使用亚马逊云科技 CloudFormation 模板将所需的组件作为代码进行部署。下图说明了这种架构。

模型监控

如果无法监控模型，机器学习生命周期就不完整。TR的企业治理团队还要求并鼓励业务团队在一段时间内监控其模型表现，以应对任何监管挑战。TR 从监控模型和漂移数据开始。TR 使用 SageMaker 模型监视器提供数据基线和推理依据，以定期监控 TR 的数据和推断是如何漂移的。除了 SageMaker 模型监控指标外，TR 还通过开发针对其模型的自定义指标来增强监控能力。这将帮助TR的数据科学家了解何时重新训练他们的模型。

除了漂移监控外，TR 还想了解模型中的偏差。SageMaker Clarify 的开箱即用功能用于构建 TR 的偏差服务。TR 监控数据和模型偏差，并通过 AI 平台门户向其用户提供这些指标。

为了帮助所有团队采用这些企业标准，TR 已将这些服务独立化，并可通过 AI Platform 门户随时使用。TR 的业务团队可以进入门户网站，自行部署模型监控作业或偏差监控作业，并按自己的首选时间表运行。他们会收到有关作业状态和每次运行指标的通知。

TR 使用用于 CI/CD 部署、工作流程编排、无服务器框架和 API 终端节点的亚马逊云科技服务来构建可独立触发的微服务，如以下架构所示。
Model monitoring

结果和未来的改进

TR 的 AI 平台于 2022 年第三季度上线，包含所有五个主要组件：数据服务、实验工作区、中央模型注册表、模型部署和模型监控。TR 为其业务部门举办了内部培训课程，帮助他们加入该平台，并向他们提供自助培训视频。

AI Platform 为 TR 的团队提供了前所未有的功能；它为 TR 的企业治理团队提高合规标准和集中注册管理开辟了广泛的可能性，从而提供了 TR 中所有机器学习模型的单一管理平台视图。

TR 承认，没有任何产品在首次发布时处于最佳状态。TR 的所有组件都处于不同的成熟度水平，而 TR 的企业 AI 平台团队正处于持续增强阶段，以迭代方式改进产品功能。TR 当前的改进流程包括添加其他 SageMaker 推理选项，例如实时、异步和多模型端点。TR 还计划将模型可解释性作为一项功能添加到其模型监控服务中。TR 计划使用 SageMaker Clarify 的可解释性功能来开发其内部可解释性服务。

结论

与之前的几个月相比，TR 现在可以安全地处理大量数据，并使用高级亚马逊云科技功能在几周内将机器学习项目从构思到生产。借助亚马逊云科技服务的开箱即用功能，TR 中的团队可以首次注册和监控机器学习模型，从而遵守其不断演变的模型治理标准。TR 使数据科学家和产品团队能够有效地发挥创造力，解决大多数复杂的问题。

要了解有关 TR 在亚马逊云科技上的企业人工智能平台的更多信息，请查看 AW S re: Invent 2022 会议。如果您想了解 TR 如何使用亚马逊云科技数据实验室计划加速机器学习的使用，请参阅案例研究。

作者简介

Ramdev Wudali 是一名数据架构师，帮助架构和构建 AI/ML 平台，使数据科学家和研究人员能够通过专注于数据科学而不是基础设施需求来开发机器学习解决方案。在业余时间，他喜欢折叠纸张来制作折纸镶嵌图案，还喜欢穿着不敬的 T 恤。

基兰·曼特里普拉加达是汤 森路透的人工智能平台高级总监。AI Platform 团队负责支持生产级 AI 软件应用程序，并支持数据科学家和机器学习研究人员的工作。Kiran 对科学、人工智能和工程充满热情，喜欢弥合研究和产品化之间的鸿沟，将人工智能的真正创新带给最终消费者。

Bhavana Chirumamilla 是亚马逊云科技的高级驻地架构师。她热衷于数据和机器学习运营，并对帮助企业制定数据和机器学习策略充满热情。在业余时间，她喜欢和家人一起旅行、远足、园艺和看纪录片。

Srinivasa Shaik 是位于波士顿的 A WS 的解决方案架构师。他帮助企业客户加快云之旅。他对容器和机器学习技术充满热情。在业余时间，他喜欢与家人共度时光、烹饪和旅行。

李庆伟 是亚马逊网络服务的机器学习专家。在他破坏了顾问的研究补助金账户并未能兑现他所承诺的诺贝尔奖之后，他获得了运筹学博士学位。目前，他帮助金融服务和保险行业的客户在亚马逊云科技上构建机器学习解决方案。在业余时间，他喜欢阅读和教学。