在 Amazon Marketplace 中使用 Domino 简化可扩展的 AI

企业人工智能采用者正在设定宏伟的创新目标，这将对他们的治理能力提出更多要求。多米诺数据实验室是 Amazon Marketplace 的合作伙伴和销售商，提供其企业人工智能平台，以帮助组织在创新速度与治理要求之间取得平衡。在 Amazon Marketplace 中，团队可以在亚马逊云科技上快速获取和部署多米诺平台，从而实现快速的人工智能转型和机器学习操作（MLOps），同时通过优化的人工智能基础设施保持合规性和成本效益。该平台与亚马逊云科技专业的人工智能处理器（用于推理工作负载的 Amazon Inferentia 和用于加速训练的 Amazon Trainium）配合使用，以提供加快人工智能实施的解决方案。

这篇文章探讨了多米诺的企业人工智能平台和亚马逊云科技机器学习 (ML) 加速器如何帮助组织在保持监管和绩效的同时利用人工智能进行创新。我们还将探讨多米诺如何简化对 Amazon SageMaker 的部署，帮助团队负责任地加速人工智能开发。

平衡 AI 和治理

人工智能治理不仅限于合规性，还需要在不减缓模型开发的情况下提高透明度、可重复性和风险管理。扩展 AI 的组织面临着几个常见的挑战：

在保持创新速度的同时实施风险管理和合规要求
在团队之间保持清晰的模型谱系和批准工作流程
跨环境建立一致的部署策略

组织需要一种结构化的人工智能治理方法，在保持灵活性的同时实施控制。通过自动化政策、审批工作流程和合规性跟踪，团队可以在不造成摩擦的情况下保持监督。

使用 Domino 和亚马逊云科技开发可扩展、受管控的 AI

为了有效扩展 AI，团队需要灵活的基础架构来维持治理标准。多米诺的企业人工智能平台使数据科学家能够灵活地使用他们的首选工具（包括 TensorFlow、PyTorch、R 或 SAS），在亚马逊云科技计算资源上训练模型，同时自动跟踪来源并强制执行实践。在 Domino 中开发的模型可以部署到 Amazon SageMaker 上，在亚马逊云科技硬件上运行，从而在整个过程中保持一致的监管。

人工智能开发需要数据科学家、IT 团队和合规专家之间的合作。Domino 通过版本控制、共享工作空间和模型谱系跟踪来支持这一点。该平台通过定义政策、管理审批和自动化审计，帮助 IT 和风险团队在开发初期实施合规控制。

使用 Inferentia 和 Trainium 提高 AI 性能

大规模部署 AI 模型会带来特定的挑战。组织需要管理混合环境中的部署工作流程，同时控制成本。由于人工智能模型需要更多的计算能力，如果不优化硬件，推理成本可能会增加。此外，维护分布式系统的治理和合规性对于防止模型偏移和满足监管要求非常重要。

亚马逊云科技使用 Domino 用于企业 AI 工作负载的专用 AI 芯片来应对这些挑战：

Amazon Inferentia 提供针对深度学习模型进行了优化的高性能、低成本推理，从而减少了运行大规模 AI 应用程序的计算负担。
Amazon Trainium 可加速训练工作负载，提高 AI 开发的效率和成本效益。

Domino 可与这些亚马逊云科技处理器集成，同时保持管理和生命周期跟踪。在 Amazon Trainium 上训练的模型可以通过多米诺的平台部署到基于 Inferentia 的 Amazon SageMaker 终端节点。该平台跟踪所有模型部署，允许 IT 团队扩展 AI 服务，同时管理成本和合规性要求。

模型部署到 Amazon SageMaker

多米诺提供向 Amazon SageMaker 部署模型的集成功能。这种集成有助于 MLOps 工程师和数据科学家部署模型，同时遵循治理要求。以下是它的工作原理：

步骤 1：配置部署目标

为确保无缝部署，多米诺管理员将 Amazon SageMaker 配置为多米诺平台内的外部部署目标。这种设置使数据科学家和 MLOps 团队能够高效地部署模型，同时保持集中治理。

图 1：Domino 平台创建 Amazon SageMaker 外部部署目标的管理视图

组织可以使用 Amazon Inferentia 支持的实例来优化推理成本和性能。这种配置可确保组织在不增加基础架构成本的情况下大规模实现高效率。

图 2：Domino 平台配置 Amazon Inferentia 资源和权限的管理员视图

第 2 步：部署模型

配置部署目标后，数据科学家可以在 Domino 的用户界面中选择经过训练的模型并将其打包以部署到 SageMaker。该集成简化了流程，模型可自动容器化并针对 Amazon Inferentia 进行优化。

打包后，将在 SageMaker 中创建推理端点，从而实现低延迟、高性能的人工智能推理。这种自动化显著减少了将模型从开发转移到生产所需的时间和精力。

图 3：选择将部署到 Amazon SageMaker 的模型

图 4：选择部署目标和规模（之前由 Domino 管理员配置）

图 5：配置终端节点参数，例如实例数量、串流和自动扩展

Domino 无缝部署到 Amazon SageMaker 的完整演示视频可在 YouTube 上观看，网址为 Deploy to Amazon SageMaker SageMaker 与 Domino 无缝部署。

第 3 步：管理和监控 AI 工作负载

部署后，实时监控和性能跟踪变得至关重要。Domino 提供了一个集中式界面，用于跟踪部署的模型、监控推理延迟并促进监管政策的合规性。

借助内置的模型谱系跟踪和自动报告，IT 和合规团队可以监督各个环境的推理端点，从而降低模型漂移或性能下降的风险。

图 6：通过多米诺统一的单一管理平台管理和监督所有资产，无论它们是在哪里生产或部署

用例和优点

以下各节探讨了多米诺解决方案的用例和优势。

AI 模型的自动 CI/CD

现代 AI 应用程序需要持续的迭代、更新和改进。但是，手动管理这些更改可能既耗时又容易出错。Domino 自动执行 AI 模型的持续集成和持续交付 (CI/CD) 流程，这意味着更新、重新训练和重新部署可以高效地进行，并且具有完全的版本控制。这种自动化使得：

通过集成的工作流程简化模型打包和部署
自动跟踪模型变更，提供可重复性和可审计性
基于策略的批准可强制治理，同时允许团队快速迭代

通过将 CI/CD 优秀实践嵌入模型开发，企业可以在保持强有力的监督的同时加速 AI 创新。

利用亚马逊云科技计算资源优化基础设施

在保持性能的同时优化 AI 基础设施成本是企业扩展 AI 工作负载的关键考虑因素。Domino 提供了充分利用亚马逊云科技计算资源的灵活性。Amazon Trainium 加速模型训练，减少训练时间和计算成本。Amazon Inferentia 提供优化的推理性能，减少大规模部署的运营开支。对于需要 NVIDIA 加速的工作负载，Domino 支持各种 Amazon Elastic Compute Cloud (Amazon EC2) GPU 实例类型（例如 P4、G5 和 G4），以处理要求苛刻的深度学习任务。Domino 通过以下方式增强了这些功能：

启用推理工作负载的自动扩展，以根据需求动态调整容量，防止过度配置
支持跨不同计算类型的高性价比模型部署，使组织能够将资源与工作负载需求相匹配
当模型未被积极使用时，将规模缩小到零，从而减少不必要的云开支

这些优化意味着无论哪种亚马逊云科技计算资源最适合其特定需求，企业都可以在成本效益和 AI 性能之间实现尽可能优秀的平衡。

谁受益？

通过 Amazon Marketplace 使用 Domino 实施 AI 可以为不同的组织角色提供特定的价值：

数据科学团队 — 按需扩展性意味着数据科学团队可以通过 Domino 访问 Amazon Inferentia 和 Trainium，从而在没有 IT 瓶颈的情况下加快实验速度。团队之间的协作是无缝的，这意味着他们可以在集中的、受版本控制的工作空间中共享和重复使用项目。内置了优秀实践，因此它们可以自动跟踪实验并提供可重复性和文档。
MLOps 工程师和风险与合规团队 — 部署已得到简化，因此工程师只需点击几下即可将模型推送到 Amazon SageMaker，内置对扩展和实例类型的控制权。集中监控意味着能够从一个界面管理所有模型端点，包括本地、云端或 SageMaker。通过全面的审计跟踪和政策执行，各团队已做好合规准备，以满足内部和监管标准。
IT 领导者和数据科学高管 — 利用即用型云原生平台缩短基础架构设置时间，缩短价值实现时间。使用 Amazon Marketplace 简化人工智能工作负载的采购和成本控制，从而提高成本效率。通过标准化治理、提高模型可见性和减少影子 AI 部署来降低风险。

结论

在企业内部扩展 AI 需要在性能、治理和成本效率之间取得谨慎的平衡。Domino Data Lab 和亚马逊云科技 共同实现了这种平衡，成功实现了人工智能现代化，同时保持了强大的模型风险管理和企业集成。Amazon Inferentia 和 Trainium 为训练和部署现代 AI 模型提供了高性能、低成本的计算基础，而 Domino 的平台则将其与无缝工作流程、协作和端到端治理相结合。

接下来的步骤：