Amazon SageMaker

Amazon SageMaker Clarify

检测机器学习模型中的偏差并了解模型预测

概述

Amazon SageMaker Carify 让机器学习开发人员可以更好地了解其训练数据和模型，从而识别和限制偏差并解释预测。

偏差是指训练数据或模型预测行为在不同群体（例如年龄或收入档次）中的不平衡。偏差可能来自用于训练模型的数据或算法。例如，如果机器学习模型主要根据中年人的数据进行训练，那么在做出涉及年轻人和老年人的预测时，可能会不太准确。机器学习领域提供了一个通过检测偏差并在数据和模型中对其进行测量来解决偏差的机会。您还可以查看模型输入的重要性，以解释模型为什么做出预测。

Amazon SageMaker Clarify 通过检查您指定的属性，可在数据准备期间、模式训练后和部署的模型中检测潜在的偏差。例如，您可以在初始数据集或训练过的模型中检查与年龄相关的偏差，并且会收到一份详细报告，报告对不同类型的可能偏差进行了量化。SageMaker Clarify 还包括功能重要性图表，这些图表可帮助您解释模型预测并生成报告，而这些报告可用于支持内部演示或识别模型中的问题，以便您采取措施进行纠正。

检测数据和模型中的偏差

识别数据中的不平衡

SageMaker Clarify 与 Amazon SageMaker Data Wrangler 进行了集成，可以在数据准备期间更轻松地识别偏差。您可以指定感兴趣的属性，例如性别或年龄，SageMaker Clarify 则会运行一组算法来检测这些属性中是否存在偏差。算法运行后，SageMaker Clarify 会提供可视化报告，其中包含潜在偏差的来源和测量值的描述，以便您可以确定补救偏差的步骤。例如，再一个与其他数据集相比只包含了一个年龄组的几个商业贷款示例的金融数据集中，SageMaker 会标记出不平衡，以便您可以避免不适合此年龄组的模型。

Screenshot of Amazon SageMaker Studio's Data Wrangler showing bias metrics analysis, including Class Imbalance, Difference in Positive Proportions in Labels (DPL), and Jensen-Shannon Divergence (JS), as well as a data table of analyzed features.

检查已训练的模型是否存在偏差

您还可以检查训练过的模型是否存在偏差，例如，对一个组产生负面结果比对另一个组更频繁的预测。SageMaker Clarify 与 SageMaker Experiments 进行了集成，因此，在模型训练完成后，您可以识别您想要检查偏差的属性，例如年龄。SageMaker 运行一组算法来检查训练模型，并为您提供可视化报告，以识别每个属性的不同类型的偏差，例如相比年轻人群体，老年人群体得到的预测是否更积极。

监控模型是否存在偏差

尽管您的初始数据或模型可能没有偏差，但世界的变化可能会对已经过训练的模型带来偏差。例如，如果某些群体在原始训练数据中没有出现或准确地表示出来，购房者人口统计数据的重大变化可能会导致住房贷款申请模型出现偏差。SageMaker Clarify 与 SageMaker Model Monitor 进行了集成，使您可以配置 Amazon CloudWatch 之类的警报系统，以在您的模型超出特定的偏差指标阈值时通知您。

Screenshot of the Amazon SageMaker Model Monitor Bias Drift Dashboard. The dashboard visualizes bias monitoring status, model monitoring jobs, and bias metrics such as Difference in Conditional Outcomes and Conditional Demographic Disparity in Labels through time series charts.

解释模型行为

了解您的模型

在生成预测时，经过训练的模型对一些模型输入的考虑可能会比对其他模型输入更强。例如，贷款申请模型对信用历史记录的看重程度可能比其他因素更重。SageMaker Clarify 与 SageMaker Experiments 进行了集成，以提供一个图表，详细说明哪些特征在模型训练完成后对模型的整体预测过程贡献最大。这些详细信息可能有助于符合合规性要求，也可以帮助确定特定模型输入对整体模型行为的影响是否大于其应有的程度。

监控模型的行为变化

真实世界数据的变化可能会导致模型为模型输入赋予不同的权重，进而随着时间的推移改变其行为。例如，房价下跌可能会导致模型在进行贷款预测时减弱对收入的看重。Amazon SageMaker Clarify 与 SageMaker Model Monitor 进行了集成，可在模型输入的重要性发现变化从而导致模型行为改变时提醒您。

解释各个模型预测

客户和内部利益相关者都希望透彻了解模型是如何做出预测的。SageMaker Clarify 与 SageMaker Experiments 进行了集成，以向您展示每个模型输入对特定预测的重要性。结果可以提供给面向客户的员工，以便他们在基于模型预测做出决策时了解模型的行为。

应用场景

法规合规性

《平等信用机会法》(ECOA) 或《住房公平法》等法规可能要求公司能够解释金融决策，并围绕模型风险管理采取措施。Amazon SageMaker Carify 可以帮助标记初始数据或训练后的模型中存在的任何潜在偏差，还可以帮助解释哪些模型特征对机器学习模型预测贡献最大。

内部报告与合规性

数据科学团队通常需要向内部利益相关者（如内部审计师或高管）证明或解释机器学习模型。Amazon SageMaker Carify 可以在请求时为数据科学团队提供功能重要性图表，并可以帮助量化机器学习模型中的潜在偏差或用于训练该模型的数据，以提供支持内部要求所需的其他信息。

客户服务

面向客户的员工（例如财务顾问或信贷员）可能会在工作过程中审查机器学习模型所做的预测。与数据科学团队合作，这些员工可以通过 API 直接从 Amazon SageMaker Clarify 获得可视化报告，详细说明哪些功能对于给定预测最重要，以便在做出可能影响客户的决策之前对其进行审查。