使用亚马逊 Lookout for Equipment 为业务线用户提供预测性维护

预测性维护是一种数据驱动的维护策略，用于监控工业资产，以检测可能导致设备故障的设备运行和健康状况异常。通过主动监控资产状况，可以在问题出现之前向维护人员发出警报，从而避免代价高昂的计划外停机，这反过来又可以提高整体设备效率（OEE）。

但是，为预测性维护构建必要的机器学习 (ML) 模型既复杂又耗时。它需要几个步骤，包括对数据进行预处理、构建、训练、评估，然后微调多个机器学习模型，这些模型可以可靠地预测资产数据中的异常。然后，需要部署完成的机器学习模型并提供实时数据以进行在线预测（推理）。将此流程扩展到多种类型和运营状况的资产通常资源密集度过高，无法更广泛地采用预测性维护。

借助 Amazon Lookout for Equipment，您可以无缝分析工业设备的传感器数据以检测异常机器行为，无需机器学习经验。

当客户使用 Lookout for Equipment 实施预测性维护用例时，他们通常会在三个选项之间进行选择来交付项目：自己构建、与亚马逊云科技合作伙伴合作或使用亚马逊云科技专业服务。在投入此类项目之前，工厂经理、可靠性或维护经理等决策者以及部门领导希望看到预测性维护可以在其业务领域中发现的潜在价值的证据。此类评估通常作为概念验证 (POC) 的一部分进行，是商业案例的基础。

这篇文章面向技术用户和非技术用户：它为使用自己的数据评估 Lookout for Equipment 提供了一种有效的方法，使您能够评估它为预测性维护活动提供的业务价值。

解决方案概述

在这篇文章中，我们将指导您完成在 Lookout for Equipment 中提取数据集、查看传感器数据的质量、训练模型和评估模型的步骤。完成这些步骤将有助于深入了解设备的运行状况。

先决条件

您只需要一个亚马逊云科技账户和可以从预测性维护方法中受益的资产的传感器数据历史记录即可。传感器数据应作为 CSV 文件存储在您的账户中的亚马逊简单存储服务 (Amazon S3) 存储桶中。您的 IT 团队应该能够通过参阅格式化数据来满足这些先决条件。为了简单起见，最好将所有传感器数据存储在一个 CSV 文件中，其中行是时间戳，列是单个传感器（最多 300 个）。

一旦您的数据集在 Amazon S3 上可用，您就可以继续阅读本文的其余部分。

添加数据集

Lookout for Equipment 使用项目来组织评估工业设备部件的资源。要创建新项目，请完成以下步骤：

在 Lookout for Equipment 控制台上，选择 创建项目 。

Click the Create Project button on the home page of the service

输入项目名称并选择 创建项目 。

创建项目后，您可以提取一个数据集，该数据集将用于训练和评估异常检测模型。

在项目页面上，选择 添加数据集 。

Click Add dataset on the project dashboard

对于 S3 位置 ，输入数据的 S3 位置（不包括文件名）。
对于 架构检测方法 ，选择 按文件名 ，这假设资产的所有传感器数据都包含在指定 S3 位置的单个 CSV 文件中。
将其他设置保留为默认设置，然后选择 “ 开始提 取” 以开始摄取过程。

Configure your data source details and click Start ingestion

摄取可能需要大约 10-20 分钟才能完成。在后台，Lookout for Equipment 执行以下任务：

它可以检测数据的结构，例如传感器名称和数据类型。
传感器之间的时间戳对齐，缺失值被填充（使用最新的已知值）。
重复的时间戳被删除（仅保留每个时间戳的最后一个值）。
Lookout for Equipment 使用多种类型的算法来构建 ML 异常检测模型。在摄取阶段，它会准备数据，以便用于训练这些不同的算法。
它分析测量值并将每个传感器分为高、中或低质量。

数据集摄取完成后，在项目页面的步骤 2 下选择 查看数据集 对其进行检查。

Click View dataset on the project dashboard

在创建异常检测模型时，选择最佳传感器（包含最高数据质量的传感器）对于训练提供可操作见解的模型通常至关重要。 数据集详细信息 部分显示传感器等级的分布（在高、中和低之间），而该表单独显示每个传感器的信息（包括传感器名称、日期范围和传感器数据的分级）。通过这份详细报告，您可以就使用哪些传感器来训练模型做出明智的决定。如果您的数据集中有很大一部分传感器被评为中等或低，则可能存在需要调查的数据问题。如有必要，您可以将数据文件重新上传到 Amazon S3，然后通过选择 “ 替换数据集” 再次提取数据。

Sensor grade dashboard overview

通过在详细信息表中选择传感器等级条目，您可以查看导致给定等级的验证错误的详细信息。显示和处理这些细节将有助于确保提供给模型的信息是高质量的。例如，你可能会看到一个信号有意想不到的大块缺失值。这是数据传输问题，还是传感器出现故障？是时候更深入地研究数据了！

Individual sensor grade overview

要详细了解不同类型的传感器问题，请在对传感器进行分级时留意设备地址，请参阅评估传感器等级。开发人员还可以使用 List SensorStatistics API 提取这些见解。

当你对数据集感到满意时，你可以转到下一步，训练模型以预测异常。

训练模型

Lookout for Equipment 允许训练特定传感器的模型。这使您可以灵活地尝试不同的传感器组合或排除等级较低的传感器。完成以下步骤：

在数据集页面 的按传感器分类的详细信息 部分中，选择要包含在模型中的传感器，然后选择 创建模型 。

Selecting sensors for training a model

在 模型名称 中，输入模型名称，然后选择 下一步 。

Give a model name

在 训练和评估设置 部分中，配置模型输入数据。

为了有效地训练模型，需要将数据拆分成单独的训练集和评估集。您可以在本节中定义此拆分的日期范围，以及传感器的采样率。你如何选择这种分割？请考虑以下几点：

Lookout for Equipment 预计训练范围内至少有 3 个月的数据，但最佳数据量由您的用例决定。可能需要更多数据来考虑您的生产所经历的任何类型的季节性或运营周期。
评估范围没有限制。但是，我们建议设置一个包括已知异常情况的评估范围。通过这种方式，你可以测试 Lookout for Equipment 是否能够捕捉到导致这些异常的任何感兴趣事件。

通过指定采样率，Lookout for Equipment 可以有效地对传感器数据进行降采样，这可以显著缩短训练时间。理想的采样率取决于您怀疑数据中的异常类型：对于慢趋势异常，选择介于 1 到 10 分钟之间的采样率通常是一个不错的起点。选择较低的值（增加采样率）会延长训练时间，而较高的值（低采样率）会缩短训练时间，但有可能从数据中删减与预测异常相关的领先指标。

Configure input data for model training

如果仅对工业设备运行时数据的相关部分进行培训，则可以通过选择传感器并定义指示设备处于开启还是关闭状态的阈值来执行停机检测。这一点至关重要，因为它允许 Lookout for Equipment 在机器关闭时筛选出训练时段。这意味着模型只能学习相关的操作状态，而不仅仅是在机器关闭时学习。

指定您的关机检测，然后选择 Next 。

Specify off time detection

或者，您可以提供数据标签，以指明维护期或已知的设备故障时间。如果您有此类数据，则可以创建一个 CSV 文件，其中包含文档格式的数据，将其上传到 Amazon S3，然后将其用于模型训练。提供标签可以告知 Lookout for Equipment 应该在哪里找到已知异常，从而提高训练模型的准确性。

指定任何数据标签，然后选择 Next 。

Optionally, specify data labels

在最后一步中查看您的设置。如果一切正常，你可以开始训练。

根据数据集的大小、传感器的数量和采样率，训练模型可能需要几分钟或长达几个小时。例如，如果您以 5 分钟的采样率使用 1 年的数据，其中 100 个传感器且没有标签，则训练模型将花费不到 15 分钟。另一方面，如果您的数据包含大量标签，则训练时间可能会显著增加。在这种情况下，您可以通过合并相邻的标签周期来减少其数量，从而减少训练时间。

你刚刚在没有任何机器学习知识的情况下训练了你的第一个异常检测模型！现在，让我们来看看你可以从经过训练的模型中获得的见解。

评估经过训练的模型

模型训练完成后，您可以通过在项目页面上选择 查看模型 ，然后选择模型的名称来查看模型的详细信息。

除了名称、状态和训练时间等一般信息外，模型页面还汇总了模型性能数据，例如检测到的已标记事件数量（假设您提供了标签）、平均预警时间以及在标签范围之外检测到的异常设备事件的数量。以下屏幕截图显示了一个示例。为了提高可见性，将检测到的事件（功能区顶部的红色条）以及带有标签的事件（功能区底部的蓝色条）进行可视化。

Evaluating a model

您可以通过在时间轴视图中选择代表异常的红色区域来选择检测到的事件，以获取更多信息。这包括：

活动的开始和结束时间及其持续时间。
模型认为与异常发生原因最相关的传感器的条形图。百分比分数代表计算得出的总体贡献。

Signal contribution bar charts on a selected event

这些见解使您能够与过程或可靠性工程师合作，对事件进行进一步的根本原因评估，最终优化维护活动，减少计划外停机时间，并确定次优运行条件。

为了通过实时洞察（推断）支持预测性维护，Lookout for Equipment 支持通过推理计划对在线数据进行实时评估。这要求定期将传感器数据上传到 Amazon S3，然后 Lookout for Equipment 使用经过训练的模型对数据进行推断，提供实时异常评分。推理结果，包括检测到的异常事件的历史记录，可以在 Lookout for Equipment 控制台上查看。

7-day inference result dashboard

结果还会写入 Amazon S3 中的文件，允许与其他系统（例如计算机化维护管理系统 (CMMS)）集成，或者实时通知操作和维护人员。

随着您的 Lookout for Equipment 采用率的提高，您将需要管理更多的模型和推理计划。为了简化此过程， 推理计划 页面在单个视图中列出了当前为项目配置的所有调度器。

Inference scheduler list

清理

当你完成对 Lookout for Equipment 的评估后，我们建议你清理所有资源。您可以删除 Lookout for Equipment 项目以及数据集和通过选择项目、选择 “ 删除 ” 并确认操作而创建的任何模型。

摘要

在这篇文章中，我们介绍了在 Lookout for Equipment 中提取数据集、对其进行模型训练以及评估其性能以了解它可以为单个资产发现的价值的步骤。具体而言，我们探讨了 Lookout for Equipment 如何为预测性维护流程提供信息，从而减少计划外停机时间并提高 OEE。

如果您关注自己的数据，并对使用 Lookout for Equipment 的前景感到兴奋，那么下一步就是在您的 IT 组织、关键合作伙伴或我们的亚马逊云科技专业服务团队的支持下启动一个试点项目。该试点应针对有限数量的工业设备，然后扩大规模，最终将所有资产纳入预测性维护范围。

作者简介

Johann Füchsl 是亚马逊网络服务的解决方案架构师。他指导制造业的企业客户实施 AI/ML 用例、设计现代数据架构和构建可提供有形商业价值的云原生解决方案。Johann 拥有数学和定量建模的背景，并结合了 10 年的 IT 经验。工作之余，他喜欢与家人共度时光，享受大自然。

Michael Hoarau 是亚马逊云科技的工业 AI/ML 专家解决方案架构师，他根据具体时刻在数据科学家和机器学习架构师之间交替工作。他热衷于将人工智能/机器学习的力量带入工业客户的车间，并曾参与过从异常检测到产品质量预测或制造优化等各种机器学习用例。在不帮助客户开发次佳的机器学习体验时，他喜欢观察星星、旅行或弹钢琴。