人工智能大数据预测：以零售数据集为例

发布于: Aug 11, 2022

人工智能大数据预测最常用的平台便是 Amazon Forecast，Forecast 为您提供多种不同的模型准确性指标，供您评估预测模型。我们为每个指定的分布点提供加权分位数损失（wQL）指标，以及在平均预测时计算的加权绝对百分比误差（WAPE）与均方根误差（RMSE）。对于每项指标，较低的值表示误差较小，即代表模型准确性更高。所有这些准确性指标都将保持在非负区间。

下面，我们通过一份表格以零售数据集为例，了解这些不同的准确性指标。在此数据集中，我们面向未来两天做出三项预测。

条目ID	备注	日期	实际需求	平均预测	P75预测	P75误差（P75预测-实际）	平均绝对误差 (实际–平均预测)	均方误差 (实际–平均预测)²
Item1	Item 1是一种需求量很大的热门商品	第1天	200	195	220	20	5	25
Item1	Item 1是一种需求量很大的热门商品	第2天	100	85	90	-10	15	225
Item2	Item 2是一种需求较低，且需求主要分布在长尾区间内的商品	第1天	1	2	3	2	1	1
Item2	Item 2是一种需求较低，且需求主要分布在长尾区间内的商品	第2天	2	3	5	3	1	1
Item3	Item 3是一种需求主要分布在长尾区间内，且观察到的需求与实际需求存在较大偏差的商品	第1天	5	45	50	45	40	1600
Item3	Item 3是一种需求主要分布在长尾区间内，且观察到的需求与实际需求存在较大偏差的商品	第2天	5	35	40	35	30	900
			总需求 = 313			用于 wQL[0.75]	用于 WAPE	用于 RMSE

下表总结了使用零售数据集用例计算出的准确性指标。

指标	值
wQL[0.75]	0.21565
WAPE	0.29393
RMSE	21.4165

在以下各节中，我们将具体解释每项指标的计算方式，以及针对每项指标的最佳用例建议。

加权分位数损失 (wQL)

wQL 指标用于在名为分位数的指定分布点上测量模型的准确性。此项指标有助于捕捉每个分位数中的固有偏差。对于倾向于过量储备牛奶等的杂货零售商而言，选择较高的分位数（例如 0.75，即 P75）能够更好地捕捉需求峰值，其实际意义也高于在 0.5 分位数（P50）上获得的预测值。

在此示例中，我们更多强调预测过度、而非预测不足，并建议需要更高的库存量才能以 75% 的成功概率满足客户需求。换句话说，实际需求会在 75% 的时间内小于或等于预测需求，从而使杂货零售商能够以较少的安全库存维持目标库存率。

当预测不足及预测过度所对应的成本不同时，我们建议在不同的分位数上使用 wQL 指标。如果成本差异可以忽略不计，则可以考虑以 0.5（P50）的中位数分位数进行预测，或者使用WAPE指标，该指标使用平均预测进行评估。下图所示，为根据百分位得出的满足购买需求的概率。

对于零售数据集用例，P75 预测表明我们需要优先考虑预测过度，且同时对预测不足加以惩罚。要计算 wQL[0.75]，我们可以将 P75 误差列中的正项值相加，而后乘以 1 – 0.75 = 0.25 的较小权重，而后将 P75 误差列中负项的绝对值相加并乘以 0.75 的较大权重来惩罚预测不足。wQL[0.75] 如下：

加权绝对百分比误差 (WAPE)

WAPE 指标是总需求归一化的绝对误差总和。WAPE 同样会因预测不足或预测过度而受到惩罚，因此不对二者做出任何倾向。我们使用预测的期望均值（平均）来计算绝对误差。当预测不足或预测过高的差异可以忽略不计时，或者您希望在平均预测时评估模型准确性时，建议使用 WAPE 指标。例如，为了预测特定时间在 ATM 机中储备的现金量，银行可能会选择满足平均需求，换言之，既不担心无法为客户提供充足现金，又不担心 ATM 机中储备的现金量过大。在此示例中，您可以选择以均值进行预测，而后选择WAPE 作为指标以评估模型的准确性。

归一化或加权，有助于对使用不同数据集训练出的模型进行比较。例如，如果整个数据集的绝对误差总和为 5，则在不清楚总需求规模的情况下，我们很难解释该指标的质量。总需求高（1000）将导致 WAPE 指标低（0.005），总需求低（10）则导致WAPE指标高（0.5）。WAPE 与 wQL 中的权重允许在不同规模的数据集之间直接比较这些指标。

归一化或加权也有助于评估包含不同规模的混合条目数据集。WAPE 指标主要强调需求量较大的商品的准确性。您可以将 WAPE 用于那些少量 SKU 预测会推动大部分销售额的数据集。例如，如果零售商可能更喜欢使用 WAPE 指标，以减少商品中某些特定版本所引发的预测误差，并优先考虑销售额最高的标准商品的预测误差。

在我们的零售数据集用例中，WAPE 等于绝对误差列的总和除以实际需求列的总和（总需求）。

由于总需求的总和主要由 Item1 驱动，因此 WAPE 更重视销售量更大的 Item1 的准确性。

许多零售客户使用稀疏数据集，其中大部分 SKU 很少出售。对于大多数历史数据点而言，其需求为0。对于这些数据集，考虑总需求规模非常重要，这使得 wQL 和 WAPE 优于 RMSE，可以评估稀疏数据集。RMSE 指标并不考虑到总需求的规模，而是通过考虑历史数据点总数和 SKU 总数，来返回较低的 RMSE值，这会给您造成一种模型准确性较高的假相。

均方根误差（RMSE）

RMSE 指标是平方误差（预测均值与实际值的差）之和的平方根除以条目数量与时间点数量的乘积。如果预测不足或者预测过度之间的折衷可以忽略不计，或者您希望进行平均预测，那么不会对预测不足或预测过度做出任何惩罚的 RMSE 就显得更为合适。由于 RMSE 与误差的平方成正比，因此它对实际需求与预测值之间存在的较大偏差会非常敏感。

但是，请您谨慎使用 RMSE，因为预测误差中的某些较大偏差会严重影响原本准确的模型。例如，如果大型数据集中的某一条目出现了严重的预测不足或预测过度，则该条目的误差会导致整个 RMSE 指标的严重偏离，并可能使您直接否定一个本来准确的模型。对于一些较大偏差、但较低重要性的用例，请考虑使用 wQL 或 WAPE 指标。

在我们的零售数据集示例中，RMSE 等于平方误差列之和的平方根除以总点数（3个条目 x 2天 = 6）。

RMSE 更重视 Item3 预测误差中的较大偏差，这会导致更高的 RMSE 值。

如果模型中某些条目上发生错误预测会给企业造成重大损失，我们建议您优先使用 RMSE 指标。例如，预测机器故障的制造商可能更倾向于使用 RMSE 指标。由于操作机械非常重要，因此在评估模型的准确性时，应明确强调实际需求与预测需求之间的任何较大偏差（即使偏差的出现频率很低）。

下表所示，总结了我们之前就准确性指标的选择标准所讨论的结果。

用例	wQL	WAPE	RMSE
针对可能带来不同影响的预测不足或预测过度做出优化	X
优先处理高人气或高需求商品，其重要度高于低需求商品	X	X
强调因为预测误差过大引发的业务成本影响			X
评估对象为稀疏数据集，即历史数据点中的大多数条目的需求为0	X	X

相关文章

人工智能图像识别再无人零售商店上的应用

返回上一级机器学习文章>>

人工智能大数据预测：以零售数据集为例

人工智能图像识别再无人零售商店上的应用

终止对 Internet Explorer 的支持