发布于: Aug 11, 2022

人工智能大数据预测最常用的平台便是 Amazon Forecast,Forecast 为您提供多种不同的模型准确性指标,供您评估预测模型。我们为每个指定的分布点提供加权分位数损失(wQL)指标,以及在平均预测时计算的加权绝对百分比误差(WAPE)与均方根误差(RMSE)。对于每项指标,较低的值表示误差较小,即代表模型准确性更高。所有这些准确性指标都将保持在非负区间。

下面,我们通过一份表格以零售数据集为例,了解这些不同的准确性指标。在此数据集中,我们面向未来两天做出三项预测。

条目ID 备注 日期 实际需求 平均预测 P75预测 P75误差(P75预测-实际)

平均绝对误差

(实际–平均预测)

均方误差

(实际–平均预测

Item1 Item 1是一种需求量很大的热门商品 第1天 200 195 220 20 5 25
第2天 100 85 90 -10 15 225
Item2 Item 2是一种需求较低,且需求主要分布在长尾区间内的商品 第1天 1 2 3 2 1 1
第2天 2 3 5 3 1 1
Item3 Item 3是一种需求主要分布在长尾区间内,且观察到的需求与实际需求存在较大偏差的商品 第1天 5 45 50 45 40 1600
第2天 5 35 40 35 30 900
      总需求 = 313     用于 wQL[0.75]  用于 WAPE 用于 RMSE

下表总结了使用零售数据集用例计算出的准确性指标。

指标
wQL[0.75] 0.21565
WAPE 0.29393
RMSE 21.4165

在以下各节中,我们将具体解释每项指标的计算方式,以及针对每项指标的最佳用例建议。

加权分位数损失 (wQL)

wQL 指标用于在名为分位数的指定分布点上测量模型的准确性。此项指标有助于捕捉每个分位数中的固有偏差。对于倾向于过量储备牛奶等的杂货零售商而言,选择较高的分位数(例如 0.75,即 P75)能够更好地捕捉需求峰值,其实际意义也高于在 0.5 分位数(P50)上获得的预测值。

在此示例中,我们更多强调预测过度、而非预测不足,并建议需要更高的库存量才能以 75% 的成功概率满足客户需求。换句话说,实际需求会在 75% 的时间内小于或等于预测需求,从而使杂货零售商能够以较少的安全库存维持目标库存率。

当预测不足及预测过度所对应的成本不同时,我们建议在不同的分位数上使用 wQL 指标。如果成本差异可以忽略不计,则可以考虑以 0.5(P50)的中位数分位数进行预测,或者使用WAPE指标,该指标使用平均预测进行评估。下图所示,为根据百分位得出的满足购买需求的概率。

对于零售数据集用例,P75 预测表明我们需要优先考虑预测过度,且同时对预测不足加以惩罚。要计算 wQL[0.75],我们可以将 P75 误差列中的正项值相加,而后乘以 1 – 0.75 = 0.25 的较小权重,而后将 P75 误差列中负项的绝对值相加并乘以 0.75 的较大权重来惩罚预测不足。wQL[0.75] 如下:

加权绝对百分比误差 (WAPE)

WAPE 指标是总需求归一化的绝对误差总和。WAPE 同样会因预测不足或预测过度而受到惩罚,因此不对二者做出任何倾向。我们使用预测的期望均值(平均)来计算绝对误差。当预测不足或预测过高的差异可以忽略不计时,或者您希望在平均预测时评估模型准确性时,建议使用 WAPE 指标。例如,为了预测特定时间在 ATM 机中储备的现金量,银行可能会选择满足平均需求,换言之,既不担心无法为客户提供充足现金,又不担心 ATM 机中储备的现金量过大。在此示例中,您可以选择以均值进行预测,而后选择WAPE 作为指标以评估模型的准确性。

归一化或加权,有助于对使用不同数据集训练出的模型进行比较。例如,如果整个数据集的绝对误差总和为 5,则在不清楚总需求规模的情况下,我们很难解释该指标的质量。总需求高(1000)将导致 WAPE 指标低(0.005),总需求低(10)则导致WAPE指标高(0.5)。WAPE 与 wQL 中的权重允许在不同规模的数据集之间直接比较这些指标。

归一化或加权也有助于评估包含不同规模的混合条目数据集。WAPE 指标主要强调需求量较大的商品的准确性。您可以将 WAPE 用于那些少量 SKU 预测会推动大部分销售额的数据集。例如,如果零售商可能更喜欢使用 WAPE 指标,以减少商品中某些特定版本所引发的预测误差,并优先考虑销售额最高的标准商品的预测误差。

在我们的零售数据集用例中,WAPE 等于绝对误差列的总和除以实际需求列的总和(总需求)。

由于总需求的总和主要由 Item1 驱动,因此 WAPE 更重视销售量更大的 Item1 的准确性。

许多零售客户使用稀疏数据集,其中大部分 SKU 很少出售。对于大多数历史数据点而言,其需求为0。对于这些数据集,考虑总需求规模非常重要,这使得 wQL 和 WAPE 优于 RMSE,可以评估稀疏数据集。RMSE 指标并不考虑到总需求的规模,而是通过考虑历史数据点总数和 SKU 总数,来返回较低的 RMSE值,这会给您造成一种模型准确性较高的假相。

均方根误差(RMSE)

RMSE 指标是平方误差(预测均值与实际值的差)之和的平方根除以条目数量与时间点数量的乘积。如果预测不足或者预测过度之间的折衷可以忽略不计,或者您希望进行平均预测,那么不会对预测不足或预测过度做出任何惩罚的 RMSE 就显得更为合适。由于 RMSE 与误差的平方成正比,因此它对实际需求与预测值之间存在的较大偏差会非常敏感。

但是,请您谨慎使用 RMSE,因为预测误差中的某些较大偏差会严重影响原本准确的模型。例如,如果大型数据集中的某一条目出现了严重的预测不足或预测过度,则该条目的误差会导致整个 RMSE 指标的严重偏离,并可能使您直接否定一个本来准确的模型。对于一些较大偏差、但较低重要性的用例,请考虑使用 wQL 或 WAPE 指标。

在我们的零售数据集示例中,RMSE 等于平方误差列之和的平方根除以总点数(3个条目 x 2天 = 6)。

RMSE 更重视 Item3 预测误差中的较大偏差,这会导致更高的 RMSE 值。

如果模型中某些条目上发生错误预测会给企业造成重大损失,我们建议您优先使用 RMSE 指标。例如,预测机器故障的制造商可能更倾向于使用 RMSE 指标。由于操作机械非常重要,因此在评估模型的准确性时,应明确强调实际需求与预测需求之间的任何较大偏差(即使偏差的出现频率很低)。

下表所示,总结了我们之前就准确性指标的选择标准所讨论的结果。

用例 wQL WAPE RMSE
针对可能带来不同影响的预测不足或预测过度做出优化 X    
优先处理高人气或高需求商品,其重要度高于低需求商品 X X  
强调因为预测误差过大引发的业务成本影响     X
评估对象为稀疏数据集,即历史数据点中的大多数条目的需求为0 X X

相关文章