亚马逊云科技和 NFL 的新特种队伍 Next Gen Stat 已准备好开球

最新的高级指标解决了平底船和开球回归的隐藏动态。NFL Next Gen Stats 团队在这里为我们提供内幕消息。

我们都目睹了回归者在接到平底船或开球后一纳秒就被对付了。抓住球，更不用说获得一大码了，是一次巨大的胜利。比方说，回归触地得分的几率更像是奇迹般的一面。在2022年常规赛中，只有0.6％的NFL开球（1,013次中有6次）和0.3％的平底船（952次中有3次）返回达阵。但这正是看到回归者战胜赔率，一波又一波不可能的事情令人兴奋的原因。这是一门艺术。现实中的极端异常值。而且，它可以在转眼之间影响游戏。

但是，除非事情进展得非常正确或非常错误，否则转眼间就是特种队伍经常得到多少关注。NFL Next Gen Stats的迈克·班德说：“这场争夺控球和场地位置的争夺战的复杂性仍未得到高级分析。”“但是，开球和平底船大约占比赛的五分之一，通常会对场地位置和比赛流程产生重大影响。”

为了填补这一差距，亚马逊云科技机器学习 (ML) 工程师和美国国家橄榄球联盟的下一代统计小组共同开发了 预期回归码 ，这是有史以来第一套侧重于开球和平底船回归的高级统计模型。在过去的五年中，这种伙伴关系精心设计了分析，深入研究了球的进攻和防守方面。现在，他们正在将这些学习和机器学习技巧应用于特殊团队。

班德说，这都是帮助粉丝体验和理解游戏各个方面的更大努力的一部分。“如果我们能讲述游戏中每个组成部分的故事，它就能让我们讲述场上正在发生的任何故事。这不仅是为了这个，也是为了让球迷更接近场边。”

预期回归码数可预测回归者在开球或平底船时将获得的码数。想象一下，当回归者接到球时，时间就会冻结。“该统计模型根据该时间戳上场上每位球员的 X 和 Y 速度、加速度和方向来估计返回者接到球后预计将获得多少码...”（顺便说一句，这些数字来自从球员垫中的筹码发送的球员追踪数据）“... 根据该时间戳，该模型估计了该球员如果是的话，将获得多少码的概率分布回归平底船或开球，” Band 解释道。

当团队开始实验时，他们探索了将平底船和开球数据相结合来训练单一模型。但是，它表现不佳。事实证明，尽管平底船和开球使用相似的参数集，但数据的性质更加多样化。球员在场上的位置、回归者接球时防守者的距离、回归者的速度、彼此之间的实时位置以及平底船与开球的加速速度差异很大，以至于模型遇到了问题。

“为了生成最佳的预测分布，你必须创建针对这种情况的模型。这就像在模型中将苹果与苹果进行比较，然后创建一个类似的模型来比较橙子和橙子，” 班德说。因此，统计数据被分为两个不同的模型，它们的表现要好得多。

另一个关键挑战是尝试生成回归触地得分的概率百分比。在游戏中，平底船和开球无时无刻不在发生，但很少能得分。在2022年常规赛中，只有六次触地得分返回了开球回归，而只有三次平底船回归导致触地得分（每人大约有1,000次回归）。在典型的机器学习建模过程中，包括算法帮助系统自动在数据中寻找模式以自己做出重要决策，这些低数值被视为异常值，通常会被贬值。这给下一代统计团队提出了关键问题：在如此小的数据集中，如何预测足球中的异常事件，比如回归触地得分？我们能否捕捉到平底船回归或与现实相符的回球时的真实触地得分概率？

要找到最佳解决方案，需要大量借用、实验、调整——是的，甚至是训练其他机器学习模型的机器学习模型也是如此。预期回归码数始于现有预期码数统计模型的基础架构。然后，工程师们修改了不同的技术，以正确模拟不寻常的回归触地得分事件。他们最终使用一种最初为时间序列预测而设计的新型机器学习方法找到了突破，该方法名为拼接绑定-帕累托（SBP）分布。简而言之，SBP 对数据进行建模，通过扩展分布的两端来解释罕见事件。同样的方法也可以应用于在洪水预测中考虑极端降雨量，在这种情况下，罕见事件会对模型的整体性能产生巨大影响。

假设一场比赛的预期回归码数分布为 3—15 码。当你移动 15 码并越来越接近终点区域时，由于码数增加的可能性更大，数据中会出现锯齿状的光点。班德说，这与回归者越过每波防守者的关键时刻有关。“从足球的角度来看，这就是我们的想象——触地得分的概率与你是否越过一大群防守者，以及你在场地更远的地方跑过另一名防守者的可能性有关。SBP方法更好地捕捉了这些可能性，从而使触地得分概率估计值高于我们的基线模型。”

一个名为 迁移学习的相对较新的过程也在制定统计数据中发挥了作用。一个小的数据集通常不会产生一个表现良好的模型。训练模型的示例越多，精度往往越高。迁移学习通过使用在任务上训练的模型并重复使用它来训练具有类似任务的另一个模型来提高性能。该团队采用这种方法，使用已经投入生产的其他预期码数模型（冲刺和接球后码数）来教学和调整新的预期回归码数模型。

这个过程的一个有趣进展是，学生将成为老师。在这个新模型中发现的发现将用于完善和增强训练它们的模型。“我们的下一次尝试是将这种较新的架构应用于我们现有的预期冲刺码数模型和现有的预期连续捕获码数模型。我们可以对其进行完善，并研究其中的潜在偏见。在这种情况下，我们最好考虑异常值结果，即出现更符合现实的异常值的可能性。因此，现在，我们还有工作要做，用最新的学习来改进以进攻为中心的模型。我们了解到，我们经历的每一次建模事业，无论成功还是失败，都可以应用于我们现有的工作。这是一个持续的反馈循环，” Band 说。

想更深入地了解预期回报码数背后的数据科学吗？ 查看这篇与亚马逊 ML 解决方案实验室工程师的问答。

“游戏中有很多游戏，有太多见解需要发现，还有很多故事要讲。” — Mike Band，Next Gen Stats

统计数据仅仅是个开始

原来如此 —— 对预期的平底船或开球回归码数以及触地得分概率的可靠预测。虽然令人兴奋，但这只是该统计数据可以开始讲述的特殊队伍故事中的一小部分。哪些回归者在创造码数方面最稳定？平底船回归者在发出公平接球信号时是否过于保守或过于激进？哪些枪手在限制平底船回归空间方面最有效？这些都是新模型中提供的见解，可以揭开这场基本上被忽视的阵地之战的各个层面。

机器学习势头

预期的回归码数是让球迷重新审视球场上以及教练心目中发生的一切的下一步。从2018年开始，美国国家橄榄球联盟和亚马逊云科技现在设计了一套深入研究足球各个方面的高级分析工具。随着每个新模型的出现，人们对与游戏相关的机器学习和神经网络的理解都会提高。随着学习和技术的发展，人们对合作解决前所未有的统计数据的信心也随之增强。班德解释说：“这使我们知道，当我们进入如此大规模的项目时，成功的可能性很高，然后我们很有可能提出一个良好且有用的模型。”

同人圈的未来

那么，接下来我们可以期待什么？班德说，亚马逊云科技和Next Gen Stats的发展轨迹 “实际上是在整个粉丝体验中带来从新技术中获得的新见解”。“这是为了让粉丝们现场观看游戏的心跳，并关注任何给定比赛中发生的事情。”

说到高级体育分析领域，我们才刚刚进入第一季度的前几秒钟。现有的统计模型将不断完善和发展。新模型将在球的每一边揭示新的故事。统计数据的创新应用将进一步改变球迷在场内外的体验。随着技术的发展，我们分析游戏的能力也将——更确切地说，逐秒，或者更确切地说，逐毫秒。

详细了解由亚马逊云科技提供支持的 Ne xt Gen Stats ，并查看更多利用机器学习和云端其他功能的粉丝参与解决方案。

亚马逊云科技精选博客

亚马逊云科技 和 NFL 的新特种队伍 Next Gen Stat 已准备好开球

统计数据仅仅是个开始

机器学习势头

同人圈的未来

终止对 Internet Explorer 的支持

亚马逊云科技和 NFL 的新特种队伍 Next Gen Stat 已准备好开球