人工智能成为德州游骑兵棒球队获胜的关键一击
很少有运动项目像棒球一样与数据分析如此紧密相关。160多年来,统计学家一直试图用数据来分析比赛。2015年,美国职业棒球大联盟(Major League Baseball)利用MLB Statcast(一种收集大量比赛数据的跟踪技术)彻底改变了这项以使用复杂数据而著称的运动。
德州游骑兵棒球队研发助理总监Alexander Booth表示,Statcast的数据、球队自己的数据源、该团队对分析、机器学习和人工智能的使用,都是球队在2023年夺得世界大赛冠军的关键因素。
从2015年到2019年,Statcast主要是由摄像头和雷达系统组成的,到了2020年,MLB与Hawk-Eye Innovations合作提供了光学跟踪系统。现在,每个MLB俱乐部都有12个Hawk-Eye摄像头部署在球场周围,其中5个用于投球跟踪,其他7个用于跟踪球员和击球。在Hawk-Eye的帮助下,Statcast跟踪和量化各种数据,包括投球(速度、旋转速度、旋转方向以及动线)、击球(出口速度、发射角度、击球距离)、跑动(冲刺速度、上垒时间)和守备(手臂力量、接球概率、捕手出垒时间)。
Booth说:“我们不仅拥有传统的球跟踪指标,如速度和旋转率,我们还有球员位置数据,我们以每秒30帧的速度跟踪场上每个人的位置,这需要处理和解析大量信息。”
他指出,新的数据宝库让球队可以开始分析生物力学:身体在进行运动的过程中是如何移动的。
“我们正在观察投球动作,观察击球动作,现在我们能够以每秒高达300帧的速度跟踪这些关节中心——你的头部、肩膀、膝盖和脚趾。”
这些数据为AI提供了各种预测,从对抗先发投手的最佳击球阵容,到面对特定投手部署特定击球手的最佳防守位置,再到伤病预测。
简化团队合作
Statcast推动了德州游骑兵队的分析团队开始转型,Booth在2018年加入球队,是球队的第五名成员。他记得当时他们使用了很多电子表格,团队的很多工作都是由总经理阅读或听到某些内容,然后再要求分析团队进行调查,这通常涉及大量的SQL查询、将数据输入电子表格以及查看本地实例。
他说:“如果有多个人在处理同一份电子表格,如何有效地维护单一事实来源?你怎么知道哪个版本是真实的?当时任何有关机器学习或者预测建模的需求都会来找我们,但回想起来,当时还是很原始的状态。”
分析团队开始将运营从本地系统转移到云端,利用Databricks作为数据湖库,利用Prophecy的低代码数据转换平台来创建数据管道,让团队能够处理一些数据集,其中包括了整个组织中的经典数据以及新文本、视频、生物识别、传感器/物联网和实时流数据。使用Prophecy作为Databricks Data Lakehouse的接口,团队就能够创建数据转换,而无需提升成员的Spark技能,建立和管理每个数据域特定的可重用组件,让数据分析师尽早参与到创建生产管道的过程中,提供可用于分析的数据以支持新的AI和分析。
现在这个团队已经扩大到约25人,但Booth表示,目前团队仍然是很精简的,保持着类似初创公司的思维方式。
他说:“我们像一家科技初创公司一样迅速行动并迅速失败,但这次迁移已经取得了一些成果,这些成果造就了我们今天取得的成就,尤其是赢得世界大赛。这一定为也改变了我们很多的防守模式。”
规则和策略的转变
在过去的100年左右,一种称为防守转移(或内场转移)的策略在棒球比赛中很流行。这种转移主要用于对付左撇子击球手,涉及三垒手移动到通常由游击手占据的位置,游击手移动到二垒的右侧,二垒手移动到右外野浅草地,成为事实上的第四外野手。这种转移并非没有防守漏洞:它使三垒和左外野周围的区域防守更加稀疏,为左撇子击球手创造了利用机会的机会。
Booth和他的团队建立了模型,不仅可以预测部署转移的最佳时间,还可以预测球员在场上的位置。2023年,美国职业棒球大联盟实施了几项新的规则,对防守转移施加了限制,要求球队在投球前至少有四名内野手在内场泥土上开始比赛,规则还要求球队在投球前在二垒每一侧需要各有两名内野手。
“即使最近禁止了换位,我们仍然可以建立模型,告诉游击手Corey Seager应该站在离二垒这么近的地方,以及在外野,中外野手Evan Carter应该在多远的地方对特定球员打飞球,这特别有助于我们进入季后赛。”
去年美国职业棒球大联盟的另一个大新闻就是游骑兵队的防守实力,特别是在完成双杀方面。
“游击手Marcus Semien和Seagar是两位非常有天赋的球员,他们可以完成很多非常困难的双杀,但我认为,我们建议他们站在最有可能完成双杀的位置,从而为他们取得成功奠定了基础。”
AI和耐力
在生物力学方面,分析团队的很多工作都集中在预测和了解伤病及疲劳上。Booth指出,近年来,德州游骑兵队引进了投手Jacob deGrom和Max Scherzer,两人现在都快30岁了。
“这两个人都非常优秀,但他们年纪大了一点,更容易受伤,我们想确切了解如何管理他们的运动量。”
通过利用比赛和训练中生成的生物力学数据,以及球员锻炼和营养师的数据,甚至睡眠方面的研究,德州游骑兵队能够更好地了解球员的健康和表现。他指出,对伤病和球员管理的新认知,对于德州游骑兵的小联盟附属团队产生了更大的影响。
“我们利用数据来了解这些球员的整个旅程,例如,当他们第一次在多米尼加共和国打新秀球赛的时候,我们如何让他们在三、四或五年内成为最好的球员,这也与我们的业余球探部门密切相关。”
Booth表示,早期,他的团队分析数据的主要消费者是前台,他们使用这些数据和报告进行球员评估、进行交易等。但随着数据变得越来越容易获取,团队中越来越多的人开始使用数据。
“我们的教练要求提供更多数据,试图用原始数据证明他们专业领域知识的直觉,我们现在有分析师随队出行,他们是我们的沟通渠道。”
数据普及化发挥了重要作用,帮助团队在各个层面更加以数据为导向。
“我们的原则之一,就是使用数据可以带来颠覆性的影响,虽然任何人都可以使用低代码和BI工具,创建出色的报告,但他们必须首先确保数据是干净且可用的。”
这一原则让Booth对生成式AI的潜力感到兴奋,因为德州游骑兵队大多数潜在数据消费者都不是技术用户,生成式AI将使那些非技术用户能够与团队数据库进行交互并获得最大限度提高绩效所需的洞察力。
fu.lin@zhiding.cn
基本就是AGI?GPT-4o“它”来了
OpenAI和Google接连两天的大动作,都想让AI助手成“精”