科学与世界杯:大数据如何改变足球
The following article is from Nature Portfolio Author Nature Portfolio
点击上方蓝字“返朴”进入主页,可关注查阅往期文章
随着世界杯火热开打,科研人员利用他们的专业技术帮助足球教练训练球员、制定战术
在本届卡塔尔世界杯上,球员会以一种“更讲证据”的方式来向教练展示自己在场上的价值。比赛结束后几分钟之内,赛事主办方就会给每位球员发送一份他们在场上表现的详细分析。前锋可以看到他们的跑动次数和被漏防的次数。后卫则能看到他们在对方持球时进行了多少次干扰。
这是数字在足球赛事中的最新应用。如今,数据分析能为球场内外的所有一切提供指导,从球员转会、训练强度,到制定针对性战术、给出球场上的实时最佳传球线路等等。
2018年世界杯四分之一决赛,比利时(红色球衣)战胜巴西。来源:TF-Images/Getty
与此同时,球员们所面对的基本是宇航员级别的数据检视。如今,可穿戴背心和手环能感知运动,利用GPS追踪位置,还能计算每只脚的射门次数。多角度设置的摄像机组可以捕捉到从争顶成功次数到球员持球时间在内的一切信息。为了理解这些信息,大多数顶级球队都会雇用数据分析师,包括从微软和日内瓦近郊欧洲粒子物理实验室(CERN)等计算应用巨头挖来的数学家、数据科学家和物理学家。相应地,分析专家的见解也在改变足球的踢法。前锋现在更少选择远射,边锋会更倾向于选择传给队友而非传中,而教练则更痴迷于前场高位逼抢——这些战术变化都有坚实的证据,以支持教练自己的直觉。
“大数据开创了足球的新时代,”科隆德国体育学院的体育科学家Daniel Memmert说,“它改变了球队的战术思想、行为、分析对手的方式以及培养人才和发掘球员的方法。”
面面俱到
Beane比搞足球的那些人更有优势。Memmert说:“足球比棒球复杂多了。”棒球本身就是一种回合制比赛,一回合内只有攻方球队可以得分。而且在过去几十年里,棒球数据的采集和大范围研究已成为常态。相反,足球是一种动态的、低比分的“侵略”游戏(即双方领地时刻此消彼长),因此要记录球员的行为以及其如何影响比赛结果就更加困难。数十年来,足球统计师更关注得失分,并尝试建立模型来预测。
如今,人们仍然在用这种方法的变体预测比赛结果。牛津大学的几位流行病学家假定足球得分和失分是在某个平均值上下分布的,并据此建立了一个数学模型。该模型准确地预测出意大利会在2020年欧洲杯中击败英格兰,它还准确预测了进入四分之一决赛的8支队伍中的6支[1]。
这类成功并非偶然。2020年欧洲杯预测模型的开发者、牛津大学的博士生Matthew Penn表示,利用统计手段预测比赛结果的准确性超出了很多人的意料。
“首先根据每支队伍的总进球数和每场比赛对手的相对强弱,来计算各队伍的进攻和防守能力值,”他说,“求解方程组得到上述两种能力值,之后就能轻松预测每场比赛的结果了。”对于本届卡塔尔世界杯,Penn的模型显示比利时(截至本期《自然》交印,比利时夺冠赔率高达14/1)最可能举起大力神杯,其次才是巴西(见下表‘谁将赢得世界杯?’)
完美表现
足球分析师一直在记录这类信息。其中最成功的当数英国皇家空军的前会计Charles Reep。在上世纪50年代,他花了大量时间观看英格兰的球赛,并观察了球员位置和传球顺序等基础要素。Reep甚至用他的数据来分析球队表现,并提出了战略战术方面的建议。他为狼队(Wolverhampton Wanderers Football Club)带来了一种直切要害的比赛风格——即减少横向传递,帮助他们在五年内三夺联赛冠军。
现代技术大大简化了这些数据的采集和分析,因此大多数顶级俱乐部和许多国家队从十多年前就开始聘请数据分析师。数据的使用深入到了英格兰足球联赛系统内部。Penn在攻读博士之余,还担任牛津城足球俱乐部的兼职数据分析师。这是一支半职业俱乐部,隶属英格兰第六级别联赛,全国联赛南区。
许多分析师认为伦敦的布伦特福德足球俱乐部近期的成功一定程度上得益于一套内部算法。这套算法给各个联赛中的球员打分,帮助球队引入转会市场上被低估的球星。利物浦足球俱乐部的数据团队包括曾在CERN和剑桥大学供职的物理学家,他们构建了一套模型,专门评估球员在场上的行动是否更可能导致进球。里斯本大学的体育科学家在和西甲巨头巴塞罗那俱乐部合作期间,于去年发表了一篇分析文章,研究不同类型的传球在场上有多长的机会窗口[2]。
“我们【在牛津城】做的最有用的事是赛前报告,”Penn说,“我们会研究另一支球队中球员的属性,并绘制图表来说明他们的比赛方式,以及他们如何跑位。我会据此给出一些战术建议或变化。”最近一次面对牛津城苦主的比赛前,Penn分析发现对方左后卫的头球数据较差。他说:“于是我建议让高前锋踢右路。”牛津城最后取得了胜利。
这也是老练的球探凭双眼就能看出来的事。但Penn表示,“数据比人更加客观。”
俱乐部并不需要自己生成战术分析的原始数据,他们可以向商业公司购买。后者会将比赛录像转码,并记录下场内近3000种主要事件,包括带球、传球和抢断。一开始,这类数据的记录交由人工完成,但如今已被计算机视觉这种人工智能(AI)技术所取代。通常来说,数据会和汇总统计资料一并生成,如每名球员的传球成功率。
2019年女足世界杯,电视摄像机正在拍摄挪威与英格兰的比赛。来源:Catherine Ivill/FIFA/Getty
今年早些时候,英国华威大学数学系的本科生Joanna Marks与Penn合作为牛津城开发了一个模型。该模型利用原始数据来评估牛津城所在联赛中所有球员的传球能力——这种详细的分析在商业公司提供的原始数据中通常是没有的。“你需要考虑他们的传球方式,而不能只计算传球成功率,因为有些传球难度更高,”Marks说,“这个模型能帮助队伍备战。倘若你知道对手擅长在场上某些区域传球,那么你就能对其进行针对性布防。”
Ravi Ramineni曾经在微软担任数据分析师。2012年,他跳槽到本地一家美职联(MLS)俱乐部——西雅图海湾人(Seattle Sounders),从事与之前类似的工作。他最初的任务之一,是用GPS数据计算球员的跑动距离,从而优化他们的训练和备赛时间。“训练的时候收集这些信息,就可以判断当天的训练量是过了还是少了,这样可以预防伤病。”
这有用吗?“我们使用这些方法的时候,的确取得了几个赛季的好成绩。但我不知道。因为避免多少伤病其实是最难量化的东西。”
不确定性为数据有助于取得体育佳绩的说法蒙上了疑云,因为你无法开展对照实验证实其效果。不过,Ramineni表示西雅图的教练对他的分析持开放态度,包括训练分析和评估球员能力评估。
“我可以和教练沟通,甚至可以直接去跟球员谈,”他说,“在其他俱乐部里情况则不一样。教练有时甚至不和数据分析师交流。”
镜头以外的跑动
Ramineni说:“你在足球分析中经常听到的一句话是,我们需要了解球员在无球状态下的跑动。”
这项任务难度更大,而且更加费钱,因为它需要用到专用摄像机。这种摄像机不仅能追踪主要的动作场景,还能留意那些未直接参与这些场景的球员,并以每秒25次左右的频率记录他们的位置。提供这类数据的公司基本都会和各国联赛签署独家协议,Ramineni说,这就使局外人很难获取。
他说:“如果我想挖一名南美或是欧洲的球员,我将无法获取他们无球状态下的指标数据。”
近年兴起了一项更强大的技术,该技术利用AI预测比赛录像中球员的跑动,甚至是那些在摄像机镜头之外球员的跑动。这意味着数据公司可以使用播出的比赛录像(无版权限制)来对世界各地球员的有球和无球跑动展开全面分析。
谷歌旗下的AI公司DeepMind与利物浦足球俱乐部的数据团队合作开发了一个类似的预测模型[3]。
利物浦足球俱乐部的研究主管Ian Graham说:“有了这种应用,我们就可以探讨战术或是假设场景方面的问题了。”Graham曾是剑桥大学的高分子物理学博士后,后来他辞去了博后并开始从事足球统计方面的工作。
“针对比赛中某个特定事件,模型可以模拟出数千种可能出现的场景。这样,你便能对比赛中某次进攻组织的流畅性进行评估。”
动画展现了一场球赛中球员(深蓝色为进攻方,深红色为防守方)的实际跑动路线与模型预测的镜头之外的球员跑动路线。灰色的阴影部分是电视摄像机镜头覆盖的区域(FOV),它会跟随足球(黑线)移动。模型预测了FOV以外的攻方球员(绿色)和防守球员(橙色)的位置(双方实际的位置分别由淡蓝和粉色标示)。来源:DeepMind
俱乐部的数据团队其实不希望分享其具体的工作细节或是成效,因此发表这篇论文对利物浦来说有点勉强。但这是他们和DeepMind合作的条件之一。Graham说:“利物浦的分析部门属于世界足坛中规模最大、技术最先进的那一批,但我们仍然缺少资源来独立构建这些模型。”这使他确信其他俱乐部也不行。
同其他数据分析师一样,Graham不太愿意承认球场上的获胜有自己的直接功劳。“足球是一项充满变数的运动,因此球队经常会输掉本不该输的比赛,也会赢下那些很难赢的比赛,”他说,“从许多方面讲,球队成绩不佳的时候我们的工作会更轻松,因为我们的分析常常会证明我们踢得没问题。只要保持这种战术风格,球队在这个赛季的胜场数将会达到我们的期望。”
DeepMind的计算机科学家Karl Tuyls表示,镜头之外的建模是创造AI虚拟助理教练的第一步。这套系统会使用实时数据指导足球等运动中的决策。他说:“想象一下,AI看完了上半场比赛,然后建议球队在下半场变阵。”
Tuyls还表示,这种方法在体育之外的领域也很有用,例如为繁忙的城市街道上的自动驾驶汽车和行人的轨迹建模。
接下来呢?和所有的优秀科学家一样,足球数据领域的专家强调今后仍需开展更多研究。前微软数据科学家、曾在阿森纳从事了近十年分析工作的Sarah Rudd于去年离职。她十分羡慕赛车所能产生的大量遥测数据,这些数据能够帮助团队做出改进并提升表现。
“我们经常看F1的比赛,要是球队能有那样的数据就太棒了,”她说,“足球里还有很多东西有待测量,或是正在测量但我们还不清楚要如何分析。”
那些反映球员朝向或是重心改变的数据可能是足球数据分析接下来的发展方向。“轨迹数据的精细度可能仍不理想,”Rudd说,“现在还没办法收集到那些能让防守球员失去平衡,或是能让守门员迟疑一下的那种急停变向或是重心变换动作的数据。”
即便是利物浦的AI驱动分析模型,也会被不完备的球员位置认知所迷惑。“如果模型看到一位球员本该在这个位置启动却没有,可能就会认为他出现了重大失误,”Graham说,“但那或许只是因为他刚绊倒了,正躺在草皮上呢。”
随着海量数据涌入现代球场,数据如何改变了比赛?
Ramineni说:“我认为球员转会可能是获益最大的领域。”此外还有定位球战术,即球队获得任意球时的战术。
数据分析所给出的一条明确经验是,球员不该在离球门很远的位置射门。“如今在全球各地的联赛中,球员的射门距离比十年前近得多,”Ramineni说,“这是因为数据分析师开始对球员说,‘你为什么从那个地方射门?命中率只有2%!’”
很多球队现在也不鼓励球员尝试朝对方禁区长传,他补充道,因为统计表明这种传球大多是无意义的。
随着生成的数据量越来越大,就业机会也将越来越多,Ramineni说,“我感觉如今体育赛事中数据无处不在,而且只会有增无减。”
参考文献
[1] Penn, M. J. & Donnelly, C. A. PLoS ONE17, e0268511 (2022).
[2] Gómez-Jordana, L. I., Amaro e Silva, R., Milho, J., Ric, A. & Passos, P. Sci. Rep. 11, 9792 (2021).
[3] Omidshafiei, S. et al. Sci. Rep. 12, 8638 (2022).相关阅读
近期推荐
3 生物正交化学和点击化学摘得2022化学诺奖,Sharpless二度获奖!Bertozzi如何创立生物正交化学?
4 对话理论物理学家David Tong:量子场论为什么不完整?
5 2022年诺贝尔生理学或医学奖是否有“假公济私”之嫌?丨观点
特 别 提 示
1. 进入『返朴』微信公众号底部菜单“精品专栏“,可查阅不同主题系列科普文章。
2. 『返朴』提供按月检索文章功能。关注公众号,回复四位数组成的年份+月份,如“1903”,可获取2019年3月的文章索引,以此类推。
长按下方图片关注「返朴」,查看更多历史文章