足球比赛中的实时数据是如何统计出来的?人工 or 人工智能?
本推文的部分内容来自狗熊会2018年推文《足球比赛中的实时数据是如何统计出来的?人工 or 人工智能?》,感谢推文原作者婷婷和曦郴提供的帮助。本文作者邓天昂,来自中央财经大学统计与数学学院。
2022卡塔尔足球世界杯正在如火如荼的进行,相信无论您是否是球迷,都一定在过去的几周里或多或少地了解到了世界杯的相关新闻,也能说出一两个球星的名字,比如屡屡刷新纪录的足坛“绝代双骄”梅西和C罗。
图:世界杯总进球数超越马拉多纳的梅西(左)和首位连续5届世界杯取得进球的男球员C罗(右)
(图片来源:B/R足球、C罗本人社交媒体)
言归正传,对足球有稍微有一点了解的人,应该对赛事转播过程中出现的统计数据并不陌生。那么,你有没有想过,足球比赛中的实时数据是怎么统计出来的?
11月28日,世界杯小组赛E组焦点战“西德大战“的转播过程中出现了诸如比分、控球率等实时数据,图中左下角弹出的就是实时控球率数据(图片来源:央视直播回放截图)
老实人甲一定是有人拿着小本本在场边画“正”字统计!德国射门+1+1+1,西班牙进球+1+1+1!
肯定是用热成像摄像头捕捉球员运动轨迹,用人工智能分析球员动作自动生成实时数据。
以上的两种回答代表了绝大多数人内心的想法,但这两种说法都不全面。首先来看看现在的赛事转播过程中常出现哪些统计数据。
图:咪咕视频在直播世界杯”西德大战”时给出的半场数据统计
(图片来源:咪咕视频直播回放截图)
这些数据到底是如何统计出来的,人工 or 人工智能?在回答这个问题之前,我们先来看看早期的足球比赛的数据统计。
足球数据统计历史
现代足球起源于19世纪末的英国,紧接着便疯狂发展并席卷全球,当时主要的传播媒介是报纸。足球比赛结束后,报社将比分、照片以及比赛中的各项数据,配以简单的评述传播至世界各地。可以想象当时的足球数据仅限于“场面数据”的统计,简单的比分、扑救、定位球个数、红黄牌数等由各大报社工作人员拿小本本记录下来,赛后大家一比对,记的都差不多,那就给写稿子的人发稿吧,如此就是最初的数据统计。这种在现在看来缺乏时效性与参与度的方法,在当时却在世界各地播种下了足球文明的种子。
图:早期的英国体育报纸的足球报道
球迷们显然对于纸媒的时效性非常不满,于是1927年1月27日,英国BBC电台首次通过电台广播对阿森纳VS谢菲尔德的比赛进行了转播。这场比赛BBC安排了两名评论员,一位负责对场上状况进行评述,一位指出足球在下图所示的网格中的位置,两人配合,给听众传播最正确的比赛信息。这种转播方式在现在看来是一种非常考验想象力以及反应力的转播方式,由此可以想到早期的球迷足球素养非常高。
图:英国电台解说分区图,球场被分为8个区
同样是在英国,同样是阿森纳,同样是BBC,1939年,一场阿森纳一线队与预备队的比赛录像被呈现在电视屏幕上。录播虽然是令人遗憾的,但这却开了球迷们在电视机前观看比赛的先河。观众可以独立进行数据统计及核对,这就对转播公司的实时数据统计提出了更高的要求,要更准确、更及时。这个时期的足球数据统计依然是依靠人工。
就在此时,计算机技术逐渐发展起来,计算机成了专业的统计辅助工具。专业的统计人员将球场上的每一个动作变成一个一个事件,将每一分钟30次以上的各种高密度动作转化为事件存储下来,再由人工进行验证,并通过程序进行实时发布。这种方法对人工要求极高,因而准确度也高,多常见于第三方数据服务商,为转播方、解说员、博彩公司等提供服务。
然而,那些如雨后春笋般涌起的黑科技,究竟有没有改变这个行业呢?
谁在负责统计数据
要回答这个问题,首先要清楚足球比赛中的实时数据是谁来统计的。作为一名电视机前的观众,比赛过程中得到信息的渠道有两个,一是眼睛获取的画面,二是耳朵听到的解说。转播画面带给球迷的是最原始的视觉冲击,而解说则是帮助球迷更加深入的理解比赛。球迷们经常能听到“***队本场的射门次数已经达到15次之多,其中射正的仅仅3次”诸如此类的话,难道解说员在比赛过程中还要一边拿小本本记数据,一边解说,再把数据加加减减,算出控球率?
如果真是这样的话,德艺双馨的老解说员们早就累死了。
一般来说,一些大型的足球联赛,比如欧洲五大联赛,转播是由专业的信号制作公司提供。通常他们在比赛场馆架设十几台甚至几十台摄像机,尽力追捕球员从赛前采访到进球后的每一个眼神,然后在一个布满电线的大型制作场所内,将比赛信号通过卫星传输到世界各地。而赛中的实时数据则大多是由专门的数据公司提供的,转播公司向数据公司购买服务,数据公司使用专业的数据采集方法对实时数据进行采集。一部分数据在直播中展示,一部分更深入详细的数据在赛后进行整理分析和展示。举个例子,今年我们在CCTV5台看到的中超转播信号是由北京广播电视台等多家“中超联赛公用信号制作服务商库”的入库企业分别制作的,而看到的实时数据,则是由知名体育数据公司Stats Perform提供的。
除了通过数据公司来获得数据外,现在也有少数高水平联赛选择自己开发数据平台。比如西班牙足球甲级联赛的转播信号是由一家名为Mediapro的公司制作的,西甲联盟和Mediapro共同开发的可视化数据系统Mediacoach则负责提供数据。
国外从事数据服务的公司非常多,而且很多公司的技术已经非常成熟,竞争相当激烈。这些公司中不乏一些巨头,比如中超联赛目前的官方数据服务商——美国的Stats Perform公司,英国的Genius Sports公司,法国的Sport Universal Process公司等等。不同的公司有着不同的数据采集系统,下面以Stats Perform旗下的OPTA为例展开分析。
OPTA数据原为英国的一家体育分析公司,经多次收购后,成为了美国Stats Perform公司旗下的数据品牌。OPTA数据目前是英超、西甲、中超等多个大型比赛的官方数据合作伙伴,其数据收集范围覆盖了全球超过1000个联赛和比赛。除了为俱乐部提供服务以外,OPTA同时也与Canal+,天空体育,ESPN等电视台合作,在赛前、赛中以及赛后提供数据分析服务。
图:OPTA的部分业务覆盖范围(图片来源:Stats Perform官网OPTA板块)
比赛过程中,OPTA会对场上超过200项的技术统计进行统计分析,实时更新,并为客户提供XML数据接口,方便来自全世界的客户调取。OPTA兼有世界上最完备的体育历史数据库,从1996年起搜集各种比赛数据,渐渐形成了世界上数量最大、权威性最高的比赛数据库。另外,OPTA会按照不同需求提供不同的数据服务,其中就包括解说支持。球迷对比赛过程中的历史数据一定不陌生,解说员总是清楚的知道下一个进球是球员职业生涯的第几个进球,甚至是欧冠历史上第几个进球等等,其实这很大程度上要依靠OPTA这样的数据服务商。总而言之,这个公司真的是在做与足球数据相关的几乎所有生意。
图:OPTA提供的部分服务种类(图片来源:Stats Perform官网OPTA板块)
数据是如何统计出来的?
而赛中的数据又是如何去统计呢?大家普遍认为顶级职业联赛都用了很多了不起的高科技,只需要把机器一架,数据就像水一样哗啦啦自己流出来了,这种想法显然是不现实的。其实无论是哪家公司,采用什么样的高科技,其实核心还是解决两个问题,一是球在哪儿,人在哪儿;二是人对球做了什么,人对人做了什么。
对于人和球在哪儿,解决方案有很多,其中一种就是安装多台高速摄像机,保证每个区域都有两个以上的摄像头能覆盖。图像识别能做到判断出是谁拿了球,球速是多少,但是具体这个人想做什么,这个动作是射门还是传球,就需要经验丰富的记录员来进行判断。优秀的记录员能够在极短的时间内判断出球员的意图,再通过辅助记录的软件,选择球员,并选择此刻与该球员对应的事件,这些事件包括传球、传中、拦截、射门、扑救、犯规等等,如此便将比赛中共计3000次以上的各种事件记录了下来。
图:OPTA的数据专家在进行实时数据采集(图片来源:Stats Perform官网OPTA板块)
OPTA的实时统计系统就是这种人工+智能的方式,每个记录小组有三个人,其中两个人进行实时数据采集,每个人分别负责场上的一支球队,而第三个人则对收集到的信息进行查验。最终结合人工记录、计算机视觉和人工智能建模的技术,实时生成深入而详细的数据。可能有人会质疑这种掺杂人工的方式的准确度。实际上,不同公司给出的比赛数据的确是存在差异的,每一家公司数据收集的背后都有一套独特的哲学。
比如在12月2日世界杯小组赛最后一轮H组加纳队对阵乌拉圭队的比赛结束后,数据网站WhoScored的统计数据显示,两队的控球率分别为50.5%和49.5%,而另一家数据网站SOCCERWAY给出的控球率则为53% VS 47%。甚至连射门数这样看似简单的统计指标,两个网站都分别给出了10 VS 12和7 VS 9这样相去甚远的结果。说明两个公司的统计人员对于射门这个事件的判断有差异,尤其是足球场上常出现的”似传似射“的情况更容易被不同的人进行不同的解读,而这便是足球比赛数据统计中的“人为误差”。
图:WhoScored对加纳VS乌拉圭的数据统计(图片来源:WhoScored)
图:SOCCERWAY对加纳VS乌拉圭的数据统计(图片来源:SOCCERWAY)
人工+智能的数据采集方式可以说是八仙过海各显神通,而统计指标的计算方法也会影响最终的统计结果。结合上面对采集方法的介绍,大致可以知道对于射门、角球、任意球、点球、犯规的统计方法,就是一个字:数。这一类事件,记录员有很长的时间去反应球场上究竟发生了什么,出错的可能性也比较小。控球率也是一个很容易记录的指标,控球率=控球时间/两队总控球时间,而控球时间则是指传出的球未被对方接触之前的时间。机器能够记录此时是哪一队拿球,拿球时间是多久,只需要人工进行一些简单的修正,例如剔除死球时间(庆祝时间、角球、任意球时间),即可得出控球率。同理,传球成功率=传球成功次数/本队传球总次数,其实就是没有被抢断的次数,同样是机器和人工共同采集,人工校验的方式进行统计。
实际上,每个公司对指标的统计方法都是不一样的,这也就是为什么我们看到的结果不一样的原因。同时也说明,足球统计学,是一个值得统计学家们深入研究的领域,而懂足球的人,也是这个行业目前最核心的生产力。
人工+智能的方式当然不等同与人工智能,但这一定只是足球统计史上的一个时期。实际上,现在有很多可穿戴设备可以用于球员数据采集,能够对球员各项身体数据,甚至脑电波进行监测。但是由于竞技体育对于球员的衣着和穿戴有着严格的要求,所以可穿戴设备在赛场上并没有得到很广泛的应用,反而一些俱乐部在训练的时候用的较多。希望在不久的将来,我们能够看到梅西踢球时的脑电波,而解说员在他拿球突破的时候便吼道“梅西拿球了,他准备传给前叉的内马尔,不,这一刻他改变主意了,他准备在前场打一脚远射,应该是在球门的左下角,此刻门将的脑电波显示他准备扑球门的右边,梅西这一脚打门的成功率在80%左右,果然,球进了!!!”
2022卡塔尔世界杯上的最新数据科技
相信每一位收看了今年世界杯的朋友都会有这样一个体会,那就是卡塔尔世界杯真的是充满了“科技与狠活”。无论是安装了传感器的官方用球“旅程“,还是频频抢戏的半自动越位识别系统(SAOT),又或者是偶尔出现在转播屏幕上的最新统计数据,都能让我们充分的体会到科技在足球场上的重要作用。
图:正在充电的世界杯官方用球”旅程“(图片来源:太阳报)
本届世界杯的官方用球”旅程“中安装了一个重量仅为14克的传感器,这一传感器会以每秒500帧的频率向系统实时传递信息。通过这些实时信息,场外的视频助理裁判(VAR)可以非常准确地判断球员接触到球并将球传出的时间。同时,球场上方有着多达12个专用的追踪摄像头用于追踪足球以及每名球员身上的29个数据点,这些数据点包含了所有同越位判罚相关的身体部位。这些数据会以每秒50帧的频率上传到系统当中,系统通过人工智能分析这些数据,并会在疑似越位时及时发出警报提醒场外的视频助理裁判。视频助理裁判会手动核查系统识别的传球点和越位线是否准确,并将人工核查好的结果及时反馈给场内的主裁判,以上全过程耗时仅为几秒。因此我们常在比赛中看到这样的画面:在有争议的越位出现时,主裁判会立即示意球员安静并通过耳机收听场外视频助理裁判给出的建议,甚至会亲自跑去场边观看视频回放,并根据回放做出判罚。
在主裁判做出判罚后,系统会生成3D动画来清晰地反映越位情况,这一动画将通过场内的大屏幕和转播信号及时地呈现给每一位观众。正是这一技术的应用使得阿根廷队在小组赛第一轮对阵沙特的比赛中,多粒进球因越位在先被判无效。这间接改变了比赛走势,造就了本届世界杯第一大冷门。
图:阿根廷队劳塔罗-马丁内斯的进球因毫厘间的越位被判无效(图片来源:央视直播回放截图)
本届世界杯在技术上的革新绝不仅限于半自动越位识别系统。在世界杯开赛前几天,国际足联宣布将在本届世界杯中引入11项全新的足球统计指标。这些数据将帮助专业的足球从业者更好地对比赛形势进行分析,从而推动运动发展。同时在比赛转播过程中的实时展示,也将让我们获取到更丰富的数据信息。比如本次比赛中对控球率的计算方式进行了改革,在原来只统计两支球队各自的控球时间,并除以总控球时间计算出各自的控球率的基础上,引入了”对抗时间“(In Contest)的概念,球权不归属于任何场上一方时的比赛时间就会被计入对抗时间。对抗时间可以在一定程度上反映出两支球队拼抢的激烈程度。
图中左下角为阿根廷对阵澳大利亚的1/8决赛实时控球率,中间的8%即为对抗时间占比
(图片来源:央视直播回放截图)
除了对控球率计算方式进行改革外,包括防线破坏次数等在内的其余10项全新统计指标,也会通过实时转播以数据表或虚拟动画的形式展示给广大观众。值得一提的是,上述全部11项新统计指标,都从足球行为和统计方式两个角度给出了严谨的定义,并辅以视频解释说明,很好地解决了我们前文提到的,不同的数据收集者对同一项数据的理解可能不同的问题。除了对这些新增设的统计指标给出严谨的定义外,国际足联还推出了一套十分详细的足球语言体系(Football Language),通过详细的文字介绍和视频介绍,对足球场上每一个可能发生的事件进行了严格的定义和清晰的划分,方便全球各地的足球从业者、爱好者掌握最专业、最权威的足球术语,也为未来足球数据统计的规范化提供了可能性。或许在不久的将来,不同数据供应商因对术语理解不同而造成的统计误差将越来越小。
图中左下角给出的数据为球员在对手中场和后卫两条防线间接球的次数,这也是11项新统计指标中较常出现在转播信号中的一个(图片来源:央视直播回放截图)
在规范定义了足球术语并推出了新的统计指标后,国际足联立即对他们进行了充分的利用。在世界杯期间,国际足联推出了一款球员专用的APP(FIFA Player APP),供全部世界杯参赛球员及球队使用。每场比赛结束的几分钟后,球员们就可通过APP查看到自己本场比赛的详细数据。根据FIFA官网给出的信息,这些数据也是经人工+智能共同收集,其中足球分析师主要负责根据足球语言体系收集球员在场上种种行为的信息,而球场内大量的追踪摄像机则负责记录球员跑动范围、跑动速度等数据。这些数据将帮助球员更加了解自己在场上的表现,并帮助球队更好地分析和准备比赛。此外,国际足联还推出了足球数据生态系统(Football Data Ecosystem)。基于足球语言体系,足球数据生态系统将融合多个数据源、多个数据处理器以及多层次的数据,为参赛球队、教练员、球员以及媒体等提供大量的高质量数据。
图:FIFA Player App宣传图(图片来源:国际足联官网)
如果说前文提到的球员APP和数据生态系统都太过专业,也无法直接为我们广大观众提供数据,那么世界杯每场比赛的赛后总结报告一定能为我们提供相当专业且丰富的数据。本届世界杯的每一场比赛结束后,国际足联都将给出一份约50页的赛后总结报告。从球队阵容名单到控球率、射门次数等常见统计数据,再到防线高度等新增统计指标,从球队整体数据,到球员间传球网络、每一次射门的落点,再到传中方向,接球位置等细致入微的数据,这份公开的总结报告将为每一位观众全方位地展示比赛数据,帮助我们更好地理解足球这项运动。
图:世界杯揭幕战卡塔尔对阵厄瓜多尔的赛后总结报告(图片来源:国际足联官网)
数据分析之于足球产业
大数据悄然改变着每一个行业,足球也不例外。对于足球数据的应用,大家首先想到的,一定是博彩。对于博彩公司而言,一份真实完整的历史数据报告,能为精算师们计算初始赔率提供数据支持。而源源不断及时输入比赛实时数据,则会帮助博彩公司及时调整实时赔率,以获取更大的收益。值得注意的是,博彩公司初始赔率虽然是基于球队数据,但起着决定性因素的,其实是市场期望,这也是足球数据行业值得关注的一个领域。
在2017世俱杯半决赛中,皇家马德里客场迎战阿布扎比半岛,这场比赛最引人注目的并非两队之间的对决,而是阿里云团队用人工智能技术对比赛进行了解说。AI不仅正确识别了球队、球员,还识别出了球员的传球、射门等动作。
解说员在紧张的比赛之中难免会出现差错,但人工智能背后强大的数据则有效地避免了这个问题。一场看似简单的解说,实际运用了多路神经网络卷积模型对球及球员定位,加上高效的跟踪算法,就实现了对球员和球的实时跟踪。同时,人工智能提前学习球衣号码,提取球员人脸特征,再对比录入的球员信息,即可完成球员的身份识别。此外,对球门、边界线等球场基础信息的识别,也可以让该机器对球场形成更加全面的感知。
当然,人工智能技术在现阶段还不足以取代解说员的工作,但合理地运用人工智能,可以帮助解说员更专业地为观众们带来实时点评。2021年10月,德国足球甲级联赛评论直播系统(CLS)中新增了一项功能——数据故事查找器(Data Story Finder)。数据故事查找器通过智能算法,将赛场上实时收取的数据同其他比赛数据、历史数据相关联,并将这些数据实时反馈给解说员,帮助解说员评述比赛。
由此可见,未来人工智能在足球领域的一大应用可能是呈现更多形式、更精准的赛事转播。
回归到足球本身,如何帮助球队取得胜利,如何用最低的溢价签到最合适的球员,或许是足球数据最具意义的应用。众所周知,每支球队都有各自赖以成名的球队风格,比如巴萨的Tiki-Taka战术以传控为主,而死敌皇马善用防守反击。每种球风各有特色,相生相克。又比如西甲中下游球队加的斯和英超中游球队西汉姆联,虽然在联赛中战绩不佳,但却是名副其实的强队收割机,这些隐藏在表面数据之下的特殊规律则可以交由足球大数据去探索。
可能有人会说强大的数据让足球失去了原有的魅力,甚至担心有一天人工智能机器人会打败人类足球,但其实数据只是让大家更理性的参与足球活动,甚至从中受益。足球永远是那个充满不确定性的运动,因为,足球是圆的。
在你心目中,哪支球队将在卡塔尔捧起大力神杯?欢迎评论区留言!