10万次比赛模拟,机器学习预测2018世界杯冠军既不是德国,也不是巴西,而是……
2018世界杯足球赛于6月14日在俄罗斯拉开帷幕,这很可能是有史以来观看人数最多的体育赛事之一,甚至比奥运会更受欢迎。因此,人们对预测比赛的获胜球队有着浓厚的兴趣。
看博彩公司的赔率,是预测比赛结果的一种方法。这些公司使用专业的统计人员对比赛结果数据库进行分析,从而量化任何参赛双方可能出现不同结果的概率。通过这种方式,博彩公司可以为未来几周内举行的所有比赛和可能获胜的球队开出赔率。
通过梳理不同博彩公司的赔率,我们就可以做出更精准的预测——巴西队是2018年世界杯夺冠的热门球队,概率为16.6%,紧随其后的是德国(12.8%)和西班牙(12.5%)。但近年来,研究人员开发出了机器学习技术,有望超越传统的统计方法。如果利用这些新技术预测2018世界杯,那么可能的结果是什么样的呢?
德国多特蒙德工业大学的安德烈亚斯·格罗尔(Andreas Groll)和一些同事的研究给出了一个答案。他们利用机器学习和传统统计学的结合方法——随机森林技术,进而预测最有可能取胜的冠军。
首先来看一下它的发展背景。近年来,随机森林技术成为分析大型数据集的一种强大方式,避免了其他数据挖掘技术的一些缺陷。它基于这样一种观点,即某个未来事件可以由决策树来决定,通过参照一组训练数据集来计算决策树每个分支的结果。
然而,决策树存在一个众所周知的问题。在分支过程的后期阶段,决策可能会被严重扭曲,因为训练数据太少,导致某一类数据无法很好的匹配,这就是所谓的过拟合。
随机森林算法则不同。这个过程不是计算每个分支的结果,而是计算随机分支的结果。而且它多次计算,每次都有一组不同的随机选择的分支集合。最终结果是所有这些随机构建的决策树的平均值。
随机森林算法有显著优势。它不易遇到困扰普通决策树的过拟合问题,而且它还揭示了哪些因素在决定结果时比较重要。
因此,如果一个特定的决策树包含大量参数,那么就很容易看出哪些参数对结果的影响最大,而那些不太重要的因素在未来就可以忽略。
格罗尔和同事们正是使用这种方法模拟了2018年世界杯。他们对球队可能参加的每一场比赛结果进行建模,并利用结果来构建最可能的比赛进程。
格罗尔和同事从一系列可能决定结果的潜在因素入手,如国内生产总值和总人口等经济因素、国际足联的国家队排名以及队员的平均年龄、拥有的欧冠联赛球员的数量、是否有主场优势等球队本身的属性。
有趣的是,随机森林算法使格罗尔和同事们可以尝试加入其他排名信息,比如博彩公司使用的排名。
把所有这些信息嵌入到模型后,研究人员得到了一些有趣的结果。例如,最具影响力的因素是其他方法确定的球队排名,包括来自博彩公司、国际足联和其他机构的排名。还有一些重要的因素包括GDP和球队拥有的欧冠联赛球员数量。而不重要的因素则包括国家人口和教练国籍等。
在某些重要方面,通过这一过程得出的预测结果与其他预测有所不同。首先,随机森林法将西班牙列为最有可能获胜的冠军球队,概率为17.8%。
但这种预测的一个重要因素是赛事本身的结构。如果德国队在小组赛阶段胜出,那么它更有可能在16强淘汰赛阶段遇到强劲对手。正因为如此,随机森林法计算出德国进入四分之一决赛的几率为58%。相比之下,西班牙在16强淘汰赛中不太可能遭遇强劲对手,因此有73%的概率进入四分之一决赛。
如果两个球队都能进入四分之一决赛,那么他们获胜的几率就会不相上下。格罗尔和同事们说:“西班牙队的取胜几率略高于德国队,主要是因为德国队在16强淘汰赛中出局的概率相对较高。”
但还有另外一个变数。随机树的建立使得模拟整个比赛成为可能,这就产生了不同的结果。
按这个模型来的话,德国才可能获胜,但这个模型发生的可能性只有10万分之一(事实是,这个模型里面的部分赛队组合确实没有发生)
格罗尔和同事们对整个比赛模拟了10万次。他们说:“按照最有可能发生的比赛进程,德国队将赢得世界杯冠军,而不是西班牙队。”当然,由于比赛编组的排列组合存在很多种可能性,这种理想比赛进程出现的几率也并不高——格罗尔和同事们认为大约是10万分之一。
所以,根据格罗尔和同事们的说法,在比赛开始的时候,西班牙队的获胜几率最大。但是如果德国队进入四分之一决赛,那么就更有可能夺冠。我们拭目以待吧!
资料来源:
Machine learning predicts World Cup winner
扩展阅读