通过SAP分析云,发掘147年棒球数据中的奥秘
小编说
最近SAC(SAP Analytics Cloud)是个很热门的话题。本文并不着眼于具体的技术方案,而是通过对以往147年的棒球数据(美国职棒联盟)的分析,将大量数据抽象为关键性的技术指标,揭示了棒球的奥秘。
祝阅读愉快。
作者:Jason Yeung
翻译:大话SAP
棒球是一项会产生丰富的数据和统计值的运动,但是数据虽然丰富,其实想弄清楚数据背后的含义,以及到底是什么驱动着棒球的成功,却是很难的一件事。
随着2018棒球赛季的启动,我希望能用SAP Analytics Cloud来搞清楚这些棒球数据背后的意义。
▎为什么普通Fans很难理解棒球的统计值?
全面理解棒球数据通常是“专家”们的活,这是因为:
数据通常是预先汇总好的。这让它很容易回答一些同样是预定义的问题,例如“谁的击球率最高”。但是回答新问题或者一系列的关联问题就变得很难。
数据分散且彼此缺少联系。想查看一组特定的统计值很容易(例如:一个运动员的数据,一年的数据,或者一个球队的数据),但是想比较跨球队的多个球员在不同时期的数据,就变得不那么容易。
数据多数是表格式的,不够形象。很多网站支持排序和统计,但是只有少部分提供了视觉化,趋势分析和异常值分析的能力。
▎使用Sean Lahman的棒球数据集
去年,我无意中发现了“Sean Lahman的棒球档案 http://www.seanlahman.com”这个网站。 Sean对于各种棒球统计数据都提供了非常强大的数据集。他提供了多种数据集,包括球队,球员,击球,投球,防守,薪水,奖励,球场,季后赛,全明星赛等等。
▎棒球的数据模型问题
多数人并不认为棒球有一个复杂的数据模型,可事实上棒球反映了当下许多组织所面临的在数据上的挑战。Sean的数据集提供了28种不同的表格,但是它们彼此没有连接在一起。有一张表是球队信息,其中包括了球队,年份和球员。还有一张表是击球手信息,也包括了球队,年份和球员。同样的模式还体现在投球和防守信息,也包括季后赛,全明星赛,名人堂,年度获奖者等等。每张表都包括了多对多的信息(例如:许多球队存续了很多年,包括了很多球员;球员也在不同的年份里为多个球队效力过,等等)。除此之外,击球、投球、防守和季后赛等表都有类似的字段,包括比赛,球员,球队,打击,保送等等。投手既可以投球,也可以防守或击打。
不管怎样,我不想描述得太技术化,我用SAC将28张原始表建模为12张不同的表,其中包括3张主要的事实表。
▎有了这些数据,我们能回答什么样的问题?
如果深入到这147年的棒球数据中,我们能看到不同的球队,加盟球队和球员们的来来往往。
深入下去,我们会发现20世纪之前,比赛的统计数据事实上并没有被完整地输入,每个赛季的比赛数字也不尽相同。直到1961年,棒球才确定了一个完整赛季要打162场比赛。并且在图中你会看到一些尖角,这包括1981和1994年的罢工,以及第一次世界大战导致的赛季缩短。
▎哪支球队赢球最多?哪支输球最多?
这并非一个简单的问题。对于有些人来说,获胜意味着最多的冠军,获胜也能意味着最好的季后赛表现,或者是最高的胜率(对于新加入的球队,例如天使队来说)。下面是把这些数据放在一块比较。
然后我们能看到按不同时代的top 5球队。
然而在这张图背后,还隐藏着一些有趣的事情:
获胜不等于冠军。在Longball时代(1994-2005),亚特兰大勇士队赢得比赛的次数最多,但只获得过一次冠军。洋基队获胜次数第二多,但赢得了四次冠军。在post steriod时代(2006-至今),洋基队获胜次数最多,但从没得过冠军。
你需要处于支配地位很多年,才能获得冠军。除了佛罗里达马林鱼队和芝加哥小熊队,在一个时代中,很少有一支球队能不处于支配地位却获得冠军的。
战绩差的球队并不一定一直差。上图没有显示,我们可以统计那些战绩最差的球队,在多个时代中,他们并不是始终战绩差。你会看到一些球队运气翻盘,例如堪萨斯皇家队和休士顿太空人队。
▎“获胜”球队比其他球队哪些地方做得好?
衡量好的击球手的一个关键指标是OPS(On Base 上垒 + Slugging 长打)。它的含义是:你上垒的次数越多,上垒率(OBP)就越高。并且你上垒数越多(例如,二垒安打比一垒安打更好,三垒安打比一垒安打更好,全垒打比三垒安打更好),你的长打率(S)就越好。如果你把这些统计值整合在一起,你就获得了OPS这个指标。
在过去的147年里,围绕这项统计数据有趣的数字很多:
赢得比赛最多的球队得分也是最多;
得分最多的球队的OPS高;
高OPS导致了更多的比赛胜利。
投球在比赛中重要吗?当然重要。我看到的关于投球的两个重要数据是WHIP和FIP。WHIP是平均保送数 average of walk + 每局成功击打数 hits per inning pitched。与击打类的统计值类似:
失分最少的球队获胜次数多;
WHIP值低的球队失分少;
WHIP值低的球队获胜次数多。
▎是投手重要?还是击球手重要?
很明显,对球队来说,两者都需要。那些在OPS和WHIP上都领先的球队往往能进入季后赛。但是投球WHIP值的top 5球队进入季后赛的几率比OPS值top 5球队更高。从long ball时代开始(过去的22年),71%的投球数据高的球队进入了季后赛,与此同时只有58%击球数据高的球队进入了季后赛。所以,投球比击打更重要。
▎谁是拥有最佳OPS和WHIP数据的球员?
如果我打算找到拥有优秀OPS值的击球手和优秀WHIP值的投手,该怎么办?这就是那些多对多数据表出现的时候了。球队在多年间有多个球员,球员在多年间为多个球队效力。如果我们看整个棒球历史上的顶级击球手,他们大多数都已经在名人堂里——除了少数知名的例外人物。如果我们从最近3年的数据中筛选,能获得一个400人的名单,下图展示了一部分——大多数都是家喻户晓的名字。
对于投手,我们也能做同样的分析。按照投手的出场时间,我们可以将投手分为“先发球员”和“替补球员”。如果我们只选择当前时代,我们能得到一组低WHIP值的投手。安息吧,Jose Fernandez(这里指因船难过世的投手Jose Fernandez)。
▎获胜很花钱吗?
当然,获胜队比输球队的工资高得多。
并且,在赢球和薪水之间是有关联的。那就是,薪水越高,球队就越可能获胜。我们也能看到有一些工资非常高的球队没有赢(右下角的灰色——作者原文如此,恕我眼拙,没看见),并且有一些低薪水的球队也取得了胜利(左上角的蓝色)。所以不是不可能,几率还是存在的。一些异常情况就包括水手队(2001年),小熊队(2016年),皇家队和洋基队(1998年),他们的总薪水低于平均水平,但是进入了季后赛。
但是有点矛盾的是,从2000年开始,只有37%的分区冠军是他们区工资最高的。
让我们看看前十名高工资的球队,事实上只有一半进入了季后赛。
▎哪些球员是球队花了重金投入的?
这里有一些顶级棒球球员的惊人数字。
▎这些数据意味着什么?
基于这些数据,我能很容易地问出并回答许多问题,我的答案很好理解。下面是我的收获:
这些新的统计数据(OPS和WHIP)是判断一支球队是否成功的出色指标,它们比那些老的指标(打击率和全垒打)要好得多。
同时处于OPS和WHIP两项指标的前五名会让你有98%的几率进入季后赛。
成为投球好的球队比成为击球好的球队更加好。71%的WHIP top 5球队进入了季后赛,而只有58%的OBS top 5球队进入季后赛。
要进入季后赛,你得在工资上比平均数多花30%。
那些顶级球员(OPS和WHIP数据高的球员)挣钱最多。
▎下一步是什么?
正如你的组织一样,数据到处都是。然而,真正的分析却是稀缺的。希望这篇文章能帮助你理解,什么在驱动着棒球的成功。
原文地址
https://blogs.sap.com/2018/04/16/making-sense-of-147-years-worth-of-baseball-stats-with-sap-analytics-cloud/
往期精选 | Editors' Choice