詹姆斯和马龙谁更强?真实的数据也能撒谎!
有个小朋友跟我说:他特别喜欢看篮球比赛,最喜欢的球星是湖人队的勒布朗·詹姆斯。他曾经把詹姆斯和历史上的著名球员马龙做过比较,结果发现了一个神奇的现象:在整个生涯中,无论是二分球的命中率还是三分球的命中率,詹姆斯都比马龙高。但是如果把二分球和三分球加到一块儿,詹姆斯的进球率反而比马龙要低了。这是怎么回事儿呢?
詹姆斯和马龙的生涯数据对比
实际上,这是统计学上的一个著名悖论——辛普森悖论。最早由爱德华·辛普森在1951年发表的论文中进行了详细阐述。辛普森悖论是指:当我们进行统计比较的时候,如果对数据进行分层,统计结果与整体可能是不同的。下面我们通过几个例子来认识这个悖论。
辛普森
历史上一个比较典型的辛普森悖论的例子,是美国加州大学伯克利分校的录取比例问题。伯克利是美国的一所著名大学,建校一百多年来,一共诞生了110位诺贝尔奖得主、14位菲尔兹奖得主、25位图灵奖得主。原子弹之父奥本海默、著名华人物理学家朱棣文、华裔物理学家吴健雄,还有数学家丘成桐、陈省身,都在伯克利学习和工作过。
加州大学伯克利分校
可是1973年的秋天,伯克利公布的研究生招生名单却引起了一场风波。那一年,许多女同学向学校表达了强烈抗议,因为从招生名单来看,男生申请者中有44%被录取,而女生申请者只有35%被录取,男生录取率是女生的1.25倍!这简直是赤裸裸的歧视!
所有申请者 录取比例 | 男生申请者 录取比例 | 女生申请者 录取比例 |
41% | 44% | 35% |
压力之下,伯克利大学被迫展开调查,结果发现:许多部门招收学生时,反而是女性录取比例更高,这到底是怎么回事呢?
我们用一些虚拟的数据来说明一下这个问题。假设有100个男同学和100个女同学申请伯克利的研究生,他们分别申请了物理学院和文学院。
男生中有80人申请物理学院,录取38人;20人申请文学院,录取2人;
女生中有20人申请物理学院,录取14人;80人申请文学院,录取16人。
录取结果和比例如下:
我们首先分组比较数据:男生申请物理学院的通过率是47.5%,女生申请物理学院的通过率有70%,女生的通过率要比男生高很多。男生申请文学院的录取率为10%,女生的录取率是20%,女生通过的几率是男生的两倍。单独从两个学院的数据来看,好像不是女生受到了歧视,反而是男生受到了歧视。
但从总体的数据来看,提交申请的男生和女生都是100人,男生有40个人被录取,女生只有30个人被录取,男生的录取比例比女生多出1/3,这样看来好像又变成了歧视女性。
为什么数据都是一样的,却能得到两种不同的结论呢?这就是辛普森悖论。
各种阴谋家往往会利用辛普森悖论煽动大众:如果我想批评伯克利歧视男性,就可以隐藏总体数据,只让你看到每个学院的录取数据——每个学院的女生录取比例都比男生要高,这样就可以呼吁男同胞们起来对抗学校了。反过来,如果我是个女权主义者,就可以避开每个学院的数据,只给出总体录取数据——同样的人数申请同一所学校,凭什么男生录取比例比女生高1/3?这难道不是涉嫌歧视女性吗?
辛普森悖论还有另一个典型案例——肾结石的治疗方法。
肾结石
肾结石患者往往需要通过手术的方法治疗,手术方式有两种:一种方法是开放式手术,它可能对人造成较大创伤;另一种方法是封闭式手术,用内窥镜把结石取出来,手术创伤较小。患者的结石情况也可分为小结石和大结石两种,医生会按照结石大小选择不同的治疗方案。
某位医生对两种治疗方法的治愈率进行了统计。开放式手术案例共350例,其中273例有效。封闭式手术共350例,其中289例有效。具体数据如下:
大家看:小结石患者中87人使用开放式手术治疗,治愈率达到93%;有270人选择了封闭式手术,治愈率是87%,这样来看,对于小结石患者,似乎开放式治疗的效果更好一点。
再看有大结石的患者:有263人选择了开放式手术,治愈率是73%;有80人选择了封闭式手术,治愈率是69%,大结石患者,依然应该选用开放式手术,因为它的痊愈比例更高。
既然不管是大结石还是小结石,都是开放式手术的治愈率更高,那我们是否应该只给病人推荐开放式手术呢?先别急,假如我们看一下总体数据,就会发现开放式手术的平均治愈率是78%,而封闭式手术的平均治愈率有83%,这样一来,反而是封闭式手术的效果更好。这又构成了辛普森悖论。
假如医生想推荐开放式手术,就可以只向患者展示分层数据。患者发现:不管大小结石,开放式手术的治愈率都更高,肯定会倾向于开放式疗法。反过来,如果医生想要推荐封闭式手术,就会隐去分层数据,只给患者展示总体数据,同样是350名患者,封闭式手术的治愈率更高,患者自然希望采用封闭式手术。同样的数据,用不同的表述方式就得出了不同的结论。
现在,我们来看看詹姆斯和马龙的投篮命中率问题。詹姆斯和马龙都是著名的长寿球员,马龙退役时40岁,詹姆斯今年36岁,依然活跃在篮球场上。
不同时期的詹姆斯
如果我们忽略罚球数据,统计在整个生涯中詹姆斯和马龙的投篮数据,会得到下面这张表:
可是事实并非如此。如果把二分三分球加到一起,詹姆斯的平均命中率是50.4%,居然低于马龙的51.6%平均命中率,这也是辛普森悖论。
同样的数据也可能会因人的喜好而选择不同的解读方式,如果一个人更喜欢詹姆斯,就可以用二分球和三分球的分层数据支持自己;同样如果另一个人喜欢马龙,则可以只讨论全体命中率。
为什么会出现这种奇怪的现象呢?一般而言,辛普森悖论有两个条件。
首先,分层数据中每一层的成功率有显著不同。例如:伯克利的物理学院录取率在男女生中分别是47.5%和70%,相对于文学院的录取率10%、20%高得多;用两种不同方式治疗小结石,治愈率在90%左右,大结石不好治,两种方式的治愈率都在70%左右;二分球更好命中,詹姆斯和马龙的命中率都超过50%,三分球不好进,他们的命中率都在30%左右。每一层成功率有显著差别,这就是辛普森悖论的第一个条件。
其次,作比较的两者在分层数据中的分配比例不同。比如:申请伯克利的男同学虽然在两个物理学院和文学院的录取比例都低于女同学,但是更多的男同学(80人)申请了比较容易通过的物理学院,而更多的女同学(80人)申请了比较难通过的文学院。所以,虽然整体来讲,男同学通过的比例反而会高一些。
再来看治疗肾结石的例子:大结石本身治愈率就低,很多大结石患者都选用了难度较大的开放性疗法来;小结石容易被治愈,大部分采用了创伤较小的封闭式疗法。所以封闭式疗法的整体治愈率会高一些——它治疗了更多的轻症患者。
同样道理,詹姆斯虽然二分球和三分球进球率都高,但是他投了5409个三分球,拉低了自己的平均命中率。而马龙生涯中只投了310个三分球,于是整体命中率就会接近于二分球命中率,这就比詹姆斯的平均命中率高了。
做每一件事的成功率不同,如果一个人多去干那些成功率高的事,就会让他的整体成功率变大,这就是辛普森悖论的本质。顺便一说,为了衡量一个球员的真正实力,人们又发明了真实命中率的概念,它综合了投篮命中率、三分球命中率和罚球命中率
詹姆斯在17年的生涯中真实命中率是58.6%,而马龙在19年的生涯中是57.7%。
我们还可以通过几何的方法来研究这个问题。投篮次数和命中次数画在直角坐标系中,横坐标是投篮的次数,纵坐标是进球的次数,例如詹姆斯的二分球和三分球矢量图如下:
我们知道:一条线的斜率k等于纵坐标与横坐标之比,在本例中就表示投篮命中率——直线越竖,命中率就越高;直线越平,命中率就越低。图中表示出了二分球的命中率高于三分球。
整体投篮命中率怎么计算呢?数学上可以证明:只要我们用二分球矢量和三分球矢量为邻边做一个平行四边形,这个平行四边形对角线矢量就表示整体投篮出手次数和命中次数,它的斜率就表示平均命中率。
再进一步:为什么马龙的二分球和三分球命中率都低,但是整体命中率却高呢?请看下面的示意图:
用黄色线表示马龙的数据,紫色线表示詹姆斯的数据。马龙的三分球命中率(A1)低于詹姆斯(B1),马龙的二分球命中率(A2)也低于詹姆斯(B2),但是,马龙的三分球少(A1短),二分球多(A2长),詹姆斯的三分球多(B1长)而二分球少(B2短),利用平行四边形法则求出整体命中率后,马龙就更高一些(kA斜率比kB大)。
在我们的生活当中,每时每刻都会接触到不同的数据。比如说作为一个老师,要看学生们考试的平均分;作为一个销售,要看自己每个月的接单情况和成交率……马克吐温说:世界上有三种谎言:谎言、糟透了的谎言和统计数字。
虽然数据是客观和真实的,但是不同的人利用同样的数据却可以讲出不同的故事。用真实的数据推测出一个未经证实的结论,并以此为根据煽动仇恨达到自己的目的,是许多阴谋论的最爱。比如,下图是我在网上找到的两个城市最近六个月二手房成交均价走势图,你会得到什么结论呢?
你是否会认为:城市A房价暴跌,而城市B房价平稳呢?
其实,A和B都是北京市,只是在作图时,纵坐标(价格)的起始位置不同而已。
美提课堂www.mtketang.com.cn致力于打造中学理科(数学、物理、化学、生物)精品课程,致力于让优秀的课程服务更多的学生,所有老师均毕业于北大、清华、北师大等著名学府,并拥有国内一流中学十年以上教学经验。目前,网校已经累计开设直播课、专题课、公开课、讲座等数千小时。只需一次点击,让你和名师0距离。2月1号,美提课堂寒假班就要开始啦!了解更多资讯和视听课程快戳这个链接:美提课堂2021年寒假和春季直播课火热报名中!
客服小姐姐微信: mtketang0007
客服电话:400 155 2135
点击“阅读原文”进入美提课堂获取免费课程