《赤裸裸的统计学》|为你彻底揭开了统计学、大数据和数字的“神秘面纱”。
核心书摘
本书通过生活中具体生动的案例为我们解读了统计学该如何应用,数据要如何获取。统计学这门学科对于大部分人来说看似非常陌生,然而实际上统计学一直应用在我们生活的方方面面。作者查尔斯·惠伦希望能通过生动的应用实例向每个人展示他眼中那个并不枯燥乏味的统计学,将统计学和数据最原始最本真的样貌呈现出来。
关于作者
查尔斯•惠伦(Charles Wheelan),于1997~2002年间担任《经济学人》杂志驻美国中西部地区的记者,还为《芝加哥部报》、《纽约时报》和《华尔街日报》撰稿,现任芝加哥公共电台WBEZ节目财经记者。其所著《赤裸裸的经济学》已由中信出版社于2010年出版。
本书鲜知
学什么?如何辨别被造假的真数据
很多情况下,我们接收到的数据并不是捏造的,而是真实统计得出的,但这些数据也完完全全真实可信吗?我想我们都在不知不觉中被真实数据误导过,那么如何辨别这些被“造假”的真数据呢?第一,查看数据中的遗漏点。
阅读统计图时,我们不能把注意力集中在图形的直观效果上,而应深究隐含的数据,通过数据的对比得出结论,查看引起变化的原因,才不会被看似“惊人”的变化图所迷惑。第二,查看数据中是否被偷换了概念。在分析统计资料时,请留心从搜集原始资料,到形成结论的整个过程中,是否存在着概念的偷换。
也就是将看上去极像、而完全不同的两件事混淆在一起。比如,交通事故死亡人数的增多,不能等同于交通事故死亡率的提高。第三,警惕外推法得来的无意义数据。外推是根据过去和现在的发展趋势推断未来的一种方法。它是一种很好的近似计算方法。有时,通过这种方法分析统计数据,并对未来趋势进行预测而来的结论,往往会与实际情况相相反。
你还会发现
· 常用的统计数据;
· 数据也可以说谎;
· 统计学的实际应用。
一、统计学中,有哪些具有高价值的描述性数据
首先,我们来看看本书的第一个重点内容:统计学中,有哪些高价值的描述性数据。
什么是描述性数据?说简单一点就是经过统计处理后,凝聚了许多信息的数据。比如,我们要判断两个人谁的身体质量更好,有个简单的方法就是比较身体质量指数 (BMI)。所谓身体质量指数,是国际上常用的衡量人体肥胖程度和是否健康的重要标准,计算公式是用体重(单位是kg)除以身高的平方(单位是m)。在中国,身体质量指数的正常范围是18.5到23.9。如果一个人的身体质量指数是18.2,就说明他偏瘦;如果他的身体质量指数高达28以上,就说明体型偏肥胖。
描述性数据,为我们提供了一个针对某个现象的可操作性、有意义的概括。有了描述性数据作比较,我们能很直观地做出判断,这就是统计学给我们带来的好处。但有时候,只看高度浓缩的描述性数据,也会让我们错失很多信息。那该怎么办呢?作者惠伦通过研究,找到了一条理解统计学的途径,那就是把描述性数据变得“赤裸裸”的。
这里的“赤裸裸”有两层含义,一层是用深入浅出的方法,解释数据相关的统计概念;另一层意思是发现数据背后的意义和价值。下面我们就来看看,变得“赤裸裸”的描述性数据,到底是什么样的。
1、平均数和中位数
平均数和中位数,是两个最基本的描述性数据。它们的计算方法是我们在中学数学课本里就学过的,这里我们就不多赘述。求出平均数和中位数并不难,但是,我们要清楚为什么做这个计算,在具体情况下,到底哪一个描述性数据能更准确地反映问题的实质。
作者惠伦在书中举了一个很经典的例子。老板给了他两份资料,一份是他所在公司前一年售出的57334台激光打印机的保修信息,另一份是竞争对手公司在前一年售出的994773台打印机的保修信息。需要注意的是,每售出一台打印机,文件中就会记录下这台打印机保修期内的质量问题和返修次数。现在,老板给他布置了一个任务,要对两家公司的打印机质量作一个对比。
接到这项任务后,惠伦是怎么做的呢?第一步,找出每台打印机的问题数量。比如,一台打印机的问题是激光坏了、电源接触不良、蓝牙连接坏了,那么问题数就是3;另一台只有激光坏了,问题数就是1。第二步,把公司打印机出现的质量问题数量加起来得到总问题数。第三步,用总问题数除以打印机的台数,得到一个描述性数据,也就是平均质量问题数。
通过这一系列的统计处理,作者惠伦得到了一组数据:在保修期间内,竞争公司打印机的平均质量问题数为2.8个,而自己公司所售打印机的平均质量问题数为9.1个。两个数据相比之下,惠伦得出一个结论,那就是自家公司的打印机质量比不上竞争公司。
任务进行到这一步,统计工作是不是已经做完了呢?还没有。因为担心极端数据对平均数的影响,惠伦还计算了两家公司打印机质量问题数的中位数。他惊奇地发现,竞争公司打印机质量问题的中位数是2,但是自家公司打印机质量问题的中位数只有1,也就是说,自己公司的很多打印机问题都不大,甚至比竞争公司的打印机质量还要好。
中位数是1,平均数却是9.1,为什么相差这么大?为了找到这个原因,惠伦还画了一个质量问题数量的频次图,最后发现,自家公司打印机质量问题数出现了极端数据,有一些打印机的质量问题数高达10。显然,这些数据没有影响质量问题的中位数,却严重影响了平均质量问题数。
最后,可以得出的结论就是,作者惠伦所在公司的打印机,并不存在普遍的质量问题,但却有一个棘手的麻烦,那就是一些数量不多的打印机存在大量的质量问题。从生产角度来看,最重要的一点,就是调查这批劣质打印机,找到问题源头并给出解决方案。
2、方差和标准差
回顾了平均数和中位数的意义,我们再来了解两个非常重要的统计学概念,方差和标准差。什么是方差?方差可以用来衡量数据相对于平均数的分散程度。说简单一点,如果一组数据比较集中,那么方差就小;如果数据分布比较散,那么方差就会大。而标准差就是方差的算术平方根。
举个例子,假如现在我们要收集两组数据,一组是一架飞往波士顿的航班上250名乘客的体重数据;还有一组是,250名有资格参加波士顿马拉松比赛的职业运动员的体重。哪一组数据更集中?答案肯定是运动员的这组体重数据。
假设两组人的平均体重差不多都是70kg,马拉松职业运动员的体重肯定在70kg上下。但是飞机乘客的体重就不一定了,乘客中间有可能有超出70kg的,可能还有小孩。因此,我们说航班乘客的体重数据“更加分散”。
除了判断离散程度之外,方差和标准差还有一个更重要的作用,就是提供一个正常范围。作者惠伦做了一个有趣的情景假设。假如有一天,你去医院体检,发现你的HCb2值(一个虚构的血液指标)为134。你在网上搜索到,你这个年纪的人的HCb2的平均值是122,你的HCb2值比平均值高了14。你以为这是不好的现象,但是医生告诉你,HCb2值的标准差是18,意思就是说HCb2值从104到140都是正常的,你的身体并没有什么异常。
所以,在统计学中,我们要有一个意识,数据本身并没有好坏之分,数据的价值,在于有效地向我们传递了不同的信息。所有的数据不一定是完全稳定出现的,数据在上下浮动的时候,就向我们慢慢勾画出事件的发展规律。
二、统计数据是如何“说谎”的
接下来,我们来看看本书的第二个重点内容:统计数据是如何“说谎”的。
1、特殊的描述方法
政治家格罗夫纳说:“数据本身不会说谎,但说谎者需要数据。”说谎者在用数据说谎的时候,最容易的一个方法,就是在描述方法上“动手脚”。他们在选用描述方法,目的就在于让数据变得更好看,或者对自己更有利。
举几个例子。美国伊利诺伊州公布了一则消息:这个州的个人所得税税率从原来的3%,上调到了5%。我们看到两种方式来描述这次税率的变化:一种就是主张并促成这次个税改革的民主党,他们指出,伊利诺伊州的个人所得税税率上升了两个百分点,也就是从3%上涨到5%;另一种是反对个税改革的共和党,共和党说,伊利诺伊州的所得税税率上升了67%。
其实,这两种说法对应的数据都是相同的,但是说法不同,得到的信息和感受就有了很大的差别。美国民主党将重点放在了税率的绝对变化上,而共和党更关注税率的百分差。“两个百分点”和“67%”相比,共和党的说法更能引起人们的焦虑,因为67%的确是一个不小的涨幅,在心理上感觉自己要交更多的个人所得税了。
再来看一个例子。美国的两家电信业巨头,美国电话电报公司和威瑞森电信陷入一场广告战争中。威瑞森电信公司选择的策略是,给消费者留下这样一个好印象:在辽阔的美国国土上,威瑞森电信公司的基站几乎遍布全美国的各个角落。而和这个现象形成对比的是,美国电报电话公司相对零碎的地理覆盖。显然,威瑞森电信公司选择的分析单位,是网络覆盖的地理范围。
下面,我们看看美国电话电报公司是怎么做的。美国电话电报公司的广告写的是:“满足97%美国人的通信需求。”注意这里是“美国人”,而不是“美国”。美国电话电报公司强调的重点在于,绝大多数美国人不住在偏远乡村或者沙漠之中。言下之意就是,一个好的通信服务网站的关键在于服务手机用户真正生活和工作的区域,而不是偶尔才会去的地方。
而在书中,经常要去新罕布什尔的乡下的作者惠伦选择的就是威瑞森公司。如果换成一个住在乡下的消费者,他购买了美国电话电报公司的服务,可他的手机并不能正常使用,他肯定就会觉得,“97%”这个看起来很大的数字欺骗了他。
我们可以肯定的是,两家公司的统计数据都是准确且有效的,但他们会刻意包装数据,让自己成为看起来最好的那一个,来吸引消费者。
2、不公平的统计方法
刚刚我们讲了平均数和中位数的计算方法,我们知道平均数很容易受到极端数据的影响而失去真实性。所以,当我们看到“平均值”公布的时候,就要给自己提个醒,想想数据里面有没有极端数据的干扰。
书中有个有趣的例子。原本一家中档酒吧前台坐了10个人,年均收入是3.5万美元,这时,比尔·盖茨走进了这家酒吧,假设比尔·盖茨在这个案例中的年收入为10亿美元,当他们比尔·盖茨坐下成为第11个人后,这组人的平均年收入就迅速上升到了9100万美元,但实际上,之前那10个人并没有变得更富有。
再来看一个生活中的场景。如果你去应聘一家公司,公司的老板说,员工平均月收入可达1万5。你要想想,这中间有没有算上管理层的工资和利润。不然,你本以为找到一份不错的工作,实际情况是,高管月入10万,普通员工的月薪只有5000。如果1万5的数据是中位数的话,我们可以了解到的信息是,有一半的员工的收入超过1万5,另一半的员工收入低于1万5,那么接下来,我们就要看看自己应聘的是什么岗位。
我们都知道,通过统计处理,我们能够把一组复杂的数据,浓缩成一个直观的数据。但作者惠伦说的一句话引起了我们的重视:“我们有各种各样的方式来浓缩信息,每种方式都有可能导致一个不同的结果。”
《引爆点》的作者马尔科姆·格雷德威尔,在《纽约客》上发表了一篇批评文章,犀利地指出人们对排名的狂热。格雷德威尔以《名车志》杂志对3款跑车的排名为例,揭露了排名的虚假性,这3款跑车分别是保时捷卡曼、雪佛兰科尔维特和莲花路特斯。
《名车志》设计了一个计算公式,其中包含了外观、性能、价格等等21项评分指标,最后,保时捷卡曼获得第一名。但是,问题也出现了,格雷德威尔发现,“外观”一项在公式的权重分量只占到4%,这对于评价跑车来说太低了。按道理,跑车的外观设计应该很重要,如果把“外观”这一项的权重提高到25%,那么,莲花路特斯跑车就会是第一名。
我们在进行加权计算的时候,经常会遇到这种情况,因为有的项目分数权重比例不高,有的有占比太多,如果调整权重比例,再次统计计算,排名就可能重新洗牌。
3、具有偏见性的数据
作者惠伦说:“没有比样本更有用的统计学工具了,统计学要是离了它,马上会黯然失色。”什么是样本呢?打个比方,我们做了一大块蛋糕,现在要研究蛋糕的成分,不用研究整个蛋糕,只用切下一小块就行。统计学最理想的状态,就是获得一个好样本。但现实中,获得一个好样本比想象中难。
为什么这么说呢?如果样本带有“偏见”,或者样本容量不够大,就不能代表整个数据。举个例子,我们要调查一所高校毕业生的平均收入,结果只有在大公司的毕业生参与了统计,而混的不好的毕业生,压根就没有打开问卷,结果是这所高校毕业生平均收入比较高,很多校友都认为自己“拖了后腿”。
除了带有“选择性偏见”之外,数据还具有“发表性偏见”,说简单一点,就是我们看到的数据,通常都是商家或者机构有意让我们看到的,而有些统计数据并没有发表出来。《纽约时报》曾发表了一篇文章,是关于抗抑郁药物药效发表性偏见的,第一句话就是:“抗抑郁药百忧解、帕罗西汀等产品的生产商,故意不发表更多的药物试验结果,就是为了获得政府许可,误导医生和消费者对药物真实效果的看法。”生产商是怎么做的呢?那些证明药物对治疗抑郁症有效的研究数据,有94%都得到了发表,而发现这些药物无效的研究,只有14%发表在相关刊物上。
这就会导致一种误导性的结果,比如,抑郁症患者看了这些研究报告非常高兴,但是,如果把所有的研究成果进行综合考虑,这种药品的疗效就大大降低了,因为药品的效果都是靠数据“说谎”增长的。
三、如何用统计学解决生活中的实际问题
接下来,我们来看看本书的最后一个重点内容:如何用统计学解决生活中的实际问题。
1、政策中的统计思想运用
2019年,有一部大火的电视剧《长安十二时辰》,这部电视剧里面一个叫徐宾的户部吏员,独创了一套神奇的算法,叫做“大案牍术”。从字面上理解,这种技术是用来查案的,但实际上,“大案牍术”就是一种数据分析。
“大案牍术”有多神奇呢?《长安十二时辰》里面,有很多台词都验证了这个观点。比如说,“大案牍术”可以辅佐圣人,管理天下大小事情。徐宾说:“‘大案牍术’中的数据不仅仅是数字,它更是百姓的生计、生涯。不要小看了这些记录,唐代租庸调的均税制,就是以人丁数字为基础施行的。”什么是租庸调制呢?就是唐代实行的赋税制度,以征收谷物、布匹或者为政府服役为主,是以均田制的推行为基础的赋役制度。在均田制和租庸调制的规定下,凡是分到田的人,不论分的田是多大,都要按人头缴纳定额的赋税并服一定的徭役。
这是历史影视剧中的统计工作,我们再来看看中国历史中,有没有这种统计思想的运用呢?唐初农民流散,有钱有势的豪强世族乘机变成逃户,也就是为了逃避赋役而不要户籍的人。渐渐地,没人种地了。为了恢复生产,政府必须把豪强庇护下的逃户变成王朝的编户,就是要把这些人找到,并且记录下来。
初唐政府制定了相当完整的户口检查方法,由基层组织乡、里、村负责,主要负责的是里正官。文献《唐六典·尚书户部》记载:“每一岁一造记帐,三年一造户籍。”意思就是说,每一年都要统计一次人口,每三年制定一次户籍。户籍跟我们现在说的户口差不多,在唐代,户籍是均田收税和庸调课役的根据。唐代政府一方面奖励户口增长,把“户口增益”作为考核县令政绩的一个标准;另一方面,编订户口就是为了查出逃避赋税和徭役的逃户。
唐延载元年(694年)八月,政府采取团貌的办法进行人口普查。什么是“团貌”呢?就是各地方官吏每年集合五党或三党(每党有一百家)为一“团”,官吏拿着前一年的户籍,对当时的实际人口、田土状况进行核对。发生变化的就要进行调整,查到有问题就纠正过来。官员主要靠观察这些人的样貌,再把他们的信息手写下来,为新的户籍留下可靠依据。
现在,我们做人口普查不再像古代这么麻烦,但是从古代细致的统计工作可以看出,统计学的确能够帮助我们更好地管理社会。
2、与生活相关的统计学
从古至今,收集数据是最基本的统计工作。在收集到足够的数据之后,学会处理数据的方法,才能让统计学变得“赤裸裸”,读出更多数据中的信息。下面,我们就重点讲一种操作简单的统计处理方法,也就是求解两种数据的相关系数。
书中举了一个例子,有一张15个学生的身高和体重的数据表,现在要求出这组学生身高和体重数据的相关系数,我们可以怎么做呢?第一步,把每个学生的身高和体重转换为标准值。具体的算法就是(实际身高-平均身高)/身高标准差,体重的转换方法也是(实际体重-平均体重)/体重标准差。
第二步,把每个学生的体重标准值和身高标准值相乘,你会发现一个现象,当一个学生的身高和体重都偏离平均值较远时,乘积的绝对值也会越大。第三步,把第二步求得的乘积相加,再除以统计对象的数量15,最后可以得到相关系数。
根据书中的数据表,我们得到这组学生身高和体重的相关系数为0.83,是一个很接近1的数值,从这里,我们可以作一个判断,那就是这组学生的身高和体重之间存在着较强的正相关关系。
为什么要计算相关系数呢?因为通过这个数值,我们能推断出哪些事物与我们相关。相关系数用得最多的地方,就是电影推荐和购物推荐。比如说,淘宝平台可以利用购买记录数据,推测出哪些商品是用户想要买的;一些阅读平台会根据用户的阅读习惯,推送一些跟用户相关的书籍和文章。
在大数据飞速发展的时代下,把握统计数据的相关性,能够帮助我们读懂他人的心,那么接下来就来看看,运用统计学,还可以解决哪些问题。
第一个问题是,什么导致了自闭症患者数量的激增。为了解决这个问题,研究人员试图运用寻找相关性的方法,找到自闭症和一些事物的联系。比如说,自闭症与基因有没有关系?自闭症儿童与非自闭儿童之间最显著的生理差异在哪?显然,自闭症和多种事物都有联系。但是,统计分析所做的最有贡献的事情,就是排除了很多无关因素。比如,小时候接种的疫苗并不会导致自闭症。
第二个问题是我们依据什么来奖励优秀老师和优质学校。统计学分析提供了一个方案。2012年,纽约市对全市1.8万名公立学校的老师,进行了“附加值测试”评级,但是有一个缺陷,这项评级仍然把学生分数的提升,作为评价老师教学水平的重要依据,对老师在教育理论和课程上的创新,并没有太多的考虑。
对于这个问题,教育专家还在热烈地讨论。还是那句话,数据不是对事物的盖棺定论,而是给我们指明一条思考的路径。有了数据的参考,我们也能更加清晰地做出判断。
总结
以上就是《赤裸裸的统计学》这本书的主要内容。
本书的作者查尔斯·惠伦不是统计学家,这本书也不是高深的统计学教材。惠伦一直致力于去除统计学中的复杂枯燥的概念,让统计学变得“赤裸裸”的。不光是让统计学概念变得更好理解,还要让统计数据说的谎言也变得“赤裸裸”。当一切变得亲近之后,我们发现统计数字背后的精彩世界。
大数据时代来临后,人们越来越迷恋数据,因为数据“直观、有说服力”。但是,我们依然要保持独立思考的能力,在读懂了数据浓缩下的信息后,也能运用合理的统计推测方法,抽丝剥茧般地去验证。
恭喜你和“今今乐道”读书会一起读完了你生命中的第 2275 本书,希望今天的内容能给你有益的启发。(编辑:陈星空)
相关书籍:
《无偿》|“影子工作”是大数据时代的产物,即日常生活中需要我们完成的所有无报酬劳动。
上次推送:
《创造日本》|探索日本模式蕴含的黑暗力量,提供借镜历史、思索未来的独到视角。
《日本之镜》|如何大量地吸收、模仿外来文化并创造出属于自己的特色?
【行走日本系列】《建筑家安藤忠雄》|一个大阪建筑家的逆袭人生。
今天同时推送:
《艾伦·图灵传》|如谜的解谜者。(录音中提到了两个同性恋,即使性取向异于常人也能忍辱负重,建功立业?)
《吴阶平传》|两个造福全人类的颠覆性判断。
【行走日本系列】《燃烧吧!剑》(上)|捍卫最后的武士精神。
《兴趣变现》作者孙庆磊:打造“有趣”的个人IP。6/8
明天推送:
《设计冲刺》(上、中、下):如何以最快的速度,做出最优的产品调整方案。并取得一定的成绩。
听着听着,也许就明白了。
(语音、文字、图片部分来自今今乐道APP和网络,老农整理)