查看原文
其他

《统计数据会说谎》|学会远离数字陷阱。

今今乐道·马霈 品卷一族
2024-12-10

核心书摘

《统计数据会说谎》这本书大胆地揭露了至今仍然被销售员、广告撰稿人、记者甚至专家频频使用的统计操纵技巧,把神秘的统计学当成故事一样讲出来。

神秘的统计学在这本书里被哈夫像讲故事一样一一道来,在莞尔一笑中让你知晓深奥的统计学基本原理,掌握揭露“虚假数据”的最有力的武器。这本书从50年代出版以来就不断再版,在世界的影响力持久不衰,被誉为美国商业人士、研修人员的重要入门必读书之一。

关于作者

达莱尔·哈夫,美国统计专家。1913年出生在美国爱荷华州,毕业于爱荷华州立大学,获得学士学位和硕士学位,在此期间他由于成绩优异加入了美国大学优等生的荣誉学会,同时还参加了社会心理学、统计学以及智力测验等研究项目。达莱尔·哈夫的文章多见于《哈泼斯》、《星期六邮报》、《时尚先生》以及《纽约时报》等美国顶尖媒体。1963年,由于他的贡献被授予国家学院钟奖。

本书鲜知

学什么?如何靠谱地从经验中学习    

统计数据能有多荒诞呢?几年前,十几位调查人员分别发表了一份关于抗组胺剂药物的报告。每份报告都表明,服用这个药物后感冒会有明显好转,紧接着就是各种各样的渲染,于是这种药物被大量生产,可事实呢?

这种药的成分里,没有一样是能够治疗感冒的。那为什么人们还会争相购买呢?正应了那句话,“适当的治疗可以使感冒在七天之内痊愈,但如果不管它,感冒就会持续一个星期。”人们就算吃了对治疗感冒无效的药,正常情况下,感冒也会一周就好了,所以就理所当然地把功劳给了抗组胺剂药物。由此可见,人们是很容易被一些所谓的专业数据迷惑的。

《统计数据会说谎》帮助我们更加客观的看待数据。这本书是美国统计专家达莱尔·哈夫的传世之作,书中“编造虚假信息”的话题受到了美国社会持续的关注,同时还引发了美国权威媒体激烈的争论。这本书最大的价值,不是让我们意识到数据是会说谎的,而是希望我们能够通过问自己五个问题来识别出数据的谎言。

你还会发现

· 统计数据是如何说谎的;

· 如何反驳统计数据;

· 什么是无意识的偏差。

一、统计数据是如何说谎的

首先,我们来看看本书的第一个重点内容:统计数据是如何说谎的。

在回答这个问题之前,我们还是得明确一下统计学的概念。统计学是应用数学的一个分支,主要通过搜索、整理、分析、描述数据等手段,来推断所观察对象的本质,甚至可以为相关决策提供依据和参考。

那统计数据又是怎么说谎的呢?让我们从统计数据最常见的三个谎言来分析一下。

谎言一:样本偏差导致结果失真

如果有一桶豆子,有些是红色的,有些是白色的,要想知道红色的豆子有多少,除了要一颗一颗数之外,还有一个更简单可行的方法,那就是随机抓一把豆子,然后数出红色豆子有多少颗,假设红色豆子在这一把豆子中所占的比例和桶里红色豆子在所有豆子中所占比例相同,就可以大致知道桶里红色豆子究竟有多少颗,这就是抽样的过程。

如果样本规模够大,而且随机选择得当,那么样本在大多数情况下是可以代表整体的。但如果“规模”和“随机选择”两个条件缺少一个,那么抽样的方法有时候还不如猜测来得精确,这样的统计数据除了能营造出一种所谓的科学精确性的虚假氛围之外,几乎没有可取之处。

1940年美国《时代》杂志刊登了一则消息说:“耶鲁大学1924届毕业生平均年收入高达25111美元(相当于17万元人民币左右)。”乍一看,会觉得这也太厉害了,但根据常识推断,这个数据绝对不真实。

想想看,在那个通讯不发达的年代,毕业20年后,有多少同学还能联系到呢?即使知道了这些人的详细地址,他们也未必会答复调查问卷,尤其是这种关系到个人隐私的问题。所以,我们能够知道,“25111美元”这个数据一定是由既有明确地址又回复了问卷的人得出来的。

那么这个样本具有代表性吗?也就是说,这个样本群体的收入和那些联系不到或没有回复问卷的人的收入处在一个水平吗?当然不是。

通常情况下,那些联系不到的人肯定不会是华尔街富商、公司董事或企业高管这种人,因为要获得这部分人的联系方式太简单了,真正“地址不详”的,应该是普通的职员、落魄的艺术家或流浪汉等等,这些人一定会拉低平均收入。而样本遗漏了这部分人群,得出的数据肯定是不准确的。由此可见,数据不充分、样本不随机是造成数据说谎的重要原因。

谎言二:用看似相关的数据说谎

书中有一组数据显示:和1910年相比,现在有更多的人死于飞机失事,于是得出一个结论,那就是现在乘坐飞机更危险。但死于飞机失事的人变多真的是因为飞机变得更危险了吗?这两个看起来相关的数据真的有关系吗?事实上,现在死于飞机失事的人变多,是因为现在乘坐飞机的人数比以前多了很多倍。所以,很多时候,两个看似相关的数据会让人们毫无防备地陷进数据的谎言里。

谎言三:因果颠倒

曾经有人想方设法地研究,学生中抽烟者的成绩是不是比不抽烟的人更差,最后事实也的确证明了抽烟者的成绩更差。于是就经常有人拿这个结果说事儿,说要想取得好成绩就得戒烟,甚至还有人得出一个结论,那就是抽烟会让人变笨。

这其实是一个非常典型的谬误推理,这个谬误具体来说就是“如果B事件发生在A事件之后,那么,就是A事件引起了B事件”。因为抽烟和成绩不好是同时出现的,所以人们不管说“抽烟导致成绩不好”,还是说“成绩不好导致人抽烟”,都会有人觉得有道理。

事实上,抽烟和智商之间并不存在因果关系,只是存在着某种相关性而已。

类似的谎言还发生在美国马萨诸塞州。有人曾指出,马萨诸塞州长老会牧师的工资与朗姆酒的价格密切相关,牧师的工资上涨会导致酒的价格上涨。但事实真的是这样吗?在这个例子里,牧师的工资和酒的价格的确都在涨,但它们不是因果关系,事实上,它们的上涨是因为那个时期,全世界的物价都在上涨。

所以说,并不是只要两件事有联系,就一定存在因果关系。如果脑子里没有构建起这样的观念,就很容易陷入数据的谎言中。

二、如何反驳统计数据

到这里,我们已经了解了一些统计数据的谎言,那么我们该如何反驳这些数据,才能保证自己不被迷惑呢?作者达莱尔·哈夫认为,我们需要学会问五个问题来避免被数据迷惑。这五个问题分别是“是谁这么说?他怎么知道?漏掉了什么?有人偷换了概念吗?这是否合乎情理?”下面我们分析一下这五个问题。

1、是谁这么说?

我们问自己“是谁这么说的”?是为了找到数据的偏差。在现实生活中,很多实验室为了研究理论、获取名利,或者报社为了发表一条能上头条的新闻,都会对数据动手脚,这样一来就会产生偏差。一般情况下,偏差分为两种,分别是有意识的偏差和无意识的偏差。

有意识的偏差体现在直接的错误陈述、含糊不清的措辞或者是挑选对自己有利的数据,这种手段很高明,一般情况下人们不会察觉出问题。比如,明明是中位数(所有数字按从小到大的顺序排列,处在最中间的数就是中位数)更能说明问题,数据中却使用了平均数来掩盖事实的真相。

无意识的偏差是指数据本身没有问题,但无意中会让人产生误解。1928年,康奈尔大学对1500名学生做了一次调查,发现其中93%的男性已婚(在全美国总人口中,同年龄段的已婚男性的比例为83%),但女性却只有65%的人已婚,未婚的比例相当于总人口中同年龄段未婚女性的3倍左右。一个17岁的女孩布朗看到了这篇文章,就认为如果自己去上大学,那她找到男朋友的概率要比不上大学的时候低。

但她没有注意到,尽管这些数据来自康奈尔大学,但这些结论并不是康奈尔大学得出来的。但很多读者都会下意识地认为是康奈尔大学的研究得出了这个结论。所以,当我们看见类似“专家”这样的字眼的时候,一定要确定一下字面信息下隐藏的那个人到底是不是真正的权威人士,问清楚“是谁这么说的”。

2、他怎么知道?

在搞清楚“是谁说的”之后,就要问问自己“他怎么知道”。

这个问题是想问数据的来源,换句话说就是在问样本有没有偏差,得出的结论是不是真实可信。

就拿我们前面讲过的例子来说,当看到《时代》杂志刊登的消息“耶鲁大学1924届毕业生平均年收入高达25111美元”时,就要问:“他怎么知道的?样本有没有偏差?”很明显,这项调查把地址不详的一部分穷人排除出去了,得出的结论也就缺乏真实性。

所以,通过问“他怎么知道”这个问题,就能够知道样本数据是否有偏差,统计数据到底有没有说谎。

3、漏掉了什么?

在看到一组数据的时候,还要问问自己:“这组数据是不是漏了什么?”问这个问题,是因为通常情况下,我们无法得知样本中包含了多少案例,如果不弄清楚,就很可能会陷入数据的谎言里。书中记录了这样一个案例:当约翰·霍普金斯大学开始招收女性学生的时候,有个特别反对男女同校的人报道了一则消息,消息称:约翰·霍普金斯大学里33%的女生嫁给了这个学校的男老师!

这个数据让人大吃一惊,在当时也引起了很大的轰动,最后还是原始数据还原了事实的真相,原来,当年只有3名女生入学,这三名女生中的一个嫁给了大学老师,别有用心的人就借题发挥,说“有33%的女生嫁给了男老师”。所以说,当我们看到一个数据中只有百分数的时候,一定要习惯性地问问自己,这个数据是不是漏掉了什么?

4、有人偷换了概念?

在分析一份统计数据时,要注意在原始数据和最终结论之间有没有什么地方被偷换了概念。在统计学上,把一件事说成是另一件事是经常发生的。1952年,加利福尼亚州中部山谷地带上报的脑炎病患者数是之前历史最高水平的3倍。很多居民受到惊吓,都把自己的孩子往外地送。

但是真正计算起来却发现,当地因为脑炎而死亡的人数并没有增加。这是为什么呢?其实,这是因为当时为了解决这个地区长期以来缺医少药的问题,联邦州政府动员了大量医务人员来到这里进行义诊,在他们的努力下,很多之前没有被识别出来的轻微病例也被记录在案。那份报道中就偷换了概念,上报的病例多并不意味着患病的人数多。

所以,在看到数据的时候,要善于问问自己:“有没有偷换概念?”

5、这是否合乎情理?

如果你看到一份资料是以一个未经证实的假设为基础的,你就要问问“这是否合乎情理”?这个问题能暴露一些资料的底细。

书中列举了一位著名的泌尿科医生做的计算:全美有800万人患前列腺癌,这意味着每个男性到了易患癌症的年纪都有1.1次患前列腺癌的可能。还有一个例子是一位神经科医生估计,每12个美国人当中就有1个人患有偏头痛;而慢性头痛患者中,偏头痛患者占1/3,这就是说,有1/4的美国人遭受着头痛病的折磨。看到这些惊人的数据的时候,你就要问一句“这是否合情合理?”只要看看身边的人,就会发现,不可能每四个人里就有一个人受头痛的折磨,但如果没有问“是否合情合理”这个问题,你很可能就会掉进数据的谎言里了。

总结

以上就是《统计数据会说谎》这本书的主要内容。这本书是美国统计专家达莱尔·哈夫的传世之作,书中“编造虚假信息”的话题受到了美国社会持续的关注,同时还引发了美国权威媒体激烈的争论。这本书最大的价值,不是让我们意识到数据是会说谎的,而是希望我们能够通过问自己五个问题来识别出数据的谎言。

数据的可怕之处就在于它总是戴着“客观”的面具来得出主观的结论,就像书中所说:“统计学家总能从包中掏出任何他想要的东西,无论什么时候我们都不能怪他们不说实话,这就是利用统计学撒谎的奥妙所在。”

恭喜你和“今今乐道”读书会一起读完了你生命中的第 2278 本书,希望今天的内容能给你有益的启发。(编辑:马霈)

相关书籍:

《图说区块链》|学习区块链是什么?你必须知道:区块链≠虚拟货币、区块链≠挖矿机、区块链≠拉人头!

《区块链:技术驱动金融》|如何正确理解区块链。

《加密货币》|读懂另外一种形式的货币战争。

《数字黄金》|比特币的兴衰史给我们的启示。

《乌合之众:大众心理研究》|想做他们的领袖之前先要懂他们。

《决策与判断》|了解人类每个决策背后的心理状态。

《无偿》|“影子工作”是大数据时代的产物,即日常生活中需要我们完成的所有无报酬劳动。

上次推送:

《创造日本》|探索日本模式蕴含的黑暗力量,提供借镜历史、思索未来的独到视角。

《日本之镜》|如何大量地吸收、模仿外来文化并创造出属于自己的特色?

《活着回来的男人》|一个普通日本兵的二战及战后生命史。

【小说】《肖申克的救赎》|强者自救,圣者渡人。

【行走日本系列】《建筑家安藤忠雄》|一个大阪建筑家的逆袭人生。

【形象管理】和马云、柳传志、雷军学形象管理意识。

《史记·货殖列传》|中国最早的商学院院长白圭。


今天同时推送:


《艾伦·图灵传》|如谜的解谜者。(录音中提到了两个同性恋,即使性取向异于常人也能忍辱负重,建功立业?

《吴阶平传》|两个造福全人类的颠覆性判断。

【行走日本系列】《燃烧吧!剑》(上)|捍卫最后的武士精神。

《兴趣变现》作者孙庆磊:打造“有趣”的个人IP。6/8


明天推送:

《设计冲刺》(上、中、下):如何以最快的速度,做出最优的产品调整方案。并取得一定的成绩。


听着听着,也许就明白了。

(语音、文字、图片部分来自今今乐道APP和网络,老农整理)


继续滑动看下一个
品卷一族
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存