查看原文
其他

城读│真相还是伪真相?如何像一个数据科学家那样思考

Wainer, Howard 城读 2022-07-13

317


真相还是伪真相?如何像一个数据科学家那样思考


十亿人中的冠军几乎肯定会比百万人中的冠军要好。

Wainer, Howard. 2015. Truth or truthiness: Distinguishing fact from fiction by learning to think like a data scientist. New York: Cambridge University Press.


假想你中了彩票,你可以在如下两个奖项中选择一个。
 
1.每天给你一万块钱,持续一个月。或者,
2.第一天给你1分钱,第二天2分钱,第三天4分钱,以后每天继续翻倍,持续一个月。
 
你会选哪个?
 
粗略计算可知,十天后选项(1)已经达到10万收益,而选项(2)只有10.23。选择似乎不言而喻,但如果继续下去,二十天后选项(1)已经上升到20万,而选项(2)的收益只有10,485.75美元。在这个月的剩余时间里,乌龟选项(2)的表现有可能超过兔子选项(1)吗?
 
在不知不觉间,二十天之后,选项(2)的指数增长势头变得不可阻挡,第21天为21,971,第22天为41,943元……第25天,尽管线性的选项(1)已经达到值得称道的 25万,选项(2)已然超过选项(1),达到335,544美元,正昂首冲向向月底的终点线。
 
如果这个月是一个非闰年的2月,选项(2)将产生以下收益:2,684,354,几乎是选项(1)总额的十倍。但是,如果这个月闰年的2月,多出一天,数额就会翻倍达到5,368,709。并且,如果你有幸选择的月份持续31天,那么每天翻倍的一分钱将累积达到21,474,836.47;几乎是每天1万元总额的七十倍。
 
综上,我们可以发现,选择哪个奖项的决定产生的结果相差甚为悬殊。虽然看起来选项(2)是当仁不让的选择,然而我们中有多少人能预见到这一结果呢?
 
复利会产生指数级增长,所以理财师强调尽早开始为退休储蓄的重要性。然而人类直觉却很难理解复利所带来的指数增长结果。为了帮助人类自觉理解这一现象,提出了各种经验法则。其中最知名、最古老的莫过于“七十二法则”,由意大利数学家卢卡・帕乔利于1494年提出。
 
简而言之,七十二法则可以简单近似地估算在任何给定的复利之下,你的钱需要多长时间可以翻倍。翻倍时间可通过计算72与利率的商得出。因此,在6%的复利下,你的钱将在12年内翻倍,在9%的复利下,你的钱将在8年内翻倍,依此类推。你很容易心算得到这个估计值,而其准确性着实令人惊讶。
 


在金融之外,许多其他领域都会出现指数级增长。例如,当我还在读研究生时,了不起的约翰・图基曾告诫我,如果我想在事业上取得成功,就必须比竞争对手更加努力,但是 “不必努力太多,因为只要你比别人多努力10%,在短短七年内,你就会比别人懂得多一倍”。如此说来,似乎每天只需多花四十八分钟,就能获得巨大红利。 


通过拓宽“七十二法则”应用的广度,我们会发现它可以帮我们认清许多事实。例如,我最近参加了高中同学五十周年聚会,我对同学们的状态略感失望。但是,当我意识到那些让自己体重以每年1.44%微弱速度增加的人,在五十周年同学聚会上,他们的体重就会比当年同学录照片上重一倍。
 
再如,一种文化想要主宰所有其他文化,一个可行的办法是让它的人口增长比竞争对手快。但是不必快很多;只要增长率只比竞争对手略高6%,它的人口就会在短短十二年内翻一番。诚如马克・吐温1883年所言,我们最喜欢科学的地方在于,“一个人可以从如此微不足道的事实投资中,得到如此大量科学猜测的回报”。
 
再讲一个一英里跑世界记录的故事。为什么打破一英里跑世界纪录的时间间隔越来越短?
 
过去一百年,一英里跑的世界纪录几乎以每年十分之四秒的速度稳步提高。20世纪开始时,一英里跑的世界纪录是4分13秒。要将近五十年之后,英国的罗杰・班尼斯特首次跑进4分之内。班尼斯特跑完不支累倒在地。仅仅十余年后,他的纪录就被美国一位高中生跑者打破了。至20世纪末,摩洛哥人希查姆・艾尔・奎罗伊(Hicham El Guerrouj)以3分43秒创造新的世界纪录。
 

 首位破四的罗杰・班尼斯特
 

3:43.13,Hicham El Guerrouj,1999
 
到底发生了什么?人类的跑步能力为何会在这么短的时间之内有如此之大的提高?人类奔跑的历史非常久远,远古时期,人类快速奔跑的能力对于生存的重要性远远超过今天。寻找答案的线索,藏于纪录保持者的名字之中。在本世纪初,一英里跑的世界记录由斯堪的纳维亚人保持:帕沃・努尔米(Paavo Nurmi)、冈德・哈格(Gunder Haag)和阿恩・安德森(Arne Andersson)。然后在20世纪中期,英国选手占据上风:罗杰・班尼斯特,约翰・兰蒂,赫布・埃利奥特,彼得・斯内尔,以及史蒂夫・奥维特和塞巴斯蒂安・科。到了21世纪,非洲选手异军突起,先是菲尔伯特・巴伊(Filbert Bayi),然后是努丁尔・莫塞利(Noureddine Morceli)和希查姆・艾尔・奎罗伊。随着精英赛包含来源越来越广泛的选手,完赛时间不断缩短。
 
在千人比赛中获胜的跑者,很可能不及在百万人比赛中获胜的跑者跑得快。基于这个想法,斯科特・贝里(Scott Berry)在2002年提出并检验了一个简单的统计模型。它假设人类的跑步能力在过去一百年里没有改变。即在1900年和2000年,人类跑步能力的分布完美地呈现为一条平均数和差异性都相同的正态曲线。唯一改变的是有多少人生活在这条曲线之下。因此,1900年,世界上最好的一英里跑步冠军(据我们所知)乃是从十亿人中脱颖而出的优胜者;2000年,一英里跑步冠军则是从六十亿人中脱颖而出的优胜者。事实证明,这个简单的模型可以准确地描述所有具有客观标准的田径比赛成绩的提高。十亿人中的冠军几乎肯定会比百万人中的冠军要好。同样道理可以解释为什么音乐神童似乎越来越多,越来越厉害。
 
如果你觉得这两个数据分析的故事非常富有启发性,那么你会喜欢统计学家霍华德・韦纳《真相还是伪真相:学习如何像数据科学家那样思考,区分虚假与事实》这本书。数据科学是一个相对较新的名词,由丹麦科学家彼得・诺尔(Peter Naur)于1960年提出。数据科学是从数据中提取一般性知识的研究。数据科学的核心是科学,科学方法强调可观察和可复制,这是其灵魂所在。
 
《真相还是伪真相》分为三个部分:像数据科学家一样思考,像数据科学家一样交流,以及将数据科学工具应用于分析教育。虽然本书未必会让你成为数据科学家,但它会鼓励你更加关注某个陈述背后的证据,质疑其真实性。当看到某种说法时,我们应该问的第一个问题是“人们是如何知道这一点的?”如果答案并不明显,我们必须询问提出这个说法的人,“你有什么证据来支持它”。本书提供数据科学家思考的一般性工具,并辅以大量有意思的现实案例。每一章都在讲解数据科学家的思考方式,如何应对那些看起来非常具有挑战性的问题。贯穿全书的中心论点是,要关注证据及其在科学中的作用。包括提出明确假设,找到坚实的证据来检验这些假设,并且确保可重复性。全书分析复杂现实问题的步骤可以归纳为三步:(1)严谨收集的数据,结合(2)清晰的思考和(3) 用图表展示前两个步骤产生的结果。

城读相关阅读:

6.城读│城市生活本质上是一个巨大的数学问题

23.城读│怎样用地图撒谎

31.城读│慢跑是怎样成为一种习惯的?

35.城读 | 统计数据会跳舞
54.城读│《增长的极限》:三十年来对与错107.城读│我最喜欢的跑步书《雨中的3分58秒》117.城读 | 纪念汉斯·罗斯林(Hans Rosling):用跳舞的统计数据教我们认识世界124.城读 │长跑与马拉松怎样成为了日本的国民运动?127.城读│人人都会撒谎!互联网大数据: 诊断人性的“豪斯医生”
144.城读│人人都能学好数理化(即使你自认没有数理化天分考试总是不及格),如果你学会如何学习148.城读│《核心经济》开放课程用全新方式教你理解真实的世界165.城读│幂律:隐藏在细胞、生物、城市、公司等复杂系统背后的简单规律169.城读 | 如果全世界的家庭按收入排列,都住在一条街上170.城读│超越GDP:用社会进步指数来测量发展水平175.城读│统计学习最好的入门书(可免费下载)204.城读│关于全球收入与财富不平等,你想知道的都在这211.城读│学习21世纪统计思维213.城读│当文学遇到统计学:用数字揭示写作中隐藏的秘密

235.城读│怎样识别统计图表的谎言?

236.城读│哈佛大学经济学新课程《用大数据解决社会和经济问题》(可免费下载)

237.城读│汉斯·罗斯林临终遗作:消除无知、注重事实、理解世界的十个原则

252.城读│剑桥大学统计学大卫·斯皮格豪特教授教你如何提高数据素养

262.城读│为什么肯尼亚卡伦津人是世界上最好的长跑者?

264.城读│曼纽尔·利马教你世间复杂万象皆能可视化

(点击文章标题,或进入公众号回复标题前的数字获取文章 )

城读 城市阅读的记录

 

微信公共订阅账号“城读”,每周推送城市阅读笔记

关注我们,请搜索账号 CityReads

或长按上方图片,识别二维码关注

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存