查看原文
其他

城读│统计数据会跳舞

2015-07-17 Rosling 城读
35
统计数据会跳舞

瑞典卡罗琳学院的国际卫生学教授Hans Rosling能让数据跳舞,在数据泛滥的今天,统计学帮助我们更好地理解世界和宇宙。



BBC documentary: The Joy of Stats, 2010

Source: http://www.gapminder.org/videos/the-joy-of-stats/



我们生活在处处充斥着数据的年代。数据本身充满噪音和困惑。为了理解数据,我们必须找出其中的含义,需要借助一门强大的学科——统计学。


统计学并不枯燥,尤其在如今可以让数据唱歌的年代。在大数据时代,统计学帮助我们更好地理解世界和宇宙。


但大多数人对这个世界的了解仍然非常有限,你比你想象的要无知得多。


瑞典卡罗琳学院的国际卫生学教授Hans Rosling创建的Gapminder基金会,其宗旨为消除无知,建立人人能理解的基于事实的世界观。


Gapminder基金会发起“无知项目(Ignorance Project)”,测试公众对全球模式和宏观发展趋势的基本认知。采用问卷形式,调查代表性人群对全球发展关键问题的知识。


以下从中挑出几道题目,不妨测试下自己到底有多无知,答案参见文末。Hans Rosling对瑞典大学生和大学教授测试结果表明,答对率甚至不如大猩猩。


1

“无知检测题”


1.全球人口的人均预期寿命多长?

A.50岁

B. 60岁

C. 70岁


2. 每年死于自然灾害的人数,在过去一个世纪发生了怎样的变化?

A. 增加一倍以上

B. 基本保持相同水平

C. 减少了一半


3.世界30岁女性人口中,受教育的平均年限为?

A. 7年

B. 5年

C. 3年


4. 过去20年,世界生活在极端贫困中人口的比例发生什么变化?

A. 几乎翻一倍

B. 几乎不变

C. 减少一半


5. 在以下5对国家里,哪一个国家的儿童死亡率更高?

斯里兰卡还是土耳其

波兰还是韩国

马来西亚还是俄罗斯

巴基斯坦还是越南

泰国还是南非




统计学的起源


今天,统计学(Statistics)对于监督政府和社会必不可少。不过,最早统计学是政府为了监控人口,自上而下进行的统计数据收集。”Statistics”一词源自“国家(state)”。统计学又被称为政治数学。


现代统计学始于两百年前。猜猜哪个国家最早进行现代统计?


中国有孔子,意大利有达芬奇,英国有莎士比亚,而瑞典……有最早的人口普查(Tabellverket),第一次系统地收集统计数据。1749年,瑞典开始记录每一个教区出生、死亡和结婚人数。史上第一次政府能够掌握人民的准确信息。


瑞典一直是北欧最强大的军事力量,但到1749年,瑞典国力开始衰退,其他国家日渐强大。人口普查之前,瑞典政府一直以为自己统治着两千万人口之巨,足以与英法抗衡。第一次人口普查分析发现,瑞典只有区区两百万人口。瑞典不但在衰落,而且是个不折不扣的小国。政府吓坏了,如果敌国(挪威?)发现真相怎么办?


这次人口普查还揭示了许多妇女死于生育,许多孩子早夭的事实。于是政府采取行动,改善人民健康,是为现代瑞典的开端。


直到50年后,奥地利、比利时、丹麦、荷兰、法国、德国、意大利,最后是英国,才开始收集数据,进行统计分析。




瑞典的人口普查表格


统计学家轶事:纠正诗人错误的统计学家


英国维多利亚时代的大数学家和发明家查尔斯·巴贝奇(Charles Babbage)是英国皇家统计学协会的创始人之一。




1842年,他读了伟大维多利亚时代的伟大诗人阿尔弗雷德·丁尼生(Alfred Tennyson)最新诗作《罪恶的幻觉》(Vision of Sin):


“每一瞬间,一人去世(Every moment dies a man),

每一瞬间,一人降生(Every moment one is born)。”




作为一名追求精确的统计学家,巴贝奇无法控制自己,立刻给丁尼生写信,解释由于出生率比死亡率稍高,诗句应该改为:


“每一瞬间,一人去世(Every moment dies a man),

每一瞬间,一又十六分之一的人降生(And one and a sixteenth is born)。”


统计学家轶事:南丁格尔的玫瑰图


很多人知道弗罗伦斯·南丁格尔是“提灯天使”,但鲜有人知道她还是一位激情洋溢的统计学家。她曾说:“为了理解上帝的旨意,我们必须学习统计学,这是测量上帝旨意的方式。”于她而言,统计学既是宗教责任,也是道德驱使。


南丁格尔9岁就开始收集数据,她把自己找到的不同水果和蔬菜记录到不同的表格里,用标准形式进行组织。这是南丁格尔9岁时制作的第一张统计表格。





1850年代中期,南丁格尔参加克里米亚战争,照料英国受伤士兵。她震惊于自己的发现,因感染死于战地医院的士兵远远超过死在战场的士兵。于是,她开始系统收集死亡数据,整整两年时间,详尽记录一切细节。


奠定南丁格尔在统计学历史地位的是她使用的图表,尤其是极坐标圆饼图,又称为南丁格尔玫瑰图。该图展示了战争期间每个月,蓝色、红色和黑色楔形分别代表死于可预防疾病的士兵人数、死于战斗外伤的士兵人数和死于意外事故和其他原因的士兵人数。南丁格尔的图如此清晰有力,传达的信息无法忽视。




150年后的今天,南丁格尔的玫瑰图已经成为经典,引发世界范围医院医疗卫生革命,拯救了无数生命。


统计学如何理解这个世界

数据本身不能告诉你任何事,你必须分析数据,这正是统计学之本。


借助统计,我们开始认识到事情的本来面目。


通过平均数、数据分布和可视化,统计学可以清晰描述这个世界。借助相关分析,还可以分析为什么发生。


相关分析可能相当棘手。我有个虚假相关的笑话:


某个美国人非常担心心脏病发作,他发现日本人低脂饮食,少喝酒,日本人心脏病发作比例远远低于美国人;但是他又发现法国人饮食脂肪摄入毫不亚于美国人,还喝很多酒,可法国人心脏病发作比例照样远低于美国人。于是他下结论,说英语是导致美国人心脏病高发的原因。


相关分析的里程碑当属1950年代发现抽烟与肺癌之间的关系。





二战后,英国医生理查德·道尔(Richard Doll)调查了20所伦敦医院的肺癌病人,他发现这些病人的共同点就是抽烟,他深信抽烟与肺癌之间的关系,自己赶紧戒了烟。但别人不买账,纷纷提出其他可能因素,例如基因、空气污染、还有贫困。


为了检验抽烟与肺癌的相关关系确实具有因果效应,道尔对抽烟进行了最大规模的统计研究。他跟踪4万名英国医生的生活史,有的医生抽烟,有的不抽,他收集了足够多的数据,分析医生抽烟的量与罹患肺癌可能性之间的相关性,最后他不但证明了吸烟与罹患肺癌之间的相关性,还证明了戒烟与降低罹患肺癌之间的相关性。


这确实是科学最佳表现的时刻。


Hans Rosling用4分钟,展示200个国家的200年


Hans Rosling让统计数据跳起舞来,使复杂的事实和统计变得像音乐般悦耳。


Rosling利用自己开发的可视化软件呈现统计数据,数据源自可靠的统计(联合国是主要来源之一)。动态的可视化把多年的数据表现为移动的气泡和流动的曲线,全球健康和经济发展趋势仿佛有了生命,全球发展的大图景逐渐聚焦,清晰可见。




《乐在其中统计学》(The Joy of Stats)全片最精彩部分莫过于Hans Rosling的移动气泡图——把世界各国人均寿命与人均收入的数据(涉及12万个数据),投影到空中触摸屏,用4分钟展示200个国家的200年,讲述世界各国如何从贫困短寿的左下方角落向富裕长寿的右上方流动。



http://v.qq.com/iframe/player.html?vid=u0116ilzaus&width=500&height=375&auto=0

(视频在此↑该视频字幕有些问题,由于微信只允许嵌入腾讯视频,需看完整的请点击本页面左下角“阅读原文”)





附录:无知检测题答案

1.C.70岁

2. C. 减少了一半

3. A. 7年

4. C. 减少了一半

5. 土耳其;波兰;俄罗斯;巴基斯坦;南非。





关注我们!
微信公共订阅账号“城读”,每周推送城市阅读笔记。关注我们,请搜索账号 CityReads,或扫描下方的二维码:
微信号:CityReads


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存