城读│学习21世纪统计思维
211
学习21世纪统计思维
“有一天,统计思维会像读写一样成为公民的必须能力(H.G. Wells)”。
Russell A. Poldrack. Statistical Thinking for the 21st Century (Draft: 2018-11-29)
Source: http://statsthinking21.org
斯坦福大学心理学、神经系统科学家Russell A. Poldrack给大学生开统计学课程,希望教授学生统计学新理论和新方法,特别是21世纪实际统计实践中所使用的方法。正如《计算机时代的统计推理:算法、证据与数据科学》一书中所说,这些方法利用利用当今日益增长的计算能力来解决统计问题,其方式远远超出了心理学学生在本科统计学课程中通常教授的标准方法。
第一次上这门课时,Russell A. Poldrack使用Andy Field的《统计学之旅》 (An Adventure in Statistics)作为教材。这本书有很多优点,特别是围绕模型构建来构建统计实践,并且对待零假设检验非常谨慎。但不幸大部分学生不喜欢,主要因为它需要跋涉大量故事之后才能获得统计知识。此外本书没有包括来自人工智能,亦即机器学习的内容。所以Russell A. Poldrack围绕上课内容写成讲义,最终形成这本《21世纪统计思维》。本书大纲与Field的书大致相同,但内容大相径庭。
《21世纪统计思维》教学生使用R语言分析数据。《21世纪统计思维》不是传统教材(貌似还没有正式出版),而是开源教材,全文挂在网站上,所有代码在Github可得 (https://github.com/poldrack/psych10-book),若有纠错或建议,也可在Github提交issue。
什么是统计思维?
统计思维是理解复杂世界的一种方式,通过相对简单但却捕捉其基本结构的术语来描述世界,并且估算我们对于知识的不确定性。统计思维的基础主要源自数学和统计学,但也受到计算机科学、心理学和其他学科的影响。
我们可以比较统计思维与其他不太精确描述世界的思维方式的不同。特别是人的直觉同样试图回答我们可以运用统计思维来回答的问题,但经常搞错答案。例如,根据PEW调查报告,近年来大多数美国人认为暴力犯罪比上一年严重。然而,基于实际犯罪数据的统计分析表明,暴力犯罪率自1990年代起持续下降。直觉之所以搞错,因为我们依赖最佳猜测(统计学家称之为启发法<heuristics>)。例如,人们经常使用可得性启发法(availability heuristic),即根据我们能够想到的暴力犯罪案例的容易程度,来推测某些事件(暴力犯罪)的发生率。因此我们对暴力犯罪率上升的判断可能只是反映了新闻对暴力犯罪的报道增多,罔顾实际犯罪率下降的事实。统计思维为我们提供更准确理解世界,避免人类直觉的易错性。
统计学有什么用?
统计学有三大用处:
第一, 描述。世界是复杂的,我们需要用一种我们能够理解的简单的方式来描述它。
第二, 决策。我们经常要在不确定性情况下,基于数据做出决策。
第三, 预测。我们希望基于对过去的知识,对新情况做出预测。
统计学的关键概念
有几个基本的概念贯穿统计思维全部。史蒂芬·斯蒂格勒(Stephen Stigler)在《统计学七支柱》中详细阐发:聚合、信息、似然、相互比较、回归、设计和残差。此处参考他的观点,阐述四个关键概念。
1 从数据中学习
可以把统计学视为一组使我们能够从数据中学习的工具。在任何情况下,我们可以从一组看法或假设出发,然后检验是否的确如此。统计学提供了一种新的方式,从而最好地使用新数据来更新我们的观念。在这一点上,统计学与心理学之间有着深刻的联系。事实上,心理学关于人类与动物学习的许多理论与机器学习这一新兴领域的理念密切联系。
机器学习是统计学和计算机科学的交叉领域,它关注如何构建可以从经验中学习的计算机算法。虽然统计学和机器学习经常试图解决同样的问题,但这两个领域的研究者往往采用非常不同的方法;著名的统计学家 Leo Breiman曾称为“两种文化”,以反映他们的方法有多不同。本书将尝试将两种文化融合在一起,因为这两种方法都为思考数据提供有用工具。
2 聚合
另一种思考统计学的方式是“扔掉数据的科学”。这种聚合正是统计学最重要的概念之一。当聚合第一次提出时,影响是革命性的:如果我们抛开每一个参与者的所有细节,那我们如何确保没有遗漏重要的事情?
统计学为我们提供了表征数据聚合结构的方法,并有理论基础解释为什么这种方法效果良好。但是聚合也可能会过度,书中我们将会举例说明:总结可能会对所分析的数据提供误导性的描述。
3 不确定性
世界是一个充满不确定的地方。我们现在知道吸烟导致肺癌,但这种因果关系是概率性的:过去50年里,一个68岁的男子每天抽两包烟,并且还将继续抽,他患肺癌的风险为15 % ( 7人中有1人),远远高于不吸烟者患肺癌的风险。然而,这也意味着有许多人终生吸烟,却从未罹患肺癌。统计学为我们提供了表征不确定性的工具,在不确定性下做决策,并做出能够量化不确定性的预测。
新闻报道经常写科学研究人员已经“证明”了某些假设,但是统计分析永远不能像在数学证明中证明某某为真那样去“证明”一个假设。统计学可以提供证据,但它总是推测的,并且受制于真实世界中总是存在的不确定性。
4 抽样
聚合的概念意味着我们可以通过概括数据来获得有用洞见——但是我们到底需要多少数据呢?抽样意味着,只要这些样本是以正确的方式进行,我们就可以根据人口中的少量样本来推断整个人口。研究样本的抽样方式至关重要,它决定了我们可以在多大程度上概括研究结果。统计学关于抽样的另一个基本观点是,虽然样本越大越好(就其准确代表全体的能力而言),但是样本的增大,其好处不断减少。事实上,更大样本带来的好处降低的速率遵循一个简单的数学规则:依照样本大小的平方根增长。
城读相关阅读:
23.城读│怎样用地图撒谎?
35.城读│统计数据会跳舞
117.城读│纪念汉斯·罗斯林(Hans Rosling):用跳舞的统计数据教我们认识世界
127.城读│人人都会撒谎!互联网大数据: 诊断人性的“豪斯医生”
144.城读│人人都能学好数理化(即使你自认没有数理化天分考试总是不及格),如果你学会如何学习
148.城读│《核心经济》开放课程用全新方式教你理解真实的世界
159.城读│新时代祖国花朵的成长状况如何?来自2015年1%人口抽样调查的证据
165.城读│幂律:隐藏在细胞、生物、城市、公司等复杂系统背后的简单规律
171.城读│来,一起上哈佛大学经济学教授爱德华·格莱泽的城市课CitiesX
176.城读│萨尔曼·可汗重新想象教育:任何人、任何地方都可以享受免费的世界级教育
(点击文章标题,或进入公众号回复标题前的数字获取文章 )
城读 ∣城市阅读的记录
微信公共订阅账号“城读”,每周推送城市阅读笔记
关注我们,请搜索账号 CityReads
或长按上方图片,识别二维码关注