查看原文
其他

城读 │统计学习最好的入门书(可免费下载)

Dan Kopf 城读 2022-07-13

175


统计学习最好的入门书(可免费下载)


无数次下决心好好学习统计学,却没有行动,不如从这本书开始。

Dan Kopf, 2018. These are the best books for learning modern statistics—and they’re all free


Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani, 2017. An Introduction to Statistical Learning with Applications in R, corrected 7th printing. Springer.

Trevor Hastie, Robert Tibshirani, Jerome Friedman,2009. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Second Edition, Springer.

 

Sources: https://qz.com/1206229/this-is-the-best-book-for-learning-modern-statistics-its-free/

http://www-bcf.usc.edu/~gareth/ISL/ 

https://web.stanford.edu/~hastie/ElemStatLearn/


统计学的产生在计算机发明之前,如果二者出现的顺序颠倒,那么学习统计学会很不同。

 

现在大部分人在高中或大学里学习的统计学实际上是在计算机发明之前用笔和纸运算的,统计学为当时的计算技术所限,现在人们依然沿用这些方法,因为这是最初使用的方法,习以为常,很难改变。

 

相信上过统计学导论课程的人对于诸如“正态分布”、“T分布”、“最小二乘回归”这些术语不陌生。我们之所以学习它们,因为这是二十世纪早期最方便的计算工具,但是我们现在不应该再学习这些东西了,至少不是我们首先需要学习的东西。我们有更好的选择。

 

学习现代统计学最好的入门书莫过于《统计学习导论》。如果学完这本,还想继续,那么可以接着学习《统计学习精要》。这两本书由来自斯坦福大学、华盛顿大学和南加州大学统计学教授所写,是如何使用现代技术做统计分析最直观最相关的教材。这两本书都可以免费下载。

 


《统计学习导论》(下载链接:http://www-bcf.usc.edu/~gareth/ISL/)用简洁易懂语言介绍统计学习领域,讲解过去二十多年来用于处理生物、金融、市场营销乃至天地物理学等领域海量复杂数据的基本工具。本书包含最重要的模型、预测技巧和相关应用,线性回归、分类、再抽样方法、决策树方法、支持向量机、聚类等等。本书运用彩图和真实世界案例来讲解统计方法。为了促进学界和业界人士应用这些统计方法,每一章都包含应用分析和方法的R软件包。本书目标读者是非数学专业的高年级本科生和硕博研究生。

 

 

《统计学习导论》两位作者还写了另一本书《统计学习精要》(下载链接:https://web.stanford.edu/~hastie/ElemStatLearn/),该书是最受统计和机器学习研究者欢迎的参考书。尽管两本书涵盖相似的话题,《统计学习导论》面向更一般的入门级读者,《统计学习精要》面向统计学家或希望使用最前沿统计学习技术分析数据的非统计学家。《统计学习精要》读者需要学过线性回归,不过不需要矩阵代数知识。

 


两本书基于“统计学习”概念,即统计与机器学习的混合。机器学习关注把巨量数据喂给算法,以便做出准确预测。统计学也关注预测,但是还关注我们对于某些输入的重要性的信心有多大。统计学习意图撷取机器学习和计算机科学的精华,通过统计学的视角对其进行使用和解释。

 

这两本书的美妙之处在于作者们让“交叉验证”、“逻辑回归”、“支持向量机”等费解的概念变得容易理解,这是因为作者们强调直觉而非数学。与其他统计学家不一样,本书作者们并非数学家出身,因此他们试图通过解释背后隐含的观念,从而直观地解释概念,并且给出真实情景的例子,从而帮助读者理解。

 

例如,《统计学习导论》有一节讲解“自助法(bootstrapping)”,这种统计方法直到计算机时代才出现。自助法是用来判断统计量的精确程度的方法,通过从同样的数据中产生多个子数据库实现。比如说,你从美国成年女性中随机抽样1000人的体重,平均值是59公斤。你对于这一估计值有多大信心?为了回答这个问题,传统统计学需要使用一百年前提出的公式,并且需要满足许多前提假设。今天不需要作这些假设,可以用计算机从1000人的样本中抽取几千种500人的样本(这就是自助法),然后看有多少样本均值接近59公斤。如果大部分都接近,那么你对于这个估计会更有信心。

 

庆幸的是,这两本书不需要多变量微积分或线性代数等高等数学知识,尽管这些知识很重要,但是不需要高等数学也能切实掌握统计学习方法的概念和应用。 

 

并且两本书都提供了可以应用这些工具的R语言软件包。你可以将之应用于分析你感兴趣的数据。如果你喜欢小说,那么你可以用它来分析Goodreads网站读者评价;如果你喜欢篮球,可以用它来分析Basketball Reference网站的篮球比赛统计数据。把精彩绝伦的统计工具与你的个人兴趣或专业结合起来效果更好。数据和统计学日益成为现代生活的重要部分,加深对于解释世界的工具的了解,可以使我们每个人获益匪浅。就算你不想成为一名数据分析师,这两本书可以为你理解和解释世界提供宝贵的指导。


城读相关阅读:

06.城读│城市生活本质上是一个巨大的数学问题

11.城读│为什么发展中国家的巨型城市那么穷?

12.城读│经济学如何研究城市?

23.城读│怎样用地图撒谎?

35.城读│统计数据会跳舞

44.城读│人类如何摆脱贫困?经济学家们的探索

49.城读│1800:人类历史转折点

82.城读│人类生活水平增长的终结?

91.城读│为什么21世纪拉丁美洲收入不平等的下降在变慢?

105.城读│全球化赢家与输家分布的“大象曲线” 

117.城读│纪念汉斯·罗斯林(Hans Rosling):用跳舞的统计数据教我们认识世界

127.城读│人人都会撒谎!互联网大数据: 诊断人性的“豪斯医生”

144.城读│人人都能学好数理化(即使你自认没有数理化天分考试总是不及格),如果你学会如何学习

145.城读│粮食生产与人口增长,孰快孰慢?

148.城读│《核心经济》开放课程用全新方式教你理解真实的世界

159.城读│新时代祖国花朵的成长状况如何?来自2015年1%人口抽样调查的证据

165.城读│幂律:隐藏在细胞、生物、城市、公司等复杂系统背后的简单规律

170.城读│超越GDP:用社会进步指数来测量发展水平
171.城读│来,一起上哈佛大学经济学教授爱德华·格莱泽的城市课CitiesX

(点击文章标题,或进入公众号回复标题前的数字获取文章 )

城读 城市阅读的记录

 

微信公共订阅账号“城读”,每周推送城市阅读笔记

关注我们,请搜索账号 CityReads

或长按上方图片,识别二维码关注



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存