正态分布到底是怎么来的?| 协和八
回复「统计学」可查看「说人话的统计学」系列合辑
✪
在上一集《算术平均数:简单背后有乾坤》(如果你错过了这一集,或者已经忘记了我们讲了啥,强烈建议你戳这里稍作回顾)中,我们问了这么一个问题:
多少年来人们最熟悉、最常用、最符合直觉的算术平均数,它到底好在哪里?
为了回答这个问题,我们引入了随机误差的概念,并且介绍了频率主义统计学中一种重要的方法——极大似然估计。
那么,算术平均数是不是对真值的极大似然估计呢?
要证明这一点,我们需要了解随机误差在概率上的分布是怎样的(也就是说,它的概率密度函数是什么)——这恰恰是两三百年前引无数英雄竞折腰的问题。而高斯在这里头做了一件事,他证明了如下结论:
如果算术平均数是对真值的极大似然估计,那么随机误差的分布就只可能是我们现在熟知的正态分布(也称高斯分布):
正如我们在上一集的末尾指出的那样,高斯的这个证明有点儿蛋生鸡鸡生蛋的意思,到底有没有意义,取决于“算术平均数是对真值的最大似然估计”这个假设到底对不对,高斯本人当时并不知道,我们说过,他是靠猜的。
而接下来的剧情估计你也想得到
——他猜对了。
今天,我们就来捋一捋正态分布究竟是怎么来的。
>>> 拉普拉斯与高斯的殊途同归
让我们回到1809年。
这一年,高斯发表了我们上面提到的这个证明。不久以后,同时代的法国大数学家拉普拉斯读到了高斯的论文。他当时也掺和到了寻找随机误差的分布性质的热潮之中,可是一直以来都没有得到像样的进展。此时,他惊讶地发现,高斯推出的概率密度函数
很面熟!
这个概率密度函数在拉普拉斯自己的研究中曾经出现过,然而奇怪的是,拉普拉斯是在一个听起来似乎与随机误差风马牛不相及的问题中搞出这个概率密度函数的。
拉普拉斯之前是在研究什么问题呢?
我们来设想以下情形:如果有一枚钢镚儿,它抛出正面的概率是 p(p可以是0到1之间的任何数),如果我们把这枚钢镚儿连续抛n次,那么我们得到0, 1, 2, …, n个正面的概率分别是多少?
这个问题本质上是个二项分布(binomial distribution)的问题,大家也许还记得,在高中那会儿学习排列组合的时候就遇到过,有现成的公式可以算抛出m个正面的概率:
m = 1, 2, ... , n
这个公式不难理解,其中
是n选m的组合数,也就是抛n次钢镚儿中具体哪m次出现了正面(剩下的n-m次自然就是反面)有多少种不同的可能,而
则是m次正面和n-m次反面的概率的乘积。下图就是当正面概率p分别为0.1, 0.25, 0.5, 0.75时,抛18次钢镚儿得到0到18次正面的概率。
(图片来源:http://www.statsref.com/HTML/index.html?binomial.html)
然而,当n变得越来越大时,组合数
(图片来源:http://www.statsref.com/HTML/index.html?binomial.html)
图中蓝色的柱形图依然是按二项分布的公式算出的从0到18次正面的精确概率,而红色的曲线则是拉普拉斯用于近似计算的分布。可以看到,哪怕像n=18这样n并没有很大的情形,这个近似都已经非常好了。上面只画出了p=0.5的情况,而p取其它数值的时候情况也是类似的。
实际上,在理论上可以证明,当n趋向无穷大时,红色的这个分布就完完全全是二项分布的概率(另一位数学家棣莫弗对此发现也有重要贡献,因而这个结论称为棣莫弗-拉普拉斯中心极限定理,De Moivre-Laplace Central LimitTheorem)。
拉普拉斯找出的这个分布是什么呢?出于一些理论上的考虑,我们需要先对抛出正面的次数X作个简单的变换:
这个变换没什么复杂的道道,因为n和p都是确定的数,把X减去np(一个常数)后再除以
经过这个变化之后,Z的概率密度函数长这个样子:
如果我们把这个函数和之前高斯的那个概率密度函数
对照一下,不难发现,它们其实是同一类分布——只需要把σ2换成1,我们就会得到拉普拉斯用来近似二项分布的那个概率密度函数了。
可是可是,这里的抛钢镚儿和高斯那边在研究的随机误差听起来好像八竿子打不着啊?两边都弄出来同一个概率分布,天底下有这么巧的事情吗?
>>> 随机误差与中心极限定理
拉普拉斯敏锐地意识到,这很可能不是一种巧合。
为了理解拉普拉斯是如何把两者联系起来的,让我们来回头再看一看棣莫弗-拉普拉斯中心极限定理。
如果我们把第i次掷钢镚儿的结果记为Xi,如果得到正面则Xi =1,反面则Xi =0。因此,Xi 这个随机变量的分布很简单,它取1的概率是p,取0的概率是1-p(如下图)。
(图片来源:https://universe-review.ca/R15-30-stat.htm)
此时,抛n次钢镚儿后得到正面的次数就是每次结果之和:
于是棣莫弗-拉普拉斯中心极限定理说了些啥呢?如果我们有n个独立的、分布相同的以概率p取1、以概率1-p取0的随机变量,如果n足够大,它们加起来的和稍作变换之后就会服从正态分布。一个很不严谨但是更简单的说法就是,一堆足够多的0/1取值的变量加起来会变成一个正态分布。
这和随机误差有什么关系?拉普拉斯想到,虽然我们并不一定知道随机误差究竟是什么引起的,但是如果误差也可以看成许多微小量(拉普拉斯称之为“元误差”)叠加起来的总和,那么根据中心极限定理,随机误差也就该服从正态分布了。
当然,棣莫弗-拉普拉斯中心极限定理针对的只是一种相当特殊的情况,光靠它还不足以充分支持拉普拉斯的论断。但是,拉普拉斯以他的洞察力看到了随机误差服从正态分布的最根本的原因,进而启发和引导了他自己和后来许多数学家、统计学家在中心极限定理上的探索,最终树立了概率论与统计学最雄奇的一座高峰。
如果我们把上面棣莫弗-拉普拉斯的结论看成是中心极限定理的1.0版的话,那么在拉普拉斯的启示下,几代数学家在19、20世纪的百余年间共同努力,迅速将中心极限定理不断升级。这里头涉及到许多数学家的贡献以及相当高深的概率论知识,我们这里无法一一叙述,就只简单说说两项最重要的突破。
中心极限定理2.0版(Lindelberg-Levy中心极限定理):如果我们有n个独立、同分布的随机变量,而且它们的均值和方差都是有限的,那么当n趋于无穷大时,这n个随机变量之和的一个简单变换(类似于之前棣莫弗-拉普拉斯中心极限定理中的变换)服从正态分布。
相比其1.0版,这2.0版迈出了巨大的一步:被叠加的随机变量不再需要是0或1取值离散分布的了。现在, 在一个很宽松的前提(均值和方差有限)下,无论它们本身是怎样形状的分布,当它们被叠加起来时,和都会服从正态分布。
仔细想想这是一个多奇妙的定理!不管你一开始是从一个什么样的概率分布中来的,只要个数足够多,加起来都会被收拢到正态分布那钟形曲线之下!
中心极限定理3.x版:很多时候,即使随机变量
这一下可就更厉害了。之前,我们还要求被叠加的随机变量是独立、同分布的,现在连这个条件都可以不要了。也就是说,哪怕是一堆纷繁复杂、形状各异的随机变量,加起来还是逃不过正态分布的网罗!
(图片来源:http://www.value-at-risk.net/central-limit-theorem/)
到了这里,两三百年来数学家们不断探寻的随机误差的分布终于可以尘埃落定了。由于中心极限定理,自然界中说不清、道不明、看不见、摸不着的种种芜杂都会最终统一到正态分布之中。因而,随机误差服从正态分布也就有了必然性。
如果这么说还有些抽象的话,我们不妨最后来看一个例子。
比如,从人类学的角度出发,我们对人类身高的共同特性感兴趣。由于我们的研究对象是全人类,这就包括了目前存在、以前曾经存在以及将来可能存在的所有人类的集合,这在统计学中称为“总体”。在频率主义统计学的思想中,对于人类这么一个抽象性的概念,其身高会有一个真值,它代表了人类这个物种身高的总体趋势。当然了,我们除了知道这个身高比蚂蚁大、比长颈鹿小以外,并不知道它到底是多少。
而我们遇到的每一个人(包括我们自己),都是人类这个总体吐出的一个“样本”。自然,每个人的身高都是千差万别的,每一个样本与那个未知真值的差,便是这个样本的随机误差。
为什么会有误差呢?我们可以想象千百种缘由:性别、种族、生活在哪个国家、城市还是农村、家庭收入、某些基因的基因型、饮食习惯、体育锻炼的情况……显然,最终的误差是由所有这些不同来源的微小误差叠加起来的,而这些微小误差的分布有些是离散的(比如性别、种族),有些是连续的(比如家庭收入),而且还可能是互相联系的(比如所在国家和饮食习惯)。我们上面提到的中心极限定理3.x版告诉我们,在这样的条件下,最后总的随机误差应该服从正态分布。因此,如果我们随机选取足够多的人测量其身高,频率直方图就会呈现正态分布的钟形曲线。而根据这样的数据,怎样能作出对真值的最好(极大似然的意义下)估计呢?自然是取样本的算术平均数了。
>>> 正态分布为什么重要?
自从「说人话的统计学」系列开播以来,这一集和上一集也许是最抽象、最有不像人话危险的两集了。我也许应该交代一下,为什么花了这么多笔墨来说正态分布呢?
首先,中心极限定理是概率论和统计学最重要的定理(没有之一),而且在许多科学家心目中与牛顿定律、相对论等同样重要、揭示宇宙最基本规律的少数定理之一(希望你读到这里会同意这个说法)。但由于它涉及到一些相对艰深的理论,即便许多概率论或统计学课程都有所提及,但可能还是让人得其形而不解其意。我希望这两集文章能给大家一点更感性的认识,进而更了解为什么正态分布那奇妙的钟形曲线如此无处不在。某种意义上说,也是对这个世界一点点更深的领悟不是吗?
其次,我们接下来要讲到的许多统计学方法——如t检验、方差分析、多元线性回归等——都会对数据的正态性有要求,这也是许多人在使用这些统计学方法时很容易忽略的方面。之所以有这样的要求,其原因归根结底也是我们这一集所讲的内容,清楚了正态分布的来龙去脉,对于这些方法的正态性假设也就很容易理解了。与此同时,我们也会更容易明白,在怎样的情况下数据会违背正态性,以及在正态性假设不能满足时应该怎样处理。
要是这两集没完全看懂怎么办?
没有关系,不妨在未来读到我们后续的文章时,再不时回来重温一下,相信你一定会得到新的领悟,发现新的精彩。
✪
参考文献:
1. 陈希孺. (2002). 数理统计学简史. 湖南教育出版社.
2. 靳志辉:《正态分布的前世今生》http://www.med.mcgill.ca/epidemiology/hanley/bios601/Mean-Quantile/intro-normal-distribution-2.pdf
作者:张之昊
编辑:灯盏细辛