不是正态分布,t 检验还能用吗?| 协和八
读完本文,你将明白:
根据中心极限定理,只要数据量足够大,即使原数据有点偏离正态分布,使用 t 检验也不会有大问题
「频率分布图」和「 q-q 图」是判断数据分布情况的好方法
在上一集《就是要实用!t 检验的七十二变》里,我们追随蓝精灵智斗格格巫的足迹,学习了 t 检验的不同类型。今天我们来原文再续,书接上一回:
蓝精灵们运用了 t 检验的知识,发现格格巫做的包子显著地小于食堂的标准。一起要把格格巫抓起来绳之以法,没想到格格巫却很淡定,气定神闲地说了句:「你们用 t 检验,合适吗?我统计学学得少,你们可不要骗我,我怎么听说,要用 t 检验,数据要符合正态分布呢?」蓝精灵们还得继续加把劲儿,先得证明数据确实是满足 t 检验对正态性的要求。
首先我们可以从 t 检验的原理回顾一下,正态性的要求具体是指什么。
蓝精灵们为了查出格格巫做的包子是不是小于食堂标准,随机抽取了 100 个包子作为样本,通过这一样本来推测包子总体的平均值有没有显著的不同于一个已知的标准值。由于包子大小的随机性,如果重复抽样多次,每次抽样的样本平均值会不一样,并在总体平均值周围浮动,t 检验其实是利用了抽样的样本平均值的分布来计算 p 值的(详情请戳此处回顾《想玩转t检验?你得从这篇看起》)。
在我们推导 t 检验背后原理的时候,其实涉及到了三个概率分布:
1. 总体的分布: 格格巫完成的所有包子的质量的分布
2. 样本的分布: 被随机抽取的 100 个包子的质量的分布
3. 抽样分布:假设样本量为 100 个包子,如果蓝精灵重复多次抽取样本(抽取许多批包子,每批 100 个),不同的样本会产生稍微不一样的平均质量。在假想的情境中,蓝精灵重复抽取无限多的样本,此时它们得到的所有样本的平均质量就会形成一个新的分布。这种样本平均值(或者样本的其他统计量,如标准差等)因为抽样随机性产生的分布,称为抽样分布。
这三个分布里面,只有样本(也就是测量到的 100 个包子质量)的分布是看得见摸得着的。总体的分布我们自然不知道(要是知道了哪里还用得着做统计?),它是我们最终想要了解的对象。
简单来说,如果样本的抽取是完全随机的,总体的分布和样本分布会很接近。而最抽象的就是抽样分布了,因为我们实际操作中,并不可能真的重复抽取无限多的样本(哼,这种要把本宝宝累死的事情我才不干!)。
可是,要进行假设检验,我们恰恰需要了解抽样分布。我知道你耳朵都要听出茧子了,不过我们还是得再回顾一遍 p 值的定义——在原假设为真(格格巫的包子平均质量不小于食堂规定标准)的前提下,观察到与我们的数据(蓝精灵抽取的包子样本平均质量)相同或更极端的数据的概率。
你看,既然这个概率是关于样本平均质量的,那不就应该从抽样分布里算吗?
幸运的是,借助统计学的原理,给定总体的分布,我们就能推算出样本平均值服从的分布,也就是抽样分布。
而且更重要的是,t 检验是否适用,抽样分布是关键——不管样本或者总体符合什么分布,只要抽样分布是正态的,t 检验就是可靠有效的。
可是,我们刚才说了,要算出抽样分布,我们得先知道总体分布。但我们并不知道总体分布是什么呀?
嘿嘿,别忘了我们的终极武器——
中心极限定理!
中心极限定理从理论上面保证了只要样本量足够大,不论数据总体是不是呈正态分布,样本均值的分布(抽样分布)都会近似为正态分布(可回顾《算术平均数:简单背后有乾坤》和《正态分布到底是怎么来的?》)。
在下图中,我们可以看到中心极限定理的威力。在这个例子里,我们先从一个明显不服从正态分布的总体分布出发,然后从这个分布里随机抽样,计算样本平均值。
为了体现样本量对抽样分布的影响,我们考虑样本量分别为 3 和 15 的情形。在这两种情形下,我们分别让计算机抽取 20000 个样本,然后作出这些样本均值的频率直方图(也就是近似的抽样分布)。可以看到,当样本量为 3 时,抽样分布的形状还有明显的不对称;但当样本量为 15 时,抽样分布看起来已经很接近于一个正态分布了。
也就是说,当样本量足够大时,抽样分布的正态性就会比较好,t 检验计算出的 p 值从而比较准确。
那么,多大的样本是足够大呢?
这个问题很难给出一个一刀切的答案。在上图这个例子里,总体分布虽然不对称,但大体趋势相差不远,因而样本量 n 达到 15 左右就已经能使抽样分布具有相当好的正态性了。但是,如果总体分布非常不正态(比如说不连续或者两头大中间小),要使抽样分布接近正态的 n 就要大得多了。
装备上了中心极限定理的蓝精灵们又跑过去找格格巫理论,格格巫显然有点坐不住了,但是他还是要垂死挣扎一下:「别跟俺扯神马中心极限定理,那说的都是样本量很大时候的事儿,你真能证明抽样分布确实是正态的么?」
如果总体本身就是符合正态分布的话,那从这个总体里面随机抽取的样本的平均值就一定是服从正态分布的,而不仅仅是在 n 值较大时近似正态分布。所以蓝精灵们得想出一些办法来考察总体分布的形状,如果总体是服从正态分布的,格格巫就再也无话可说了。
我们说过,总体分布我们无法直接测量。当样本是随机抽取的情况下,总体的分布和样本分布会随着样本量的增加趋于接近(这在统计学上称为大数定律)。于是我们可以用样本(即采集到的数据)分布来近似总体分布。
说到检查数据是否符合正态分布,最简单的武器是《数据到手了,第一件事先干啥?》里面提到的杀手锏:频率直方图。频率直方图的目的是显示数据落在每个取值区间的概率。为了将数据的分布和正态分布做比较,我们需要一个参考正态分布,具有与待测样本相同的均值和方差,然后通过对比这两个分布的形状来判断手上的数据是不是接近正态分布,如下图所示。
(图片来源:http://www.ats.ucla.edu/stat/spss/library/ggraph_examples.htm)
除了频率直方图,另外一个检查分布的有力武器是 q-q 图(有没有觉得这名字好萌?它可不是腾讯公司的植入广告哦),q 代表的是 quantile(分位数)。你忘了分位数是什么?n 分位数是指把数据数先从小到大排列,然后平均分成 n 等分,其分割点对应的 n-1 个数值。举个例子,咱们都学过中位数,它对应的是 2 分位数。在《数据到手了,第一件事先干啥?》我们提到过箱线图,它用到了 4 分位数里除了中位数以外的两个,对应的是把从小到大排列过的数据平均分成四等分,第一个分割点和第三个分割点的数值。
q-q 图是通过比较数据和正态分布的分位数是否相等来判断数据是不是符合正态分布。下面我们请出一帮企鹅小伙伴们来演示一下 q-q 图原理。
有两个班级的企鹅在排队做早操,每个班各有二十只鹅宝宝。企鹅一班的身高是标准的正态分布而企鹅二班的身高分布未知。企鹅二班的班主任很好奇自己班的企鹅宝宝们身高是不是也是正态分布,于是就让每个班的鹅宝宝都按照身高从低到高排队,然后让两队小朋友并排站。这时站在第一排的分别是一班最矮的和二班最矮的同学,依此类推,最后一排的是一班最高的和二班最高的(如下图)。这个画面很熟悉啊有没有?
队形已经摆好,只要把一班的身高作为参考,就能判断二班小朋友的身高是不是也服从正态分布了。
如果同一排的来自不同班级的两只鹅宝宝身高都是一样的话,两个班级的身高必然服从同一分布。如果同一排的二班的鹅宝宝总是比一班的鹅宝宝高出 5 cm,因为加上一个常数并不会改变分布的类型,可以判断二班的鹅宝宝身高还是服从正态分布。类似的,如果二班的鹅宝宝都是旁边一班鹅宝宝身高的 1.5 倍(估计其中一个班是转基因企鹅吧……),二班的身高还是正态分布。由此可以推理出,只要二班的鹅宝宝的身高与站在同一排的一班同学的身高成线性关系,就可以推断两者属于同一分布类型。
聪明的你应该已经想到企鹅排队和分位数的关系了吧?站在同一排的鹅宝宝即属于同一分位数。实际应用中,当我们有 n 个数据点时,我们可以计算机模拟出正态分布对应的 n 分位数(此为第一 q,对应 x 轴坐标);同时,我们将数据从小到大排列,就可以得到数据的 n 分位数(此为第二 q,对应 y 轴坐标)。这样我们就能得到一个 q-q 图啦(如下图)。有了这个图,我们只要看看图上的点是不是在一条直线上面,就知道我们的数据点是不是符合正态分布了。
于是,蓝精灵们画出了样本包子质量分布和正态分布的 q-q 图,格格巫看完了,再也没法反驳了,只能乖乖认错。统计学万岁!(此处应有热烈掌声一分钟)
顺便说一句,q-q 图不仅可以用来判断数据是否符合正态分布,也可以用来判断数据是否符合其它分布,只要用待检测的分布计算出对应的分位数作为 x 轴坐标即可。另外,q-q 图还可以判断两组数据是否来自同一个分布(而不关心这同一个分布究竟是哪一个分布)。此时,我们只要将其中一组数据的分位数作为 x 轴,另外一组数据的分位数作为 y 轴就可以了。
最后,可能有些读者会疑惑,上面给出了两个武器「频率分布图」和「 q-q 图」都只能定性地判断一个分布是不是正态的,有没有什么定量的方法可以判断呢?
在统计学中,确实有一些检验是用来判断数据的分布是不是显著地不同于正态分布,常用的有夏皮罗-威尔克检验(Shapiro-Wilk test)和科尔莫戈罗夫-斯米尔诺夫检验(Kolmogorov-Smirnov test)。和其他检验一样,这两个检验会给出一个 p 值,供我们作推断。这些检验的原假设是数据符合正态分布,当 p 值足够小时拒绝原假设,认为数据不符合正态分布。使用这些检验的时候要注意,当样本足够大时,只要数据稍有一点偏离正态分布,p 值就总能小于 0.05,因而检验的结果总是倾向于显示数据为非正态分布。也就是说,如果我们的样本足够大,即使夏皮罗-威尔克检验或科尔莫戈罗夫-斯米尔诺夫检验给出小于 0.05 的 p 值,数据来自的总体仍可能是服从正态分布的。
当然如果数据量太小,上面的这些方法可能都无法给出可信的关于数据正态性的判断,这时候还需要根据产生测量数据的物理过程,考虑数据是否可能是正态分布。比如说,正态分布必须具有对称性,即大于平均值和小于平均值的概率应该相等。因此,动物的寿命一般不会符合正态分布(想想为什么?)。
最后我们来总结一下,
读完这篇文章你该学到什么?
1)由于中心极限定理,只要数据量比较大(究竟多大算大,取决于原来总体分布的情况),即使原数据有点偏离正态分布,使用 t 检验也不会有大问题;
2)「频率分布图」和「 q-q 图」是判断数据分布情况的好方法;
3)真实世界的数据不可能完完全全地符合正态分布,数据量比较大时,使用统计检验的方法判断正态性倾向于判为非正态;
4)统计既是科学,也是艺术,当大家多理解了其背后科学原理,就可以根据实际情况,艺术地处理数据啦!
注:文中图片未作特别说明者均为作者自绘
回复「统计学」可查看「说人话的统计学」系列合辑,
>>> 干货 <<<
>>> 自检 <<<
>>> 番外篇 <<<
作者:田菊
编辑:灯盏细辛