只有15个标本,也能指望 t 检验吗?| 协和八
从上一集《不是正态分布,t 检验还能用吗?》里,大家应该已经学到了重要的一课:t 检验对于正态性的要求,其实是对于抽样分布(样本均值的概率分布)而言的。
那么总体或者样本的分布是否需要是正态的呢?
由于中心极限定理,只要样本量足够大,即使总体分布或样本分布有些偏离正态分布,抽样分布仍会有较好的正态性,因此使用 t 检验还是没有问题的(戳此处重温上一集)。
聪明的你,一定会发现有一个很重要的问题还没解决:「只要样本量足够大」,
多大才是足够大?
要是没有一个清晰的判断标准,我们在实际的数据分析中还是会无所适从。今天,我们就来简单讨论一下这个问题。
在上一集里头,我们曾经用计算机模拟的方法给大家举过一个例子。从一个已知不太对称(从而也就不正态)的分布里,分别按样本量 n=3 和 n=15 来随机抽取样本。假如我们反复抽取许多个样本量分别为 3 和 15 的样本,算出每个样本的平均值,再画个样本均值的频率直方图,我们就能粗略看到抽样分布的样子。
如果你已经不太记得这个例子了,那么不妨再看一眼当时的插图:
在样本量为 3 时,抽样分布还有明显的不对称,而当样本量增大到 15 时,抽样分布已经和正态分布相去不远了。也许你读过一些其他的统计学教材,有些书上恰恰是这么写的——当样本量为 15 以上时就可以用 t 检验了。
事情有没有这么简单呢?
我们之前说过,由于中心极限定理的存在,无论总体分布是什么,当样本量 n 很大时样本均值的抽样分布会服从正态分布。因为这里有「样本量 n 很大」这个前提条件,理论上来说,抽样分布服从正态分布是当 n 趋近于正无穷时才会发生的事情(用数学术语来说,这是抽样分布的「渐近性质」)。实际上,用不着正无穷那么多,如果我们的样本里有成千上万个数据,正态性几乎就是板上钉钉的。
可是,通常情况下,我们很可能只有几十个、甚至十几个数据点。这时候,用 t 检验靠谱儿吗?
这个问题的答案,取决于我们的抽样分布在从样本量为 1 一路增长到正无穷时,逼近正态分布的速度。
回忆一下高中数学,虽然 1/x 和 1/x2 在 x 趋向无穷时的极限值都是 0,但是后者趋近于 0 的速度要大大快于前者。同样的道理,从不同的总体分布中随机抽取 n 个样本取平均值,当 n 从 1 增长到正无穷时,抽样分布趋近于正态分布的速度也是有快有慢的。
对于我们手头上的数据,n 是既定的,也许是 12,是 30,或者 80。所以,现在我们关心的是,抽样分布从 n=1 到正无穷时趋向正态分布的速度够不够快,是否会在达到我们的样本量 n 时已经足够正态。
那么, 抽样分布趋向正态分布的速度由什么来决定呢?
我们先来想想一个最极端的例子:总体分布本身就是一个正态分布。从下图中可以看到,不论样本量是 3 还是 15,抽样分布都有很好的正态性,只是分布变得越来越瘦了而已(想想看为什么?如果想不起来,不妨回顾《想玩转 t 检验?你得从这一篇看起》)。事实上, 对于总体是正态分布的情况,抽样分布一上来在样本量 n=1 时就是正态的,n 更大时亦然——它一直都在那里,不存在「趋近」的问题。
如果总体不是正态分布,又会怎样呢?
在本集开始时,我们回顾了上一集的一个例子,那正是一个总体不正态的情形。你应该还记得,那个总体分布明显不太对称,但是勉强还是有个中间高、两边低的模样。抽样分布趋近正态的速度如何?在那个例子里,当样本量 n=15 时,抽样分布看起来已经挺接近正态分布了。我们也许可以得出结论,当总体分布与正态分布相差不多时,抽样分布趋近正态的速度还是挺快的。只要我们有 15(甚至更小一点)的样本量,就已经能用 t 检验了。
要是总体和正态分布的差别更大一些呢?我们再来试验一下。这一回,我们用一个从 -3 到 3 之间的均匀分布作为总体(也就是说,取到小于 -3 或大于 3 的可能性为 0,而取到 -3 和 3 之间任意一个数的可能性相同)。这么一个方头方脑的分布,和正态分布看着不太像,可是你也许会惊讶于抽样分布趋近正态分布的速度:样本量仅仅为 3 时,抽样分布已经有了正态分布的雏形;而样本量上升到 15 时,它的正态性更是已经毋庸置疑了。
一不做二不休,我们干脆再把总体分布弄得更扭曲一些。既然正态分布中间高两头低,那么咱们来个反其道而行之,看看一个中间低两头高的总体分布怎么样?从下图中可以看到,我们选取了一个在 0 到 1 之间的有点奇葩的分布:这个分布取到 0 或 1 的可能性最大,而越往0和1之间走,可能性就越小。以这一个分布为总体的样本均值的抽样分布趋近于正态分布的速度会不会很慢?
答案是否定的。仅仅是样本量 n=3,就能让抽样分布的样子来一个大逆转,呈现了中间高两边低的形状。但这时它还不够正态,因为中间还有些太扁平。而当 n=15 时,我们再一次得到了漂亮的正态曲线。
是不是很神奇?
这正是中心极限定理的威力所在(戳此处回顾《正态分布到底是怎么来的?》)。正态分布就像一个黑洞一样,管你总体分布原本是什么样子,在样本量从小变大的过程中,总有一天(这一天往往来得还挺快)抽样分布会被吸进正态的大坑。
回顾上面的几个例子,都是在样本量大概到了 15 的时候,抽样分布就已经很像正态分布了。我们能不能说样本量大于 15 便是能够使用 t 检验的标准呢?
不一定!!
我们来看下图这个反例。这里,总体分布是一个坐落在零点右侧、拖着悠长尾巴的概率分布。直接看看样本量为 15 时的抽样分布,显然之前几个例子的「规律」在这里失效了。即便是快进到 n=150,抽样分布还是有明显的不对称。
由于有中心极限定理,我们知道,抽样分布终究还是要回到正态分布的。但对于这个例子而言,抽样分布迈向正态分布的步伐实在有点慢——换言之,如果要对来自如此总体的样本使用 t 检验,所需的样本量将会十分巨大。
我们在《就是要实用!t 检验的七十二变》结尾处说过,如果我们感兴趣的变量是离散变量(比如性别),t 检验一般不适用,也正是由于这个原因。比如,我们考虑一个仅能取 0 和 1 两个值的总体分布(这样的分布称为伯努利分布)。仍然用之前的方法,我们来看一看在不同样本量的情况下这个总体分布所产生的样本均值的抽样分布。显而易见,由于总体分布自身的离散性,样本分布随着样本量的增大趋近于正态分布的速度也很慢。
从纯理论的角度来说,中心极限定理并不在乎随机变量是连续还是离散的。也就是说,只要样本量充分大,抽样分布也会服从正态分布。这时,t 检验也就同样有效了。之所以我们说 t 检验不适用于离散变量,是因为对于多数离散变量而言,要达到能使用 t 检验的样本量太大了。也正是出于同样的原因,统计学家发明了用于样本量较小的离散变量的统计学检验,如卡方检验等,我们以后将会为大家详细介绍。
让我们回到正题。从上面的那么多例子里,我们能得到怎样的结论?抽样分布趋向正态分布的速度由什么来决定?
相信你已经能够得到答案——那就是总体分布的形状。感性地来说,总体分布与正态分布越相近(连续、对称),抽样分布能近似为正态分布所需的样本量也就越小。
在实际科研中,我们不会确切知道总体分布的形状或参数。这时,我们可以考虑产生数据的物理过程及其对总体分布的影响(如取值范围等),并且可以通过考察样本分布的正态性来对总体分布的形状做推断(还记得上集讲过的 q-q 图、夏皮罗-威尔克检验等方法吗?)。
如果我们手上的样本量不足以保证抽样分布的正态性该怎么办?
既然总体分布越接近正态分布,抽样分布趋近正态分布的速度就越快,那么一个解决方案便是对数据进行某种转化,使总体分布向正态分布靠拢,从而加快抽样分布逼近正态分布的速度。在下一集中,我们将为大家详细介绍转化非正态数据的方法。
注:文中图片均为作者自绘
回复「统计学」可查看「说人话的统计学」系列合辑,
>>> 干货 <<<
>>> 自检 <<<
>>> 番外篇 <<<
作者:张之昊
编辑:灯盏细辛