ANOVA的基本招式你掌握了吗?| 协和八
写在前面 我们从上一集开始了学习对比大于两组数据的统计方法—— ANOVA 。读了上一篇文章的童鞋想必已经领会了 ANOVA 的核心思想,对它有了感性的认识。今天我们来讲一下 ANOVA 的实用招式,比如 p 值如何计算,有什么前提条件,结果如何解释等问题。这里面很多东西和 t 检验是相通的,所以有了之前 t 检验的基础,学习 ANOVA 会事半功倍。
由于距离上次更新已经三个星期了,可能很多读者已经不记得 ANOVA 里面总平方和、组间平方和和组内平方和是什么了,这里先简单回顾下。
总平方和大致描绘的就是每个个体的实际数据围绕它们共同性质所决定的理论平均值的波动程度。
总平方和可以分解成两个部分:组间平方和和组内平方和。
组间平方和对应的是各组的平均值之间的差别,而组内平方和则是各数据点与自己所在组的平均值之间的差别。
组内平方和越小,组间平方和越大,组间差异越显著。
先把 ANOVA 的内功心法记牢了,下面学习招式就会水到渠成。
►▷▷▷
既然 ANOVA 是一种统计检验的方法,在咱们开始讲如何计算 p 值之前,首先要理清楚,它的原假设和备择假设是什么。只有先把检验的假设弄清楚了,才能准确地解释检验的结果。
为了方便描述,还是要用请出食堂的三位包子师傅:康师傅、王师傅和格格巫三位。蓝精灵们关心的是三位师傅做的包子大小是不是有显著差异。前边提到,如果分别用 t 检验对比康师傅和王师傅,王师傅和格格巫,以及康师傅和格格巫做的包子,会容易出现假阳性,即实际没有差异但却检验出差异的情况。所以这里需要用 ANOVA 。
ANOVA 的原假设(即我们通过检验尝试拒绝的假设)是:这三位师傅做的包子平均值相等。
要比较三位师傅做的包子,每位师傅做的包子就是一个总体,因而这里说到的平均值并不是针对每位师傅做的包子的样本平均值,而是每位师傅做的包子的总体的平均值,不要搞混了哦。
下面是一个选择题,大家认为备择假设是什么呢?
1) 三位师傅做的包子的平均值不全相等 ;
2) 三位师傅做的包子的平均值全不相等。
这可不是绕口令,不全相等和全不相等的含义可是完全不同的。
正确答案应该是1),也就是说当 ANOVA 结果显示有统计显著性(比如 p 值<0.05)时,我们可以 43 34145 43 14986 0 0 3384 0 0:00:10 0:00:04 0:00:06 3384断三位师傅做的包子的平均值不全相等。但我们不知道是不是三组都不相等,还是有一位师傅做的包子与其他两位不一致。
►▷►►
理解了 ANOVA 的目的,下面我们可以进一步判断统计显著性,计算 p 值了。和 t 检验一样,要计算 p 值,我们得先引入统计检验量 F。
假设蓝精灵们称了 n 个包子的重量,这些包子来自 s 位师傅,统计检验量:
看到这里你肯定会疑惑,为什么 F 的表达式是这样,别着急,看完下面的解释就明白了。
根据我们上一集修炼的心法,大家应该能透过现象看本质,发现统计检验量 F 不就是个组间平方和与组内平方和的比值再乘以一个系数,系数由样本量,组数决定。组间平方和越大,组内平方和越小,则 F 值越大,说明统计检验量 F 越大,组间差异越显著。
爱钻牛角尖的你可能会好奇,为什么分子是组间平方和除以组数减一。
试想下两种情况,我们从同一个总体分布里面抽取 20 个包子,一种情况是将其随机分成 2 组,每组 10 个,另外一个情况是随机分成 10 组,每组 2 个。
如果我们分别对上面这两种情况运用 ANOVA 检验,我们应该得到的 p 值应该差不太多,且 p 值都比较大,毕竟我们的设定是所有组的数据来自同一分布,并没有显著差异。如果我们计算组间平方和,会发现第二种情况比第一种情况的平方和大, 因为后一种情况下,组内的样本数少,每一组的平均值更容易受样本的随机性波动。如果重复这两组实验很多次,后一种情况算出来的组间平方和平均而言是前一种情况的 10-1 = 9 倍,咱这里可以先忽略数学上的推导。
为了能够抵消仅仅因为组数多就导致组间平方和大的倾向,于是要将分子除以(组数 s-1 )。基于类似的道理,分母组内平方和需要除以 n-s 。 在统计学中又将 s-1 称为组间自由度,n-s 称为组内自由度。当然这只是比较定性的说法,其背后涉及到一些特定的分布,限于篇幅,就先不深入讲了。
►►▷►
从统计检验量 F 如何得到 p 值呢?如果原假设成立,即所有组的数据来自的总体的平均值相等,在这个假设底下,统计检验量 F 会服从 F 分布。
我们之前没有接触过 F 分布,它和 t 分布还有正态分布长得都不太一样,F 分布只在 x>0 有值,且有一个长长的尾巴,如下图。
图片来源:http://atomic.phys.uni-sofia.bg/local/nist-e-handbook/e-handbook/eda/section3/eda3673.htm
因为 F 越大越倾向于拒绝原假设,ANOVA 的 p 值就是 F 分布比观测到的 F 值更大的值的概率,不难看出,由样本数据计算出的 F 值越大,p 值越小。
F 分布的形状只与组间自由度 s-1 和组内自由度 n-s 有关,所以我们在写论文描述 ANOVA 结果的时候不仅报道 p 值,也要报道自由度,比如这个例子:F(3, 50) = 4.30, p < .01。根据对结果的描述,我们知道一共比较了四组数据,因为组间自由度是 3 ,一共有 54 个数据点,组内自由度是 54-4=50 。
►►►▷
我们之前讲 t 检验的时候,说道 t 检验并不是万能的,只有满足特定的条件才能使用。ANOVA 也有与 t 检验非常相似的前提条件:
1)观察值独立,在包子的例子里面每一个包子的必须独立随机抽样;
2)每一组内数据服从正态分布;
3)组内方差相等,比如三位师傅做的包子虽然平均值未知但是方差得相等。
要是前提条件不满足怎么办?之前我们 t 检验时学到的技巧都可以用上了,比如数据不服从正态分布,我们可以数据变换来救场(样本分布不正态?数据变换来救场!),如果齐方差不满足怎么办?与 t 检验类似可以用 Welch 修正。
为什么虽然我们在学 ANOVA ,却不断地提到 t 检验呢?因为这两种方法其实是相通的,在特定情况下甚至是等价的。比如要比较两个独立样本的均值是否有显著不同,在双边检验的情况下 t 检验算出来的 p 值与 ANOVA 算出来的 p 值相等,ANOVA 的统计检验量 F 正好是 t 检验得到的 t 值的平方。没想到兜兜转转又回到了咱们熟悉的 t 检验。
ANOVA 之所以在实际应用中非常有效,不仅仅因为之前提到的可以有效避免比较多组数据假阳性过高的情况,还因为它的统计功效也比较高。也就是说,如真的有一组或多组数据与其它组不同,ANOVA 结果会有很大概率是显著的。统计功效与假阳性是一个硬币的两面,往往一个特定的检验功效高了,假阳性也会比较高,而 ANOVA 却比较好的平衡了两者。
正如我们之前说过的,统计学中没有免费的午餐。ANOVA 的缺点是检验的结果并不明确,当你的 ANOVA 结果具有统计显著性时,你并不能知道具体哪一组数据与其它组不同。为了找出具体哪一组数据不同,往往还要做事后( post-hoc )检验。预知后事如何,请听下回分解。
精选每日一题
更多精选题可回顾历史推送文末
题目来源:临床执业医师资格考试往届真题
本期主播:冬日暖阳
回复「统计学」可查看「说人话的统计学」系列合辑,
或点击下方标题可阅读本系列任意文章
>>> 干货 <<<
>>> 自检 <<<
>>> 番外篇 <<<
作者:田菊
编辑:黑草乌叶