如何确定 t 检验的置信区间 | 协和八
注:本文为协和八「说人话的统计学」系列之《用置信区间,就是这么(不)自信!》的延伸阅读,点击上述标题可跳转至该集原文。
在三天前的推送中,我们讨论了置信区间的意义和解读。对于置信区间,最让初学者纠结的一点就是它诡异的定义——一个 95% 置信区间并不意味着真实值落在这一个区间内的概率为 95%,而是说如果重复许多次实验,每个实验按这样的方法构造出一个 95% 置信区间,在这所有的置信区间中,将有 95% 的区间包含了真实值。(大学里统计课的老师最爱拿这个出判断或选择题这事儿我会乱说?)我们不妨再重温一下上集原文中的插图:
图 1 置信水平为 95% 的置信区间
图中 μ 为真实值。每条蓝线为根据一个样本所得到的置信区间,若蓝线与红色水平虚线相交,则代表该置信区间包含真实值。
(图片来源:https://en.wikipedia.org/wiki/Confidence_interval)
之所以造成这种纠结的定义,根本原因还是在于频率主义统计学对于「不确定性」和「概率」的看法和我们日常的直觉有所不同,我们在三天前的文章里给大家简单做过解释。如果觉得还是不够深入,还可以翻到许久以前的《贝叶斯 vs 频率派:武功到底哪家强?》一探究竟。
我们为什么要关心这个问题?理解了这个概念,我们在解读置信区间时才不会出错。记住,一旦有了一个区间,真值要么在这个区间里,要么不在,概率只有 1 和 0 的可能。因此,对 t 检验(以及其他许多检验)来说,当我们报告和解读置信区间时,一是关心它的中点(代表对效应大小的估计),二是关心它的宽度(代表我们对上面的估计有多不确定,或者说有多少信心)。
回到我们最近的主题—— t 检验。上次我们没有细说的是,t 检验的置信区间是如何确定的?随着统计学软件的流行,置信区间已经是几乎所有软件的默认输出,从实用主义角度来说,具体的计算和理论相对就没有那么重要了。但是,如果你感兴趣的话,以下是一个粗略的、没有具体算式的介绍,希望它不仅满足你的好奇,还能使你对「区间估计」这一概念有更深刻的理解。
我们现在对 t 检验已经很熟悉了,不管是具体哪一种 t 检验,目的都是为了对总体的平均值做推断。现在,假设我们对某一个总体(比如说格格巫做的所有包子的重量分布)感兴趣。根据中心极限定理的普遍性,我们可以比较安全地假设总体是服从正态分布的。相信你还记得,正态分布有两个参数,一是总体平均值,二是总体标准差,而前者正是 t 检验的目标。后者虽然并非 t 检验直接关心的问题,但我们很快会看到,我们并不能对它忽略不管。
现在我们从这个总体得到了一个样本(比如说它某天上午做的包子中随机抽取的 10 个)。我们以前就讲过,根据极大似然估计的思想,样本平均值(这 10 个包子的重量的算术平均值)是对总体平均值最好的估计(可戳此回顾《算术平均数:简单背后有乾坤》)。也就是说,如果我们想要获得总体平均值的一个置信区间,它的中点就该是样本平均值。
那么,现在就只剩下区间的宽度了。
我们之所以需要这样一个区间,是因为抽样过程所导致的样本平均值的随机性。虽然我们刚才说,样本平均值是对总体平均值最好的估计,但我们知道,这个「最好」只是对这个样本来说的。如果我们又获得一个样本(另外 10 个包子),这个新的样本的平均值很可能会不一样。假如这个过程不断重复下去,我们就会得到许许多多的样本平均值——虽然这些样本平均值都不太可能恰好就是总体平均值,但是我们能确定的是,它们会在总体平均值附近不大的范围内上下波动。
我们能不能找出样本平均值的分布呢?如果这个问题听起来似曾相识,那么你一定认真读过我们之前的文章——样本平均值的分布就是我们之前讲过的一种「抽样分布」(sampling distribution)(抽样分布的概念可见《不是正态分布,t 检验还能用吗?》)。
这时,我们刚才说过的总体的第二个参数(总体标准差)就要来起作用了——如果总体标准差越大,抽出来的数据点就会越分散,而多次抽取样本得到的样本平均值也会波动越大。具体来说,如果总体标准差已知,那么样本均值的分布仍然是个正态分布,但是它的标准差将会是总体标准差根据样本量(在刚才的例子里是 10)按一定比例缩小所确定的值;如果总体标准差未知,那么样本均值的分布就变成了一个 t 分布,它的具体参数由样本均值、样本量、样本标准差三者共同确定。( t 分布的介绍可回顾《想玩转 t 检验?你得从这一篇看起》)
我们之前强调过,「抽样分布」(例如上面所讨论的样本平均值的分布)是一种假想的分布,因为在多数情况下我们只会有一个样本,而不会有机会和资源没完没了地抽取许多样本。当我们只有一个样本时,根据样本的统计量所构造出来的样本均值的分布依然是一种猜测,但是是我们在已有信息下最好的猜测,就像样本均值是对总体均值的最好猜测一样。
有了这样一个猜测,我们就可以通过这个分布的性质,找出一个区间,使其符合我们想要的置信水平(即这个区间包含了相应于该置信水平——比如 95%——的概率)(图 2)。
图 2 构建关于总体均值的 (1-α)×100% 置信区间
(图片来源:https://onlinecourses.science.psu.edu/stat504/node/19/)
我们之前说过,一旦一个区间确定下来,真实的总体平均值是否落在这个区间以内也就随之确定了。这里的关键就是,根据一个样本所构建出来的这个关于样本均值的抽样分布只是一个猜测。换言之,任何一个样本都会构建出一个不一样的置信区间,但当这些不一样的置信区间全部放在一起时,它们全体中就会有相应于置信水平的那一部分能够覆盖真实值了。
勘误
在 6 月 30 日的推送《用置信区间,就是这么(不)自信!》中,Cohen 氏 d值计算的例子个别数值有误:
容易得出,如果用该样本进行标准值为 50 的单样本 t 检验,我们的效应大小会是 (49.6-50) / 2.0 = -0.331。
应为:
容易得出,如果用该样本进行标准值为 50 的单样本 t 检验,我们的效应大小会是 (49.39-50) / 1.84 = -0.332。
特此更正,并向各位读者致歉!
回复「统计学」可查看「说人话的统计学」系列合辑,
>>> 干货 <<<
>>> 自检 <<<
>>> 番外篇 <<<
作者:张之昊
编辑:灯盏细辛