用置信区间，就是这么（不）自信！| 协和八

Original 2016-06-30 张之昊 协和八

上一集《找出效应大小，对耍流氓 say no! 》推送后，有位读者在文章底下留言，指出「不能脱离具体业务问题谈显著性」。这位读者讲得很好，今天我们在进入正题以前，也希望利用一点篇幅向大家再次重申这一点。

我们这个栏目，从开篇第一集《你真的懂 p 值吗？》就提到过，统计学意义上的显著性（通常是 p 值很小）并不等同于实际业务意义上的显著性。两集以前的《只讲p值，不讲效应大小，都是耍流氓！》里，我们也用格格巫卖包子的几个模拟例子展示过一种情况，格格巫包子的平均质量可以和食堂规定的标准值相差微乎其微，差出来的那点儿面粉或肉连塞牙缝都不够，实际上根本没有人会在意。

但是，如果格格巫就是碰上了一个特别轴的蓝精灵，只要样本量大到一定程度，统计功效（power）就会足够大。在这种情况下，即使是那一丁点的差别也会变得在统计学上高度显著了。反过来说，如果真实的差别很大，但是我们的样本量很小，那么 p 值也许并不能达到显著的程度。但我们也不能因此就对所得的结果等闲视之，因为它也许暗示了有重大意义的发现。

而我们上集介绍的代表 t 检验效应大小的 Cohen氏 d值呢？它是解决上面这个问题的灵丹妙药吗？正如给我们留言的读者所说的那样，它也不是什么全能的神。不仅仅是 Cohen氏 d值，我们将来还会介绍代表其他检验效应大小的统计量，所有这些「效应大小」，也都是在统计学意义上讲的。究竟对于我们感兴趣的问题来说，这样的效应有没有实际意义，需要我们运用具体领域的知识和经验来判别。

（前情回顾可戳：你真的懂p值吗？只讲p值，不讲效应大小，都是耍流氓！找出t检验的效应大小，对耍流氓 say no！）

那么，我们为什么还需要 Cohen氏 d值这些量呢？

❶ 它们能提供比 p 值更多的信息。当我们做完一个 t 检验，向别人报告检验结果时，这些表示效应大小的量能使他人更全面地对这个检验结果的实际意义进行解读。具体对 Cohen氏 d值来说，我们上集也提过，它相比起直接看均值的差别有一个重要的优点：不会受到测量单位和尺度的影响。

❷ 正是由于这个优点，这一类统计量也成为了功效分析、荟萃分析等方法的基础。

❖

我们今天要讲的正题，其实也和上面讨论的内容有很大关系。让我们回到我们最近一系列文章的核心—— t 检验。t 检验关心的事情，是总体平均值：要么是一个平均值和某个常数有没有差别（单样本 t 检验），要么是两个平均值之间有没有差别（成对或独立样本 t 检验）。上集我们为大家详细讲述了，Cohen氏 d值把平均值的差别放在分子上，而把标准差放在分母上，从而是一个融合了平均值的差异及其不确定性的量。

这么做固然好，但是也有美中不足之处。一个问题是，这样算出来的 Cohen氏 d值只是个「点估计」(point estimation)，它具体的精确数值其实没有特别大的意义。

这是什么意思呢？

我们还是用格格巫卖包子的例子。和以前一样，食堂规定的包子重量的标准值是 50 克。我们收集了一个包含 10 个包子的样本，它们的重量如下（单位为克）：

47.9，49.8，47.2，47.4，49.6，52.7，48.1，50.3，49.1，51.8

根据这些数据，我们算出样本平均值是 49.39 克，样本标准差为 1.84 克。

那么，根据上集我们讲过的 Cohen氏 d值的算式：

容易得出，如果用该样本进行标准值为 50 的单样本t检验，我们的效应大小会是 (49.6-50) / 2.0 = -0.331。如果只看其绝对值，那么效应大小就是 0.331。

假设在这个样本里，第三只包子的重量从 47.2 克变成了 47.5 克，而剩下的 9 个包子都保持不变，那么样本的平均值和标准差也会因为这个包子而发生相应的改变，变成 49.42 克和 1.80 克。从而，效应大小也会变为 0.321。之所以称其为「点估计」，就是因为 Cohen氏 d值是一个数，也就是数轴上的一个点。

这个例子中，第三只包子重量的变化是非常微小的，由此带来的平均值、标准差和效应大小的变化也很小。即便不做 t 检验，从日常生活的直觉来看，我们都不会因为这样的变化而改变我们对格格巫做的包子的大致结论。

也就是说，效应大小具体是 0.331 还是 0.321，其实并不那么重要——这个数的精确值很可能是产生样本时随机性的结果。与其纠结于小数点后几位，更重要的其实是它的大致范围——比方说，我们告诉你，效应大小大约在 0.3 和 0.35 之间，你就能对格格巫包子重量与标准值的偏离程度有个不错的概念了，至于说到底是 0.328 还是 0.315 还是 0.346，多数情况下其实都无关紧要。

Cohen氏 d值还有一个缺陷，是与它的优点相伴相生的。还记得，在构造 Cohen氏 d值时，为了消除数据本身所带的单位，并且把关于平均值的不确定性的信息包含进来，我们采取了均值差除以标准差的方法。这可是一把双刃剑——单位是去掉了，但是算出来的 Cohen氏 d值却仿佛进入了一个陌生的世界。我们不再能像之前那样，直接说包子重量和标准值相差几克了。统计学无论浅易还是高深，说到底是要用来指导实践的，不易解读的结果会给实现这个最终目的带来额外的困难。

读到这里你也许要说，这么讲岂不是人嘴两张皮，咋说咋有理么？介绍 Cohen氏 d值时说要统一度量衡，现在又说还是带上原来的单位才容易解读。

公正地看，这两种做法各有利弊，并不是非此即彼的。无论我们是作为科研成果的生产者去使用各种统计学方法，还是作为消费者去判读统计分析的结果，我们都会面临这样的权衡取舍，突出了数据的某个方面，往往就要以牺牲另外的一些方面为代价。幸运的是，我们总是可以同时使用和报告多种角度，尽可能全面地描述数据的形态和特征。

❖

好了，如果我们既要保留平均值原始的尺度，又要加入其不确定性的信息，应该怎么办呢？

两者相除肯定是行不通了，相加减行不行呢？答案是肯定的！假如我们有了一个点估计，再依据统计学理论找出在现有数据之下对这个点估计的不确定性大小，那么就可以用两者划定某个范围，作为我们根据已有数据对平均值的差别的估计。

上面我们讨论了 Cohen氏 d值这一类效应大小的点估计的两个缺点。而弥补这两个缺点的方法殊途同归——用一个范围或区间来表示效应大小及其不确定性。用统计学的术语来说，这叫做「区间估计」(interval estimation)。而这个范围或区间本身，被称为「置信区间」(confidence interval)。

听起来高深，其实我们在日常生活中对这种思想早就习以为常了。比方说，现在让你猜一猜 1997 年 6 月 1 日正午 12 点整故宫太和殿门前的地面温度是几摄氏度。也许你会沉吟片刻掐指一算，给出一个答案：29 到 34 度之间！为什么不说一个具体的数值，比如说 31.72 度呢？因为我们都很清楚，即便我们是气象学家，任何一个具体的数字恰好正确的可能性都是微乎其微的（如果实际测量可以做到无限精确，任何数字正确的概率都是 0 ）。

但是，如果这个游戏的规则仅仅是估计的区间包含了正确答案就算对的话，你很快就会意识到，有一种必胜的办法——猜一个尽量大的范围！用不着什么地理或气象知识，我们只要说一个负 100 度到 200 度之类的答案，就必然错不了了。显而易见，这样的答案不能对我们的问题提供有价值的信息。

如此说来，

问题出在哪里呢？

为了帮助我们思考，我们来想象这样一个例子。大家小时候应该都玩过套圈游戏，也就是一件奖品放在几米开外的地上，而你要抛出一个铁丝或者塑料做的圆环，如果能把奖品圈在环里，那么它就归你了。和前面一样，如果你能自带圆环的话，那么圆环肯定是越大越好——你要是能带一个整个操场那么大的环儿，那肯定就赢定了嘛！

游戏规则得怎么改才有意思？我们玩这个游戏，是希望看看谁套圈的手艺最好。在圆环大小一样的前提下，这手艺自然就和套圈的成功率有关了。因此，一种直接的办法就是，大家都用同样大小的圆环，抛掷同样的次数，看谁圈中奖品的次数最多。

偏偏今天带我们玩儿的这个老师想法比较奇崛，他提出了另外一种方法：规定一个特定的套圈成功率（比如说 80%），要求全体小朋友都必须达成，而每人选定一种大小的圆环来完成这一目标，最后谁的圆环最小，谁就获胜。

这个规则听起来很奇葩，仔细想想却很有它的道理在。既然大家成功率都一样，那么圆环越小，自然就是水平越高了。

❖

好了，故事说完了，它和置信区间到底有什么关系呢？

要揭示其中的联系，我们先要回顾现代统计学的一个基本争论。几个月以前，我们在《贝叶斯vs频率派：武功到底哪家强？》里介绍过统计学的两大派别：频率主义派和贝叶斯主义派。我们最近研究的 t 检验，是频率主义统计学的一种方法。

（戳这里回顾：贝叶斯vs频率派：武功到底哪家强？）

频率主义者认为，对于任何我们感兴趣的可以量化的问题（比如说，格格巫包子的平均重量），其答案都是客观确定的数量，但是我们并不知道究竟是多少。当我们用某个区间去估计这个数量时，只要这个区间确定了下来，真实答案是否落在该区间之中就只有「是」或「否」两种可能，而不存在某种中间状态。

就像在刚才的故事里，奖品就放在几米远的地面上。每当我们抛出一个圆环，它落地以后就只有圈住或没圈住奖品这两种状态。

因此，在频率主义统计学的框架里，当我们进行区间估计时，不能讨论某个区间包含真实值的概率（因为只要区间确定，是否包含真实值就是已知的了）。

那么，我们怎样知道我们构建的区间好不好呢？根据频率主义者的观点，我们只能通过大量重复的实验，以频率来推测概率。也就是说，如果我们重复从同一个总体中获得样本，用同样的方法构建出许多用于估计效应大小的区间，这些区间中包含真实值的比例便是区间估计的「置信度」(confidence level)。

用刚才的故事做类比，不同的置信度对应于不同的区间宽度，就好像不同的套圈成功率会对应不同的圆环大小一样。置信度越高，区间就越宽，估计的不确定性就越高。反过来说，如果给定一个置信度，区间宽度越窄，数据所提供的估计也就越精确，就好像固定成功率，圆环越小，手艺越高一样。在通常的数据分析中，一般选用 95% 的置信度，从而与 p=0.05 的显著性水平相对应。

❖

因此，置信度为 95% 的置信区间有怎样的性质呢？

如果从同样的总体中生成许多个样本，根据每个样本的数据各找出一个这样的区间，则在所有这些区间里，有 95% 会包含真实值，如下图1所示。

图1 置信水平为 95%的置信区间

图中 μ 为真实值。每条蓝线为根据一个样本所得到的置信区间，若蓝线与红色水平虚线相交，则代表该置信区间包含真实值。

（图片来源：https://en.wikipedia.org/wiki/Confidence_interval）

置信区间能够向我们同时提供效应大小（一般是区间中点）和估计精确度（区间宽度）这两方面的重要信息。根据置信区间的宽与窄，读者就能很清晰地看到，我们根据数据所作出的估计有多确定。

为什么这是一件好事？如果置信区间很窄，这说明数据提供了强有力的证据；如果置信区间很宽，说明这一发现还有待更深入的检验。无论哪一种情况，我们都有义务让读者了解，我们对报告的结果究竟有多自信（或者多不自信）。正如我们多次强调过的那样，清晰、准确、透明的学术论文，是所有科研工作者共同的责任与担当。

因此，现在在各领域的论文中，无论是什么统计检验，在报告 p 值的同时汇报相应的置信区间已经成为基本的学术规范。几种类型 t 检验的置信区间可以很容易地从统计软件中获得。

如果你对 t 检验置信区间如何确定感兴趣，欢迎关注本周日推送的本集拓展阅读，届时我们将简要介绍 t 检验的置信区间背后的理论。

五年执医三年模拟

精选每日一题

更多精选题可回顾历史推送文末

题目来源：临床执业医师资格考试往届真题

语音小编：闲闲闲兔

*回复「说人话的统计学」查看本系列全部文章

作者：张之昊

编辑：黑草乌叶

高三女生醉酒后被强奸致死？检方回应

高三女生醉酒后被强奸致死？检方回应

那些内心强大的孩子，童年被允许做过这1件事

波罗的海，电缆断裂！

关晓彤突然官宣喜讯！粉丝欢呼：恭喜啊，终于等到这一天