查看原文
其他

找出t检验的效应大小,对耍流氓 say no!| 协和八

2016-06-02 张之昊 协和八

读过本系列上一集《只讲 p 值,不讲效应大小,都是耍流氓!》的你,相信已经记住了我们的逆耳忠言。小小声告诉你,这样的流氓,其实我们曾经都耍过呢!今天,我们就接着上一集,来讲讲做完 t 检验之后,怎样正确地报告效应大小,从而做个不耍流氓的好少年。

(什么?我已经太老不能做少年了?那就好儿童吧!)

 单样本 t 检验的效应大小 

对于效应大小这个概念,我们之前已经接触过许多次。之所以它值得我们的注意,是因为它能向我们提供比 p 值更多的信息。相比起根据 p 值是否小于 0.05 或者别的阈值来做个非此即彼的裁决,效应大小会追问一句,我们所感兴趣的现象本身究竟程度如何?

在 t 检验的情形里,既然这个检验的目标是平均值之间的差异,效应大小关心的就是这个差异究竟有多大

从上一集的几个例子中我们也已知道,尽管一个很小的 p 值看起来意味着有很强的证据反对原假设,但是它并不等同于很大的效应——很小的 p 值同样可以来源于实际上并不显著的效应,只要样本量够大就行。

因此,当我们汇报统计分析的结果时,在 p 值以外再加上效应大小等相关信息,能给读者正确、全面地解读结果带来很大的帮助。这一点建议对频率主义统计学的几乎所有检验都是适用的。

那么,当我们使用 t 检验时,我们应该如何找出效应大小?

回顾一下,我们在《就是要实用!t 检验的七十二变》里讲过,t 检验有三种(单样本 t 检验、独立样本 t 检验、成对样本 t 检验),目的是共通的——对一个或两个样本的平均值做统计推断。既然如此,效应大小能不能直接用平均值与标准值之差(单样本 t 检验)或是两个平均值之差(另外两种 t 检验)来表示?

想到了这一点,我们就已经在正确的方向上前进了一小步。你应该也记得,在上一集里,我们演示 p 值和效应大小的关系时,正是用样本包子重量的平均值与食堂规定的标准值之间的差别来粗略衡量效应大小的。但是,这种方法有两个缺陷:

第一,它依赖于具体问题中数据本身所带的单位及其取值范围。比如说,我们随机抽检的包子样本平均重量与标准值的差是 3 克。如果我们把单位换成千克,那么这个差值就变成了 0.003 千克——说的还是一个事,数值上给人的感觉却大大不同。我们希望定义一种效应大小的表示方法,能够不受这些表面现象所影响。

第二,如果只关注平均值的偏差本身,我们就忽略了这一偏差本身所带有的不确定性。我们再来看一个例子(图 1)。和上一集一样,让我们来比较两个包子重量的样本(样本 5 和 6 )。记住,食堂的包子重量标准值仍然是 50 克。

图 1  包子样本 5 号和样本 6 号

蓝色横线代表包子重量的规定标准值 50 克。两个样本中的各个数据点用+号表示,样本平均值用菱形表示。样本各自的均值(mean)和标准差(standard deviation, s.d.)标注在相应位置。

如果从平均值来看,这两个样本与标准值 50 克的差别几乎没有区别,大约都是 4 克多一点。而且,两个样本的数据点个数也都是 30。但是我们对这两个结果的信心是否一样呢?恐怕不然。从图 1 可以看到,样本 6 的数据比样本 5 要分散许多。比起数据相对集中的样本 5,样本 6 会让我们心里更没底——与标准值的这点差别谁知道是不是碰巧得到的呢?

正是因为这样的考虑,我们希望在衡量效应大小时,能把结果的不确定性也包含进去——不确定性大时,我们就把效应大小调整得小一些。有什么办法可以表示不确定性的大小?上面的图 1 已经给了我们提示:标准差

我们以前说过,标准差是表示一个样本中所有数据点离它们的平均值的偏离程度的量。因此,我们可以把平均值与标准值之差除以样本的标准差。这样一来,效应大小就是一个综合了平均值的差异及其不确定性的数量了,称为 Cohen 氏 d 值

其中 μ 为总体的真实均值,μ为标准值,而 σ 为总体的标准差。当然,总体的参数我们无法得知,因此要用样本的均值和标准差代替。

现在我们已经把差值的不确定性放到了 d 值里面,那么之前说过的由数据的单位所引起的问题呢?告诉你一个好消息,它在 d 值里也不存在了。因为标准差的单位和数据平均值的单位相同(想想看为什么?),在计算 d 值时上下一除就消去了。因此 d 是一个不带单位的量。

而更重要的是,Cohen 氏 d 值使我们能够把来自完全不同的数据的若干 t 检验的效应大小放在同一个尺度上比较

比如说,如果我们想对认知行为疗法对慢性疼痛的疗效的已有研究做个总结,那么在找到所有这些文献以后,我们会发现,虽然这些研究的目的相似,但是具体数据的来源和形式却是千差万别,例如疼痛程度的评分会使用不同的体系和尺度,受试者人数及人群中数据的波动情况也会不一样。这时,直接把治疗前后平均值的差别放在一起比较是没有意义的。而利用 Cohen 氏 d 值来代表效应大小,则能使不同研究的结果变得可以等量齐观。

因此,效应大小也是用定量方法综合大量研究结果(即荟萃分析)的一个重要基础。

怎样的效应算是大呢?Cohen 氏 d 值的发明人 Jacob Cohen 曾经提出过一条经验准则,把 d 值为 0.2,0.5 和 0.8 的效应分别称为小、中、大效应。当然了,这只是相当粗略的划分,也没有考虑到不同学科之间的差异,因此只能作为一种参考。

 成对样本和独立样本 t 检验的效应大小 

既然 t 检验有三个版本,Cohen 氏 d 值自然也一样。前面我们讲了单样本 t 检验的情况下 Cohen 氏 d 值的定义。对于单样本 t 检验,Cohen 氏 d 值就是平均值(与标准值)的差异与标准差的比例。对于另外两种 t 检验,d 值的定义也是大同小异——分子上自然是两个样本的平均值之差,而分母依然是某种「标准差」。由于成对样本和独立样本 t 检验都涉及两个样本,因此这个标准差是结合了两个样本的「合并标准差」(pooled standard deviation)。具体的理论这里我们不详细叙述,仅仅列出算式。

成对样本 t 检验的效应大小为

其中 μx、μ为两个成对总体的均值,σx、σ分别为各自的标准差,而 ρxy 为两个总体之间的相关系数(correlation coefficient)。所谓相关系数,简单来说就是测量两个变量变化方向是否一致。如果 x 增大时 y 也增大,则相关系数为正;如果 x 增大时 y 会减小,则相关系数为负。相关系数的取值范围在 1(两变量完全成比例地同增同减)到 -1 之间(两变量完全成比例地向相反方向变化),相关系数为 0 时两变量完全没有关联,见下图。

图2  相关系数取1到-1之间不同数值时的x~y散点图示例

(图片来源:https://en.wikipedia.org/wiki/Correlation_and_dependence#/media/File:Correlation_examples2.svg)

此外,我们之前也提过,如果把成对样本中对应的数据点两两相减,那么把得出的差值做单样本 t 检验 (以 0 为标准值)实际上等价于成对样本的 t 检验(戳我回顾《就是要实用!t 检验的七十二变》)。因此,我们也可以对成对样本的差值使用前面单样本 t 检验的 Cohen 氏 d 值的公式。

独立样本 t 检验的效应大小(当两个样本的样本量n1、n2比较接近时)为

其中各符号的含义与前面相同。

 利用效应大小进行 t 检验的功效分析 

效应大小不仅是评估统计检验结果的重要工具,更是功效分析中的关键一环。功效分析是根据预测可能发生的实验结果估算出实验所需要的样本量的过程,因而也是如今各种科研基金申请书的常客。我们很久以前为大家介绍过功效分析的基本原理——效应大小、显著性水平(α,通常为 0.05)、统计功效(1-β,通常为 0.8)和样本量(n)只要知道其中三个,就能求出第四个。(看着这句话有点蒙圈?戳此处回顾《做统计,多少数据才算够?(上)(下)》)

因此,在功效分析中,当我们选定了计划进行的统计检验时,要知道所需的样本量,我们只需确定效应大小、显著性水平和统计功效。后两者一般都是约定俗成的,难点在于效应大小的确定。我们以前也讨论过,在还没有获得正式数据之时,效应大小一般通过小规模的试点实验(pilot study)或者参考以往的类似研究进行估算。

假设我们正在计划一个课题,其中一部分的数据分析将会用到 t 检验。按照前面介绍的公式估算出了效应大小以后,我们怎样知道需要多大的样本量?这时,我们需要用到之前推介过的一款优秀且免费的功效分析软件 G*Power(该软件的下载安装和简介请参看《做统计,多少数据才算够?(下)》

打开 G*Power,我们将看到如下基本界面(图 3)。首先,既然我们计划使用的是 t 检验,我们需要在「检验类型」(test family)中选择 t 检验(t tests)。然后,还需在「功效分析类型」(Type of power analysis)选项卡中选择“事前”(A priori)选项,因为我们是希望在实验正式开始前确定样本量。

图 3  在 G*Power 软件中选择统计检验和功效分析类型

接下来,我们需要在 t 检验这一个大家族的下拉菜单(在「统计测试」Statistical Tests选项卡中)里选出具体的一种(图 4)。可以看到,G*Power 把一些其他的相关检验(包括非参数检验)也放进了 t 检验的大类里。今天我们着重讨论的 t 检验的三个版本在菜单的中间(见图 4 红框标出部分)。

图 4  在 G*Power 软件中选择具体计划执行的统计学检验

 我们就以成对样本的 t 检验(Means: Difference between two dependent means)为例(另外两种 t 检验类似),展示利用该软件对 t 检验进行功效分析的方法。选定了相应的 t 检验以后,我们可以在界面的左下方看到需要输入的参数(Input Parameters,图 5),包括单侧/双侧(Tail)、效应大小 dz(即前面介绍的 Cohen 氏 d 值)、显著性水平(α error prob)和功效(power)。假设我们在试点实验或荟萃分析以后,根据上文的公式算出预计效应大小为 0.3,另外三个参数分别选择双侧、0.05 和 0.8(图 5),填好以后即可点击右下方的「计算」(Calculate)按钮。

图 5  在 G*Power 软件中填写输入参数

完成上述步骤以后,我们就能在右下方的「输出参数」(Output Parameters)一栏中立刻得到,在这样的条件下,我们需要多大的样本量(两个组合起来)才能达到所需的统计功效:90(图 6)。也就是说,每一组分别需要 45 个数据点。

图 6  在 G*Power 软件中读取输出结果

如果你忘了效应大小 d 值的计算公式(或者就是懒得去算)呢?没关系!G*Power 早就看穿你了。这时,我们可以先不填写左下方输入参数中的效应大小,而是点击效应大小左边的「决定」(Determine)按钮。然后我们就会看到右边多出了一个窗口(图 7)。在成对样本的 t 检验里,这个新的窗口会提供两个选项。上方的「根据差值」(From Differences)也就是我们之前讨论过的把成对样本转换成单样本的方法;而下方的「根据分组参数」(From Group Parameters)则为直接计算效应大小,它会向我们询问关于两个样本的一些信息,包括均值、标准差等等。填好这些数值后,点击新窗口下方的「计算并转移至主窗口」(Calculate and Transfer to Main Window),我们就能得到 d 值 0.3,并且自动填在主窗口的效应大小一栏里了(有没有很想为 G*Power的设计者点个赞?)。有了效应大小,接下来的步骤就和之前的描述完全相同了。

图 7 在 G*Power 软件中自动计算效应大小

以上演示的是成对样本 t 检验的功效分析操作,另外两种 t 检验(单样本、独立样本)的操作也基本相同,只是个别要填写的信息稍有区别。


注:文中图片为作者自绘。



回复「统计学」可查看「说人话的统计学」系列合辑,

或点击下方标题可阅读本系列全部文章

>>> 干货 <<<

你真的懂p值吗?

做统计,多少数据才算够?(上)

做统计,多少数据才算够?(下)

提升统计功效,让评审心服口服!

你的科研成果都是真的吗?

见识数据分析的「独孤九剑」

贝叶斯vs频率派:武功到底哪家强?

数据到手了,第一件事先干啥?

算术平均数:简单背后有乾坤

正态分布到底是怎么来的?

想玩转t检验?你得从这一篇看起

就是要实用!t 检验的七十二变

不是正态分布,t 检验还能用吗?

只有15个标本,也能指望 t 检验吗?

样本分布不正态?数据变换来救场!

数据变换的万能钥匙:Box-Cox变换

t 检验用不了?别慌,还有神奇的非参数检验

只讲 p 值,不讲效应大小,都是耍流氓!

>>> 自检 <<<

妈妈说答对的童鞋才能中奖

统计学的十个误区,你答对了吗?

>>> 番外篇 <<<

说人话的统计学:一份迟来的邀请

作者:张之昊

编辑:灯盏细辛

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存