统计知识 | 使用SPSS、R和JASP计算效应量的置信区间 | 自由微信

查看原文

其他

统计知识 | 使用SPSS、R和JASP计算效应量的置信区间

Original: OSC编译小分队 OpenScience 2019-07-03

点击上方蓝字“OpenScience”一起畅游科学

本文以Daniel Lakens的博客为基础，在翻译的同时进行相关删减和补充，旨在讲解常见效应量的置信区间的获得方法，但并未对其原理进行详细介绍。若想进一步了解效应量这一概念，请配合文末的参考文献一起阅读,使用效果更佳^_^

博客地址：http://daniellakens.blogspot.de/2014/06/calculating-confidence-intervals-for.html

1. 什么是效应量(effect size)

效应量是研究者所感兴趣效应的量化指标，常见的效应量指标如下表所示（引自胡传鹏等人, 2016, <心理科学进展>）：

在心理学研究中，最常用的效应量有两种：一种是表示相关性的效应量（correlational），常见的指标有r（r^2）和R（R^2），其中η^2也是r“家族”中的一个；另一种是均值差异（mean difference），常见的指标如本文重点介绍的cohen's d等。

Cohen's d 主要用于t-test，表明两个均数之间的标准差异；而η^2（偏η^2）主要用于ANOVA，表明与变量X的水平变化有关的变量Y的变化比率。对效应量的详细解释可以参见Lakens(2013)

2. 什么是置信区间？

（以下引自台湾慈济大学陈绍庆老师，详见confidence interval，博客链接：http://scchen.com/en/）

任何统计检定得到的统计值与效果量（effect size，大陆教材中翻译为效应量），都是一种点估计（point estimation）。信赖区间（confidence intervals，CIs，大陆教材中翻译为置信区间）是点估计加上抽样误差范围的上下边界，边界是平均值加上及减去临界统计数（大陆课本翻译为临界值）与估计标准误的乘积，临界统计数是我们在分析前宣告的p值，所对应的统计数。

3.η^2置信区间的计算

3.1 使用SPSS计算η^2的置信区间

首先，从Karl L Wuensch的网站上下载CI-R2-SPSS.zip（文末百度云链接中的CI-R2-SPSS.zip，网址：http://core.ecu.edu/psyc/wuenschk/StatHelp/StatHelp.htm）。这个程序来自于M. J. Smithson，但Smithson的网站似乎已经无法访问了。感谢Karl L Wuensch，他在个人网站提供了非常有用的资源，包括该程序以及详细的SPSS操作指南。下载压缩包解压后包括如下文件：NoncF3.SPS; NoncF.sav; F2R2.SPS和说明文件CI-R2-SPSS.docx。

下面以一个具体的实验为例，程序要求在这个设计中方差分析的所有因素都是固定的（fixed，例如，实验操纵的变量），而不是随机的（random，例如实际测量的变量）。对于随机因素的计算可能需要到这个网站（http://www.statpower.net/Software.html#R2）上去寻找其他工具。

首先，打开NoncF.sav文件（此处的数据为非中心F分布，详细请看OSC blog，http://osc.centerforopenscience.org/2014/03/06/confidence%20intervals/），你会看到如下SPSS窗口，其中只有conf这一列上出现了.95，其他行都是空的。接下来，只需要在SPSS中填入相应的数字，运行脚本NonCF3.SPS。

假设你的η^2结果如下：F(1,198)=5.72。你需要报告这个结果的偏η^2和置信区间。在第一列中输入F值（fval）5.72，在第二(df1)和第三列(df2)分别输入自由度（第二列填1，第三列填198），再把conf这一列的.95改成.90（原因见下文），最后打开NoncF3.sps，运行脚本，这样你就在SPSS文件中剩余的列中得到你的结果（见下图）

最后三列数据是我们感兴趣的：r2即r2或η^2 =.028，其置信区间的下限值（lr2, 0.0026）和上限值（ur2, 0.0756），这就得到了90%的置信区间为[.003; .076]。

就这么简单。

为什么要报告η^2检验的90%而不是95%的置信区间

正如前文所提到的，我们在计算置信区间时，把0.95修改成了0.9。关于这个问题Karl Wuensch已经其网站的文档中使用例子进行了清楚的解释（文末百度云文件中的CI-Eta2-Alpha.doc）。如果你不想阅读这个文件，大致的意思是这样的：均值之间的差异可以是正值也可以是负值，但是r^2或η^2是平方值，只有正值。这是因为F检验总是单侧检验（所以当你得到F双侧检验的p=.08时，不要报告为单侧p=.04）。如果你计算95%的置信区间，你可能会得到包含0的置信区间，但此时p值可能小于.05。这样一来，置信区间的结果与p值就存在显著差异。Steiger（2004）的文章解决了这个问题（链接：http://www.statpower.net/Steiger%20Biblio/Steiger04.pdf）。他认为，均值比较的95%置信区间和η^2的90%置信区间得到的检验效力是一样的，而且η^2检验的值不可能小于0，所以与0不存在显著差异的置信区间（通常情况下不包含0）的下限至少要从0开始。你报告的结果应该是[.00, .XX]这样的90%置信区间，.XX是置信区间的上限。

3.2 使用R（或R studio）计算η^2的置信区间

要使用R计算置信区间，你需要先安装R，并且安装MBESS工具包（安装R、Rstudio和MBESS所花费的全部时间可能也比启动SPSS少）。

要计算固定因素方差分析（a fixed factor analysis of variance）中所得到效应量（r2，η^2或偏η^2）的置信区间，我们需要ci.pvaf函数：

ci.pvaf(F.value=5.72,df.2=198,N=200,conf.level=.90)

这个语句是用于给出F值，自由度，样本量（在SPSS中不需要）和置信水平（.90而不是.95，见下文）。之后你可以看到如下输出：

我们可以看到，结果和上述使用SPSS计算出的η2的区间下限和上限（.003和.076）是一致的。不过遗憾的是，MBESS不会给出偏η^2的结果，所以你需要再使用SPSS计算出它（或者你也可以使用Lakens 2013年在Frontiers的那篇文章中所提供的Excel表格进行计算）。

在一些组内或者被试内设计中，MBESS工具包会出现错误。举例来说：

Error in ci.pvaf(F.value=25.73,df.1=2,df.2=28,N=18,conf.level=0.9): N must be larger than df.1+df.2

在组间设计（样本量大于自由度）中这个结果是正确的，但是在组内设计（在许多检验中样本量通常小于自由度）中这个结果是错误的。在Lankens的博客上，贴出了Ken Kelly（MBESS工具包的开发者）改写的ci.pvaf函数。这个代码会得到与前面提到Smithson的SPSS中代码一样的结果（至少小数点后4位）。

library(MBESS) Lims <- conf.limits.ncf(F.value = 7, conf.level = 0.90, df.1 <- 4, df.2 <- 50) Lower.lim <- Lims$Lower.Limit/(Lims$Lower.Limit + df.1 + df.2 + 1) Upper.lim <- Lims$Upper.Limit/(Lims$Upper.Limit + df.1 + df.2 + 1) Lower.lim Upper.lim

4.Cohen's d及其置信区间的计算

4.1 使用JASP计算Cohen's d:

Cohen'd 是另一个常用的效应指标。SPSS不提供Cohen's d的输出，更没有其置信区间。最近新出的免费统计软件JASP（下载地址：jasp-stats.org）中，可以很方便地计算Cohen's d以及其置信区间。见下面的gif动图。遗憾的是，目前JASP不提供η^2置信区间的计算。

4.2 使用SPSS计算均值比较（Cohen’s d）的置信区间

Karl Wuensch修改了Smithson的文件（2001）并创建了一个用于计算Cohen’s d的效应量的zip文件（文末百度云链接中的CI-d-SPSS.zip），这种方法与计算η^2的置信区间的方法几乎一样（除了配对样本t检验，进一步阅读：这里和这里）。打开NoncT.sav文件，你会再次看到几乎没有数据的数据行，你只需要填入t值和自由度即可。注意（正如Wuensch在文件中解释的一样）：如果你填入一个负的t值，SPSS就会出问题，所以在这种情况下需要填入正的t值，然后再调换置信区间的上下限的符号。

如果你的t检验的结果为t(198)=2.39，那么你在第一列中填入2.39，在第二列中填入198。对于单样本t检验来说这样就足够了，如果是双样本t检验，还需要再填入n1和n2的样本大小（比如二者都是100个被试）。打开T-D-2sample.sps并运行它。在最后的三列中，你将会得到Cohen’s d（0.33）和95%的置信区间的上下限[0.06, 0.62]。

4.3 使用R计算Cohen'd

在MBESS中，你可以用如下语句来计算95%的置信区间：

ci.smd(ncp=2.39, n.1=100, n.2=100, conf.level=0.95)

ncp（非中心参数）听起来像是个很复杂的概念，但它其实只是一个t值（在我们的例子中是2.39）。n.1和n.2是两组被试的样本量。之后你会得到如下输出：

是的，这就是使用SPSS与R的全部步骤。如果在运行时遇到一些问题，MBESS工具包里的说明书和由Wuensch撰写的教程应该可以帮助你解决。

5.使用ESCI计算置信区间

有些人更倾向于使用Cumming的ESCI软件（链接：https://thenewstatistics.com/itns/esci/）。请注意，ESCI提供了一个可以计算均值比较的95%置信区间的选项，这个选项对于独立样本和非独立样本t检验都适用。然而，这个选项有点隐蔽——你需要把界面移到屏幕右边，就可以看到一个box。不知道Cumming为什么会把这么重要的选项设置得如此隐藏，以致很多人发邮件进行询问。在点击box后，会在左边出现一个新的界面来计算均值比较的95%置信区间（请看第二个截屏）。

6.总结

根据APA于2018年年初发表的期刊论文报告标准（Appelbaum et al., 2018, American Psychologist, 见我们之前的推送），对于推断统计，最好报告置信区间。

从我们上面的介绍来看，置信区间的计算并不难，它可以告诉你所测量和感兴趣的效应量变异是多少。置信区间、效应量和P值（这些都是基于统计检验和自由度来计算的）提供了不同但相关的信息。Daniel Lakens 推荐，应该尽可能多地报告与你研究问题相关的统计结果。

在文章后续评论中，Daniel提到在计算标准化的效应量时，有人向他建议Rasch模型可以作为一种更好的选择，大家可以进行相关尝试（链接：https://www.researchgate.net/publication/45185202_Effect_sizes_can_be_misleading_Is_it_time_to_change_the_way_we_measure_change?ev=prf_pub.）；在此链接中提供了有关“解释相关效应只能使用估算”这一观点的反驳。

参考文献：

Appelbaum, M., Cooper, H., Kline, R. B., Mayo-Wilson, E., Nezu, A. M., & Rao, S. M. (2018). Journal article reporting standards for quantitative research in psychology: The APA Publications and Communications Board task force report. American Psychologist, 73(1), 3-25. doi:10.1037/amp0000191

Lakens, D. (2013). Calculating and reporting effect sizes to facilitate cumulative science: a practical primer for t-tests and ANOVAs. Frontiers in Psychology, 4, 863. doi:10.3389/fpsyg.2013.00863

Smithson, M. (2001). Correct confidence intervals for various regression effect sizes and parameters: The importance of noncentral distributions in computing intervals. Educational And Psychological Measurement, 61(4), 605-632. doi:10.1177/00131640121971392

Steiger, J. H. (2004). Beyond the F Test: Effect Size Confidence Intervals and Tests of Close Fit in the Analysis of Variance and Contrast Analysis. Psychological Methods, 9(2), 164-182. doi:10.1037/1082-989X.9.2.164

胡传鹏, 王非, 过继成思, 宋梦迪, 隋洁, 彭凯平. (2016). 心理学研究中的可重复性问题：从危机到契机. 心理科学进展, 24(9), 1504–1518 doi:10.3724/SP.J.1042.2016.01504

文中提到的相关工作：

SPSS工具及相关文档：链接：https://pan.baidu.com/s/1jJfsXgi 密码：swzr

JASP：https://jasp-stats.org/download/

翻译：朱桦

校对：王凤娟、陈圣栋、刘拓、陈绍庆、陈力天

排版：施赛男、刘拓

编辑：胡传鹏

*** 往期文章 ***

How to Justify Your Sample Size

科学传播中的衰减效应

开放工具 | 如何在国内注册OSF

【新闻】APA更新了心理学定量和定性期刊论文的报告标准！

……

大摩宏观策略谈：2025中美变局展望

假设，你遇到麦琳怎么办？

董事长两口子不干了，至暗时刻谁是白衣骑士

2024年心理咨询师报名通道开启！可考心理证书，无需辞职，名额有限，11月30日截止报名！！！

吴京捧红的白眼狼，爆红后却反咬一口，如今落魄到无戏可拍