统计知识 | 使用SPSS、R和JASP计算效应量的置信区间
点击上方蓝字“OpenScience”一起畅游科学
本文以Daniel Lakens的博客为基础,在翻译的同时进行相关删减和补充,旨在讲解常见效应量的置信区间的获得方法,但并未对其原理进行详细介绍。若想进一步了解效应量这一概念,请配合文末的参考文献一起阅读,使用效果更佳^_^
博客地址:http://daniellakens.blogspot.de/2014/06/calculating-confidence-intervals-for.html
1. 什么是效应量(effect size)
效应量是研究者所感兴趣效应的量化指标,常见的效应量指标如下表所示(引自胡传鹏等人, 2016, <心理科学进展>):
在心理学研究中,最常用的效应量有两种:一种是表示相关性的效应量(correlational),常见的指标有r(r^2)和R(R^2),其中η^2也是r“家族”中的一个;另一种是均值差异(mean difference),常见的指标如本文重点介绍的cohen's d等。
Cohen's d 主要用于t-test,表明两个均数之间的标准差异;而η^2(偏η^2)主要用于ANOVA,表明与变量X的水平变化有关的变量Y的变化比率。对效应量的详细解释可以参见Lakens(2013)
2. 什么是置信区间?
(以下引自台湾慈济大学陈绍庆老师,详见confidence interval,博客链接:http://scchen.com/en/)
任何统计检定得到的统计值与效果量(effect size,大陆教材中翻译为效应量),都是一种点估计(point estimation)。信赖区间(confidence intervals,CIs,大陆教材中翻译为置信区间)是点估计加上抽样误差范围的上下边界,边界是平均值加上及减去临界统计数(大陆课本翻译为临界值)与估计标准误的乘积,临界统计数是我们在分析前宣告的p值,所对应的统计数。
3.η^2置信区间的计算
3.1 使用SPSS计算η^2的置信区间
首先,从Karl L Wuensch的网站上下载CI-R2-SPSS.zip(文末百度云链接中的CI-R2-SPSS.zip,网址:http://core.ecu.edu/psyc/wuenschk/StatHelp/StatHelp.htm)。这个程序来自于M. J. Smithson,但Smithson的网站似乎已经无法访问了。感谢Karl L Wuensch,他在个人网站提供了非常有用的资源,包括该程序以及详细的SPSS操作指南。下载压缩包解压后包括如下文件:NoncF3.SPS; NoncF.sav; F2R2.SPS和说明文件CI-R2-SPSS.docx。
下面以一个具体的实验为例,程序要求在这个设计中方差分析的所有因素都是固定的(fixed,例如,实验操纵的变量),而不是随机的(random,例如实际测量的变量)。对于随机因素的计算可能需要到这个网站(http://www.statpower.net/Software.html#R2)上去寻找其他工具。
首先,打开NoncF.sav文件(此处的数据为非中心F分布,详细请看OSC blog,http://osc.centerforopenscience.org/2014/03/06/confidence%20intervals/),你会看到如下SPSS窗口,其中只有conf这一列上出现了.95,其他行都是空的。接下来,只需要在SPSS中填入相应的数字,运行脚本NonCF3.SPS。
假设你的η^2结果如下:F(1,198)=5.72。你需要报告这个结果的偏η^2和置信区间。在第一列中输入F值(fval)5.72,在第二(df1)和第三列(df2)分别输入自由度(第二列填1,第三列填198),再把conf这一列的.95改成.90(原因见下文),最后打开NoncF3.sps,运行脚本,这样你就在SPSS文件中剩余的列中得到你的结果(见下图)
最后三列数据是我们感兴趣的:r2即r2或η^2 =.028,其置信区间的下限值(lr2, 0.0026)和上限值(ur2, 0.0756),这就得到了90%的置信区间为[.003; .076]。
就这么简单。
为什么要报告η^2检验的90%而不是95%的置信区间
正如前文所提到的,我们在计算置信区间时,把0.95修改成了0.9。关于这个问题Karl Wuensch已经其网站的文档中使用例子进行了清楚的解释(文末百度云文件中的CI-Eta2-Alpha.doc)。如果你不想阅读这个文件,大致的意思是这样的:均值之间的差异可以是正值也可以是负值,但是r^2或η^2是平方值,只有正值。这是因为F检验总是单侧检验(所以当你得到F双侧检验的p=.08时,不要报告为单侧p=.04)。如果你计算95%的置信区间,你可能会得到包含0的置信区间,但此时p值可能小于.05。这样一来,置信区间的结果与p值就存在显著差异。Steiger(2004)的文章解决了这个问题(链接:http://www.statpower.net/Steiger%20Biblio/Steiger04.pdf)。他认为,均值比较的95%置信区间和η^2的90%置信区间得到的检验效力是一样的,而且η^2检验的值不可能小于0,所以与0不存在显著差异的置信区间(通常情况下不包含0)的下限至少要从0开始。你报告的结果应该是[.00, .XX]这样的90%置信区间,.XX是置信区间的上限。
3.2 使用R(或R studio)计算η^2的置信区间
要使用R计算置信区间,你需要先安装R,并且安装MBESS工具包(安装R、Rstudio和MBESS所花费的全部时间可能也比启动SPSS少)。
要计算固定因素方差分析(a fixed factor analysis of variance)中所得到效应量(r2,η^2或偏η^2)的置信区间,我们需要ci.pvaf函数:
ci.pvaf(F.value=5.72,df.2=198,N=200,conf.level=.90)这个语句是用于给出F值,自由度,样本量(在SPSS中不需要)和置信水平(.90而不是.95,见下文)。之后你可以看到如下输出:
我们可以看到,结果和上述使用SPSS计算出的η2的区间下限和上限(.003和.076)是一致的。不过遗憾的是,MBESS不会给出偏η^2的结果,所以你需要再使用SPSS计算出它(或者你也可以使用Lakens 2013年在Frontiers的那篇文章中所提供的Excel表格进行计算)。
在一些组内或者被试内设计中,MBESS工具包会出现错误。举例来说:
Error in ci.pvaf(F.value=25.73,df.1=2,df.2=28,N=18,conf.level=0.9): N must be larger than df.1+df.2
在组间设计(样本量大于自由度)中这个结果是正确的,但是在组内设计(在许多检验中样本量通常小于自由度)中这个结果是错误的。在Lankens的博客上,贴出了Ken Kelly(MBESS工具包的开发者)改写的ci.pvaf函数。这个代码会得到与前面提到Smithson的SPSS中代码一样的结果(至少小数点后4位)。
library(MBESS) Lims <- conf.limits.ncf(F.value = 7, conf.level = 0.90, df.1 <- 4, df.2 <- 50) Lower.lim <- Lims$Lower.Limit/(Lims$Lower.Limit + df.1 + df.2 + 1) Upper.lim <- Lims$Upper.Limit/(Lims$Upper.Limit + df.1 + df.2 + 1) Lower.lim Upper.lim4.Cohen's d及其置信区间的计算
4.1 使用JASP计算Cohen's d:
Cohen'd 是另一个常用的效应指标。SPSS不提供Cohen's d的输出,更没有其置信区间。最近新出的免费统计软件JASP(下载地址:jasp-stats.org)中,可以很方便地计算Cohen's d以及其置信区间。见下面的gif动图。遗憾的是,目前JASP不提供η^2置信区间的计算。
4.2 使用SPSS计算均值比较(Cohen’s d)的置信区间
Karl Wuensch修改了Smithson的文件(2001)并创建了一个用于计算Cohen’s d的效应量的zip文件(文末百度云链接中的CI-d-SPSS.zip),这种方法与计算η^2的置信区间的方法几乎一样(除了配对样本t检验,进一步阅读:这里和这里)。打开NoncT.sav文件,你会再次看到几乎没有数据的数据行,你只需要填入t值和自由度即可。注意(正如Wuensch在文件中解释的一样):如果你填入一个负的t值,SPSS就会出问题,所以在这种情况下需要填入正的t值,然后再调换置信区间的上下限的符号。
如果你的t检验的结果为t(198)=2.39,那么你在第一列中填入2.39,在第二列中填入198。对于单样本t检验来说这样就足够了,如果是双样本t检验,还需要再填入n1和n2的样本大小(比如二者都是100个被试)。打开T-D-2sample.sps并运行它。在最后的三列中,你将会得到Cohen’s d(0.33)和95%的置信区间的上下限[0.06, 0.62]。
4.3 使用R计算Cohen'd
在MBESS中,你可以用如下语句来计算95%的置信区间:
ci.smd(ncp=2.39, n.1=100, n.2=100, conf.level=0.95)ncp(非中心参数)听起来像是个很复杂的概念,但它其实只是一个t值(在我们的例子中是2.39)。n.1和n.2是两组被试的样本量。之后你会得到如下输出:
是的,这就是使用SPSS与R的全部步骤。如果在运行时遇到一些问题,MBESS工具包里的说明书和由Wuensch撰写的教程应该可以帮助你解决。
5.使用ESCI计算置信区间
有些人更倾向于使用Cumming的ESCI软件(链接:https://thenewstatistics.com/itns/esci/)。请注意,ESCI提供了一个可以计算均值比较的95%置信区间的选项,这个选项对于独立样本和非独立样本t检验都适用。然而,这个选项有点隐蔽——你需要把界面移到屏幕右边,就可以看到一个box。不知道Cumming为什么会把这么重要的选项设置得如此隐藏,以致很多人发邮件进行询问。在点击box后,会在左边出现一个新的界面来计算均值比较的95%置信区间(请看第二个截屏)。
6.总结
根据APA于2018年年初发表的期刊论文报告标准(Appelbaum et al., 2018, American Psychologist, 见我们之前的推送),对于推断统计,最好报告置信区间。
从我们上面的介绍来看,置信区间的计算并不难,它可以告诉你所测量和感兴趣的效应量变异是多少。置信区间、效应量和P值(这些都是基于统计检验和自由度来计算的)提供了不同但相关的信息。Daniel Lakens 推荐,应该尽可能多地报告与你研究问题相关的统计结果。
在文章后续评论中,Daniel提到在计算标准化的效应量时,有人向他建议Rasch模型可以作为一种更好的选择,大家可以进行相关尝试(链接:https://www.researchgate.net/publication/45185202_Effect_sizes_can_be_misleading_Is_it_time_to_change_the_way_we_measure_change?ev=prf_pub.);在此链接中提供了有关“解释相关效应只能使用估算”这一观点的反驳。
参考文献:
Appelbaum, M., Cooper, H., Kline, R. B., Mayo-Wilson, E., Nezu, A. M., & Rao, S. M. (2018). Journal article reporting standards for quantitative research in psychology: The APA Publications and Communications Board task force report. American Psychologist, 73(1), 3-25. doi:10.1037/amp0000191
Lakens, D. (2013). Calculating and reporting effect sizes to facilitate cumulative science: a practical primer for t-tests and ANOVAs. Frontiers in Psychology, 4, 863. doi:10.3389/fpsyg.2013.00863
Smithson, M. (2001). Correct confidence intervals for various regression effect sizes and parameters: The importance of noncentral distributions in computing intervals. Educational And Psychological Measurement, 61(4), 605-632. doi:10.1177/00131640121971392
Steiger, J. H. (2004). Beyond the F Test: Effect Size Confidence Intervals and Tests of Close Fit in the Analysis of Variance and Contrast Analysis. Psychological Methods, 9(2), 164-182. doi:10.1037/1082-989X.9.2.164
胡传鹏, 王非, 过继成思, 宋梦迪, 隋洁, 彭凯平. (2016). 心理学研究中的可重复性问题:从危机到契机. 心理科学进展, 24(9), 1504–1518 doi:10.3724/SP.J.1042.2016.01504
文中提到的相关工作:
SPSS工具及相关文档:链接:https://pan.baidu.com/s/1jJfsXgi 密码:swzr
JASP:https://jasp-stats.org/download/
翻译:朱桦
校对:王凤娟、陈圣栋、刘拓、陈绍庆、陈力天
排版:施赛男、刘拓
编辑:胡传鹏
*** 往期文章 ***
How to Justify Your Sample Size
……