又一心理学研究重复实验收官,28项研究仅能重复14项 | 论文推荐
许多心理学研究无法通过重复实验的检验,其中不乏一些具有较大影响力的研究,但这对心理学界来说可能是件好事情。
图片来源:Pixabay
编译:三水
编辑:戚译引
近年来,心理学研究可重复性的问题得到了大量的关注。Psychological Science 期刊甚至为此增加了一个新的文章分类,名为“注册定向重复”(Preregistered Direct Replications,PDRs),用于发表对已发表在APS旗下期刊中研究的重复研究,于 2017 年 8 月推出。
很多研究者们致力于重复经典研究,但是结果并不尽如人意,比如经典的棉花糖实验和斯坦福监狱实验。越来越多的证据表明,在已发表的关于社会行为的研究中,能够重复结果的研究的比率小于研究者预期的比率。2018 年,Camerer 等人选取了 21 项发表在 «Science» 和 «Nature» 上的关于社会行为的研究,结果仅成功重复了其中 13 项。
最近刚刚完成的一项大规模重复性研究也得到了相似的结果。这个项目被称为 Many Labs 2,由位于美国弗吉尼亚州夏洛茨维尔(Charlottesville)的开放科学中心(Center for Open Science)开展,心理学家 Brian Nosek 主持。在过去的几年里,,这个由近 200 名心理学家组成的国际化团队尝试重复 28 个心理学研究的结果,仅有 14 项研究被成功重复。
在这项研究中,研究者们通过公开提名、参考研究团队以及专家意见,筛选出需要重复的研究,得到了每个研究初始使用的材料,并且请相关专家(一般是研究的原作者)来审查重复研究方案。重复实验最终在 36 个国家和地区的 60 个不同的实验室进行,参与者共 15305 名。相关论文于 11 月 19 日以预印本的形式发表于 «Advances in Methods and Practices in Psychological Science» 。
Many Labs 2 团队试图重复那些备受关注、引用数量较高的研究。例如,Van Lange 等人 1997 年的研究发现,社会价值取向取决于社会交往经验,个体的兄弟姐妹数量与其亲社会取向显著相关,然而重复研究发现二者之间并不存在相关性;Anderson 等人 2012 年对社交地位、社会经济地位和主观幸福感之间的关系进行了研究,发现高社交地位个体的主观幸福感高于低社交地位的个体,而重复研究也得到了与之相反的结果,即高社交地位个体的主观幸福感更低。
“研究重复失败常常被认为是因为实验条件改变了,参与者是不同的,”Nosek 说,“这个解释具有一定的可能性,但是并不令人满意,因为我们不知道这种差异为什么如此重要。”在这项研究中,研究者们发现参与者的多样性对研究能否被重复几乎没有影响。“参与者的异质性确实会产生影响,但是并不像我们想像的那么大,也不能解释为什么有些研究会重复失败,”Nosek 说。
Many Labs 2“被明确用来探究地区和文化差异对研究可重复性的影响”,SIPS(Society for the Improvement of Psychological Science)主席 Katie Corker 说,“结果令人惊讶:根本没有多大的影响。”也就是说,如果一个团队成功地重复了这一研究,那么其他团队也能成功;反之如果一个团队的重复性研究失败了,那么其他团队也倾向于失败。
加州大学戴维斯分校(University of California at Davis)的 Simine Vazire 表示:“(心理学家)应该承认我们的研究结果并不像我们希望的那样,或者是我们在媒体或政策制定者面前宣称的那样显著。短期看来这可能会损害我们的信誉,但是从长远角度来看,在如此有力的证据面前否认这个问题会造成更大的损失。”
多伦多大学士嘉堡分校(University of Toronto Scarborough)的心理学家 Yoel Inbar 参与了 Many Labs 2 项目,他很惊讶自己的研究没有被复制成功,但是并没有质疑研究结果。他说:“我们可能只是很幸运,因为最初的样本量很少;也可能是随着时间的推移,人们的态度发生了变化。”
Inbar 表示,他最初的研究也存在缺陷,他使用了一位同事为另一项研究收集的数据。“如今,我绝不会再采取那种投机取巧的方法,”他说。近年来对研究可重复性的关注可能改变了许多如 Inbar 一样的心理学家的工作方式。
也有很多研究者对此事持有一种积极的态度。俄勒冈大学(University of Oregon)的 Sanjay Srivastava 认为,Many Labs 2 的结果虽然说明了大量研究的重复失败可能是由于不严谨的实验室研究,但是另一方面,这也正恰恰说明创设严谨的实验室条件来研究棘手的、难以捉摸的、复杂的人类内心世界是有效的。“现实世界的心理现象可能会随着环境的变化而变化,”他说,“但是在我们精心设计的实验室条件下,结果并不混乱,并且是可以预测的。这意味着我们可以进行有效的社会科学研究。”
德国维尔茨堡大学(University of Würzburg)的心理学家 Fritz Strack 则认为,每一次重复研究都能告诉我们更多关于该结果的影响因素。他说:“重复性研究应该致力于在何种条件下能够得到哪种结果,而不是宣称另一个经典的研究结果为‘假阳性’。”
正如 Nosek 所言,正在进行的重复性研究是很重要的:它确保重复性研究本身是可重复的,并且对前人的研究工作作出了修正。“这就是科学进步的方式:批评,以及用更多的证据来检验批评的可行性,”他说。
本文来自微信公众号“科研圈”。如需转载,请在“科研圈”后台回复“转载”,或通过公众号菜单与我们取得联系。原始文章请点击“阅读原文”。
论文信息
【标题】Many Labs 2: Investigating Variation in Replicability Across Sample and Setting
【期刊】Advances in Methods and Practices in Psychological Science
【作者】Richard A. Klein et.al
【时间】19 November 2018
【DOI】10.31234/osf.io/9654g
【摘要】We conducted preregistered replications of 28 classic and contemporary published findings with protocols that were peer reviewed in advance to examine variation in effect magnitudes across sample and setting. Each protocol was administered to approximately half of 125 samples and 15,305 total participants from 36 countries and territories. Using conventional statistical significance (p < .05), fifteen (54%) of the replications provided evidence in the same direction and statistically significant as the original finding. With a strict significance criterion (p < .0001), fourteen (50%) provide such evidence reflecting the extremely high powered design. Seven (25%) of the replications had effect sizes larger than the original finding and 21 (75%) had effect sizes smaller than the original finding. The median comparable Cohen’s d effect sizes for original findings was 0.60 and for replications was 0.15. Sixteen replications (57%) had small effect sizes (< .20) and 9 (32%) were in the opposite direction from the original finding. Across settings, 11 (39%) showed significant heterogeneity using the Q statistic and most of those were among the findings eliciting the largest overall effect sizes; only one effect that was near zero in the aggregate showed significant heterogeneity. Only one effect showed a Tau > 0.20 indicating moderate heterogeneity. Nine others had a Tau near or slightly above 0.10 indicating slight heterogeneity. In moderation tests, very little heterogeneity was attributable to task order, administration in lab versus online, and exploratory WEIRD versus less WEIRD culture comparisons. Cumulatively, variability in observed effect sizes was more attributable to the effect being studied than the sample or setting in which it was studied.
参考资料:
https://www.nature.com/articles/d41586-018-07474-y
https://www.theatlantic.com/science/archive/2018/11/psychologys-replication-crisis-real/576223/
https://www.psychologicalscience.org/publications/observer/obsonline/psychological-science-introduces-new-replication-category.html
阅读论文解读及推荐
点击👉关注领研网论文频道。
▽ 精彩回顾 ▽