查看原文
其他

前沿, 终于有人解释为什么顶刊上很少有不显著的结果发表! 背后机理?

计量经济圈 计量经济圈 2022-09-04

凡是搞计量经济的,都关注这个号了

稿件:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

关于不显著,参看11篇重要文章,1.不显著能任性发顶刊!还津津有味地讨论不显著的实证结果!2.SSCI期刊竟公开征集“不显著的实证结果”的专刊文章!3.关于模型中变量选择的五个误区, 譬如不显著的变量需要剔除还是保留?4.为什么回归系数不显著? 5.添加一个新变量能使以前不显著的变量变得显著了?6.核心解释变量A不显著, 但加入变量B后, 为什么A和B都显著了?7.若系数回归结果不显著, 我们能够采取的方法和思路有哪些?8.结果不显著但成功发在Top期刊上的论文有哪些?你心虚过没?9.交互项中主效应不显著, 交互项显著可怕吗? 10.显著不显著的后背是什么, 非(半)参估计里解决内生性,11.试了几百次, 回归结果依然不显著, 到底咋办

计量经济圈公众号搜索功能及操作流程演示

正文

Felix Chopra, Ingar Haaland, Christopher Roth, Andreas Stegmann, 2022. The Null Result Penalty,Working Papers.

In experiments with economists, we measure how the evaluation of research studies depends on whether the study yielded a null result. Studies with null results are perceived to be less publishable, of lower quality, less important, and less precisely estimated than studies with statistically significant results, even when holding constant all other study features, including the precision of estimates. The penalty for null results is of similar magnitude for various subgroups of researchers, from PhD students to editors. The null result penalty is larger when experts predict a non-null result and when statistical uncertainty is communicated in terms of p-values rather than standard errors. Our findings have implications for understanding mechanisms underlying publication bias and the communication of research findings

人们常说,在发表过程中,不显著的结果会受到惩罚,即期刊上很难发现结果不显著的文章。在即将分享的这篇论文中,作者研究了是否存在对不显著结果的研究的惩罚,如果有,什么机制可以解释这种惩罚?

作者招募了 500 多名经济学家作为样本,并要求他们评估不同的假想性研究。作者会就给定的研究做出改变,从而让其拥有较大系数且具统计上显著或拥有较小系数且统计上不显著。

与具有统计显著性结果的研究相比,即使在所有其他研究特征(包括估计的精确度)保持不变的情况下,不显著的结果的研究也被认为更难发表、质量更低、重要性更低且估计精度更低

这种影响是否只在特定的经济学家群体身上出现呢?有趣的是,对于来自博士 生到期刊编辑的各个研究群体,对不显著的结果的惩罚程度相似。

人们想要奖励出人意料的结果吗?实际上,当专家预测到结果应该显著时,你所得到的不显著的结果的惩罚往往更大,这与人们认为发表过程中偏爱出人意料的结果的说法不一致。

不显著结果的惩罚是否取决于如何呈现统计不确定性?是的!我们发现,当不确定性以 p 值而不是标准误来呈现时,不显著的结果的惩罚更大

我们的研究结果强调了,①结果还未得到之前就对文章进行评审的潜在价值,即在已知实证经验结果之前做出发表决定。

我们的研究结果还表明,②期刊应该告知审稿人不显著的结果的信息量和重要性,从而为其提供关于研究评估的附加指南。最后,我们研究的一个实际意义是,③根据标准误而不是 p 值来呈现结果的统计不确定性可能有助于抵消统计推断中的潜在错误


简要说明:

在与经济学家的实验中,我们测度,对学术研究的评估是如何取决于它们是否产生显著或不显著的结果。与具有统计显著性结果的研究相比,即使在所有其他研究特征(包括估计的精确度)保持不变的情况下,不显著结果的研究被认为更难发表、质量更低、重要性更低且估计精度更低。对于从博士生到期刊编辑的各种研究人员子样本中,不显著结果的惩罚程度相似。当专家预测觉得该研究结果是显著的,并且统计中的不确定性以 p 值而不是以标准误形式呈现时,不显著结果的惩罚程度会更大。我们的研究结果对理解发表偏差的机制和研究结果的交流具有重要意义。
内容介绍:
科学方法的特点是研究人员用经验证据检验假设。证据随着科学期刊上研究的发表而被不断积累。因此,科学的进步依赖于一个运作良好的发表系统,该系统可以无偏见地评估各种研究。然而,发表系统可能更倾向于报告系数大且在统计上显著的研究论文,而非那些系数小且统计上不显著的的研究论文 (可以看看,Camerer et al., 2016; Simonsohn et al., 2014)。这种类型的发表选择可能会导致已发表的研究中出现有偏差的估计和误导性的置信度集。
在本文中,我们调查发表系统中是否存在对不显著结果的研究的惩罚,如果有,什么机制可以解释这种惩罚。为了解决这些问题,我们对来自世界前200强经济系的大约 500 名研究人员进行了抽样实验。主要处理方法因研究结果是否在统计学上显著而存在差异。获得与未获得统计上显著的结果的研究可能在重要性方面存在系统性差异。例如,获得统计上显著的结果的研究平均而言可能具有更高的估计精度,从而更可能产生统计显著的结果。因此,为了研究不显著的结果是否会受到惩罚,我们依赖于一种保持所有其他研究特征不变的实验方法。在主实验中,我们向实验参与者展示了四个基于实际研究的假想小片段,不过根据实验目的对他们进行了修改。对于四个小片段中的每一个,我们随机化处理效应的系数,从而让它足够大以及统计上显著,或者接近于零以及统计上不显著。在不同处理中都保持标准误不变,以使不显著的结果与较低的估计精度无关。
为了检查研究结果的评估如何依赖于专家先验知识,我们交叉随机化了小片段是否包含专家对处理效应的预测。对于包括专家预测的小片段,我们进一步随机化专家预测是不显著的结果还是显著的结果。为了检查不显著的结果的潜在惩罚是否取决于主要结果的统计不确定性,我们在受访者层面交叉随机化了主要发现的统计精度是否以 p 值或标准误的形式呈现的估计。最后,为了混淆研究的目的,我们进一步交叉随机化了一系列其他显著的研究特征,包括研究团队的资历及其所在大学。
我们感兴趣的是关于研究可发表性的信念。通过询问受访者他们认为相关研究将在特定期刊上发表的可能性来引发这些信念。我们在小片段中交叉随机化所讨论的期刊是综合性期刊还是领域期刊。为了检验机制,我们进一步引出了关于研究质量和研究重要性的私人信念,以及其他研究人员对研究质量和重要性评估的信念。
我们发现,即使在所有其他研究特征(包括估计的统计精度)保持不变的情况下,具有不显著的结果的研究往往被认为不太可能发出来,即使被发表出来,其研究质量和重要性也低于具有统计显著性结果的研究。具体而言,不显著的结果使我们的受访者认为该研究的发表几率降低了14.1个百分点(或24.9%)(95% C.I. [-16.2,-11.9];p < 0.001)以及存在低质量问题的几率上升了37.3%(95% C.I. [-49.6,-25];p < 0.001), 研究的重要性几率降低了32.5%(95% C.I. [-43,-21.9];p < 0.001)。此外,受访者还认为,其他研究人员会将不显著的结果,与该研究存在低质量问题和研究不重要联系起来。
对于从博士生到编辑的各种研究人员子样本,不显著结果的惩罚的幅度相似。这表明,不显著结果的惩罚不是由于对发表过程本身缺乏经验造成的。相反,我们发现,即使是高被引的研究人员和科学期刊的编辑也认为不显著的结果的研究更难发表,质量也更低。
学术界长期以来的一个担忧是,过度关注 p 值可能会放大与科学发现的可重复性和可复制性相关的问题。为了检验如何在研究中呈现统计不确定性的潜在作用,我们通过是否向受访者提供有关研究小片段中呈现的主要估计量的 p 值或标准误的信息来检验处理效应的异质性。我们发现,当使用 p 值报告主要结果时,不显著的结果的惩罚要增大 3.7 个百分点(95% C.I. [-7.9,0.60];p = 0.092)。此外,使用 p 值而不是标准误报告结果进一步导致受访者将不显著结果的研究与低研究质量问题联系起来,具体地,他们认为存在低质量问题的几率上升34.4%(95% C.I. [-58.3,-10.4];p = 0.005),而且,他们认为其他研究人员会将这项研究与存在低质量问题的几率上升36.2% (95% C.I. [-59.8,-12.6];p = 0.003)。
不显著结果的惩罚可能导致已发表研究中的有偏估计和误导性置信度集。但是,根据发表过程背后的社会目标,不显著结果的惩罚可能是最佳的。例如,如果决定发表哪些研究是出于最大化政策影响的期望,那么 Frankel 和 Kasy(2022 年)研究表明,这规定了一个基本发表规则,该规则有利于那些相对于先前研究有出乎意料发现的研究。为了检验这是否可以解释我们的结果,通过不显著的结果是否与专家预测保持一致来检验处理效应的异质性。首先,我们发现当受访者额外收到不显著结果的专家预测时,不显著的结果的惩罚不变。其次,我们发现当不显著的结果与专家预测不一致时,不显著的结果对可发表性的负面影响会加剧:受访者认为,不显著结果的研究发表的几率会进一步降低6.3个百分点(95% C.I. [-11.4,-1.1];p = 0.018)。这些模式与受访者认为发表过程有利于出乎意料结果的研究的猜想不一致。此外,我们发现是否接受专家对处理效应的预测对文章质量的感知没有显著差异(95% C.I. [-40.9,24.2];p = 0.615)。这表明,受访者在收到不同的专家预测时,不会对不可观察的研究特征做出差异性推断,而是认为在发表过程中,出乎意料的不显著的结果被严重打折扣了。
考虑到我们修正了受访者对处理效应标准误差的看法,这一发现与贝叶斯关于学习不可观察对象的解释不一致,相反,这表明研究人员可以使用简单的启发式方法来评估研究发现的统计精度。特别是,数据表明,研究人员可能会因为统计推断的错误而发表系统中惩罚不显著的结果。



下这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

3.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存