查看原文
其他

实锤! TOP刊上30%文章使用控制变量实现统计和经济显著性!

计量经济圈 计量经济圈 2022-12-13

凡是搞计量经济的,都关注这个号了

稿件:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

相关文章,参考:1.如何在实证研究中操纵结果而不被发现?2.实证研究中的P值: 误解, 操纵及改进, 探析P值操纵表现及原因,提出相应的改进策略,3.AER强调计量方法的重要性, 经济学因果分析中的p值操纵和发表偏倚!4.DID和IV操纵空间大吗? 一切皆为P-hacking,5.800名科学家联合呼吁, 停止使用统计学上的P值

在不透明的情况下使用控制变量实现统计显著性

正文

关于下方文字内容,作者:蔡靖鸿,英属哥伦比亚大学国际经济,通信邮箱:choichoi88666@gmail.com

Lenz, G., & Sahn, A. (2021). Achieving Statistical Significance with Control Variables and Without Transparency. Political Analysis, 29(3), 356-369. doi:10.1017/pan.2020.31

How often do article depend on suppression effects for their findings?How often do they disclose this fact?By suppression effects, we mean control-variable-induced increases in estimated effect sizes. Researchers generally scrutinize suppression effects as they want reassurance that authors have a strong explanation for them, especially when the statistical significance of the key finding depends on them. In a reanalysis of Observational studies formal leading journal,we find that over 30% of articles depend on suppression effects for statistical significance. Although increases in key effect estimates from including control variables are of course potentially justifiable, none of the articles justify or disclose them.These findings may point to a hole in the review process: journals are accepting articles that depend on suppression effects without readers, reviewers, or editors being made aware.

在不透明的情况下使用控制变量实现统计显著性

目录
一 摘要 1
引言 1
数据 2
遮掩效应在观察研究的频率与披露 3
遮掩效应在实验研究的频率与披露 5
稳健性以及潜在的反对意见 6
讨论与结论 8
一 摘要:
本文以在2013至2015年期间在American Journal of Political Science (AJPS)发表的论文为样本,重新检验了每一论文的主要发现。本文发现超过30%的观测研究取得的统计显著是基于遮掩效应( suppression effect)。尽管研究人员增加控制变量,得到对主要解释变量回归系数更高的估计,这种方法是合理的,但是没有一篇论文对此有披露。此发现可能指出审查过程中存在问题,即期刊在读者、审稿人或编辑不知情的情况下,接受依赖于抑制效应的文章。
二 引言
本文定义遮掩效应为,通过增加控制变量的方式使得主要变量回归系数增长的现象。已有研究表明,除非存在对研究结果强而有力的解释,不然遮掩效应仅仅只是统计回归的产物(Crede,Gelman,and Nickerson 2016)。本文对研究多常依赖于遮掩效应这一问题进行研究。尽管遮掩效应需要被谨慎审阅,但是作者具有强而有力的解释,那么遮掩效效应可被读者接受。尽管遮掩效应是合理的,但它们应进行更严格的审查。原因如下:
1 Robustness(稳健性):当研究人员发现有一个很强的二元关系,在每个控制变量加入时仍保有强关联性,他们对此发现感到自信,它似乎是稳健的。相反,当研究发现依赖于遮掩效应,那么研究发现可能在其他模型下并不稳健。
2遮掩效应可能会引入偏差。我们举例说明。在有一个主要变量以及10个控制变量,其中这10个控制变量中,前5个控制变量增加对主要效应的估计,其余5个减少对主要效应的估计。当研究人员依次添加这些控制变量时,只添加前五种控制变量的模型会产生向上偏差,原因是他们忽略了其他因素。只有当10个控制变量全部添加时,对主要变量回归系数才是无偏差。因为读者并不知道真正的数据搜集过程,他们并不清楚某些控制变量已被剔除。并且研究人员具有强烈的意愿去发表获得统计显著的文章,他们可能有意或者无意地利用遮掩效应。因此遮掩效应会导致偏差产生,读者没有意识到,所以需要更严格的审查。与之相反,当控制变量减少对主要效应估计时,它们与作者出版文章的意愿相违背,因此需要较少的审查。
3 控制变量可能会引入偏差。作者有意或无意地增加控制变量,引入的偏差可能对作者有利,更容易发表文章。引入的偏差可能是通过放大偏差以及中介效应,导致更大的主要变量回归系数对以及更小的p-值。
到底多少文章所取得的统计显著是取决于未披漏的遮掩效应?本文通过复刻领先期刊的研究来回答这一问题。我们对含有控制变量的完整模型以及剔除控制变量的二元模型分别进行检验,并且比较二者其主要变量回归系数的绝对值大小。具体来说,我们关注多少文章取得的主要效应显著是基于遮掩效应,或者多少文章是通过增加控制变量方式获得更大的主要变量回归系数。
本文研究发现,超过有30%的观测研究取得的统计显著是基于遮掩效应,并且这些文章并没有披露这一点。这些发现可能指向了审阅过程中的问题: 期刊发表的文章依赖于遮掩效应,但读者、审查员、编辑并没有意识到。这一发现加强了对于研究人员可以自由地选择控制变量的担忧(Leamer 1983)。复刻实验以及综合分析表明相当一部分的研究是属于假阳性或者过高估计了真实效应(Ioannidis 2005; Klein et al. 2014, 2018; Ioannidis, Stanley, and Doucouliagos 2017)。同时,研究发现也指出了统计检验中存在可疑模式。未披露的遮掩效应可能是其中一种可疑模式。而对此最简单的解决方式,期刊审查人员以及编辑要求投稿文章具有更高的透明性。
三 数据
我们重新分析了在American Journal of Political Science (AJPS) 发表的文章。AJPS是最早采用严格的数据透明政策的社会科学期刊之一。此期刊强制要求作者提交数据以及代码。我们分析了来自AJPS 2013-2015的文章,这些文章需要具有单一的因果声明,并且具有至少一个控制变量的标准统计模型。在163篇文章中,64篇符合这一要求。其中,共有49篇属于观察研究,15篇属于实验研究文章。这些文章的最终模型平均包含9个控制变量。

如图一所示,我们复刻并且再现这些文章的主要发现,包括主要解释变量的系数估计以及其标准误差。

四 遮掩效应在观察研究的频率与披露
我们首先研究观察研究中多常使用控制变量来达到统计显著。每一篇论文,我们检验控制变量对主要解释变量回归系数的影响。其中,主要解释变量是文章试图建立因果关系的变量。当研究设计或者识别因果关系策略中要求变量具有特殊模式(例如,交互作用项的主要效果,滞后因变量,固定效应),我们把这类也纳入二元回归模型。

图二展示从二元模型到含有控制变量的模型p-值的变化,以及研究人员披露二元模型的频率。图像中,箭头的起点为没有控制变量模型的p-值,终点为含有控制变量的完整模型p-值。当控制变量使主要效应估计的p值下降,箭头朝下;反之,当控制变量使主要变量回归系数的p值上升,箭头朝上。图二指出,存在大量箭头朝下。但当研究者加入控制变量,大多数p值下降,从高于%5到低于5%。需要指出,仅有当系数的绝对值上升,p值的下降才能称为遮掩效应,因为p降低也可能是由于较小的标准误差。

图三为本文的主要发现。为了研究遮掩效应,我们把p-值的变化分为两类情况:1因更小的标准差引起的p-值变化,用虚线表示;2。仅因系数改变引起的p-值变换(遮掩效应),用实线表示。在49份观察研究中,其中的20份,遮掩效应帮助文章p-值低于0.05。尽管并不是所有文章是通过完整模型来取得显著统计,但p-值的下降可能对出版文章至关重要。

另外,未披露遮掩效应的文章大约贡献了出版的40%(19/49)。我们保守估计大约30%(15/49)。另外,当观察研究并没有披露二元模型时,读者应该假设大约55(19/34)这类文章所取得的统计显著是基于遮掩效应。 
遮掩效应在p-值的效应巨大,特别在未披露遮掩效应的文章中。在展示二元估计的文章,p-值大约稍微上升0.001;在并没有展示二元模型的文章下,p-值在加入控制变量的情况下平均下降0.33。披露与未披露遮掩效应文章比较,二者p-值之差为统计显著。如果限制p-值在仅因系数改变,没有披露二元模型文章的p值平均下降0.29,且二者p-值之差为统计显著。

为了显示控制变量是如何引起图二和图三中的p值变化,图四给出了从二元到多元回归对主要解释变量的系数对数变化和标准差的对数变化。每一点表示系数和标准误差对数变化,并按照p-值改变来排序。遮掩效应发生在多众情况中。如果遮掩效应并不影响研究的统计显著,那么遮掩效应,甚至作者并没有合理的解释,也并不会产生问题,因为统计显著并不依赖于此。图像表明即使是对主要解释变量的系数估计小小变化,也会对统计显著产生巨大的影响。

遮掩效应是否能被接纳取决于作者是否有合理的解释。为何主要变量回归系数估计需要这些控制变量?如果作者对此有合理解释,遮掩效应是可被接受的。然而许多研究并没有合理的解释。在一些文章中,作者依靠不寻常的控制变量获得统计显著以及更大的主要解释变量的系数。这些控制变量加入到完整模型中是存在争议的,如post treatment 变量;另外一些改变原本含义的变量,如滞后因变量,特别是当作者并没有解释这一改变。如果作者提醒了读者遮掩效应的存在,这些存在问题的控制变量在审阅阶段变得难以忽视。
五 遮掩效应在实验研究的频率与披露

实验研究是在大样本中随机处理,遮掩效应在实验研究中比较少见。与观察研究相比,研究人员在大样本中随机分配处理,主要变量与控制变量的相关性是最小的,特别是随着样本量的增加。所有我们检验的实验研究都是采用随机分配的方法,以及基于大样本。样本量的中位数为N=868,最小的样本量也有N=156。图五展示,很少的实验研究的p-值会在加入控制变量的情况下减少。随机实验具有许多优点,其中更少受到研究人员的自由地选择变量的影响。

六 稳健性以及潜在的反对意见

图二图三为本文的主要发现,且这发现是稳健的。如图六所示,当研究人员并没有披露二元模型,添加控制变量会使p-值下降,这一发现在不同子集之间保持一致。当研究人员使用固定效应或不使用固定效应时,另外当我们排除效应符号翻转的情况后,P值会下降。p-值在APJS中的三卷,在每个量化分支(American,comparative,international relation)也下降。当二元模型/最简化模型中不包含任何协变量与当我们必须添加协变量在最简化模型使得模型合理时,p-值也会因遮掩效应而下降。最后,在对照组数目少于中位数(8个)的研究中,以及在对照组数目多于中位数的研究中,p-值也会下降。

对我们关键发现的解释之一,研究人员没有展示二元模型是因为他们研究的课题控制变量是众所周知。另一的解释来源于期刊审阅过程的激励机制。研究人员可能认为,如果他们披露遮掩效应,期刊审查人员会拒绝他们投稿。在我们的观察下,只有一出版研究依赖于遮掩效应,并对此做出披露。如果这是作者的动机,它指出了审查过程中的一个漏洞,因为审查人员应该评估添加控制变量其合理性。
另外,当控制变量之间存在不同的组合,我们认为研究人员低估控制变量带来的差异。

研究文章表中常常包含几种回归模型,研究人员按照顺序依次添加控制变量,但这些控制变量可能有几千个不同组合的模型。图七展示了研究人员可能因此产生的影响范围,展示了所有控制变量的组合的t 统计分布。其中,b代表二元模型的情况,m代表多元模型的情况。由此看出,越过统计显著性阈值的估计,有时产生相反符号的效果。需要指出,图七低估了研究人员自由地选择控制变量带来的影响,因为图七仅反映了文章样本中作者选择的控制变量。当然,控制变量的选择只是构造模型的几个来源之一。

潜在的反对意见,如读者可能并不需要二元模型去判断控制变量选择的效应,因为他们很少自己会去看控制变量。在某些情况,读者可以评估研究人员是否遗漏了部分控制变量,判断是否会增加遗漏的控制变量会导致主要效应估计减少。毫无疑问,读者们可以这样做。然而,在我们对这些文章的重新分析中,一些控制变量负责增加对主要效应估计,这是出乎意料的,我们怀疑作者们是否能预料到它们会增加对主要效应的估计,产生潜在的向上偏差。
另一个反对意见是,研究人员可能无法证明控制变量对他们的影响估计,因为它们太复杂,无法在多角度的上下文中解释。虽然这一点有道理,但是我们认为研究人员已清楚了解控制变量所带来的净效应以及控制变量的合理性。更重要的是,如果研究人员不能被要求提供选择这些控制变量理由,那么作者将随意选择控制变量,并且不受限制。
最后,值得强调的是,我们在添加控制变量时,p值下降了,这通常不是由关键系数估计的巨大变化所引起的。根据计算,关键系数平均只增加了约20%,但这些增加使p-值大幅下降。因此,研究人员正受益于遮掩效应,但相对较弱的遮掩效应,也足以使他们的p-值到0.05以下。
七 讨论和结论
我们发现大量观察研究的统计显著性依赖于遮掩效应。然而,这些研究几乎都不是透明的。通过增加主要效应大小的估计,未披露的遮掩效应的文章可能促成了超过30%的观察性研究。读者在阅读文章时,应假设55%的文章所取得的统计显著是基于遮掩效应。
我们认为遮掩效应并不是一定会引入偏见,它们是观察研究的重要组成部分,也是数据生成过程,否则其结果将被忽视。相反,我们认为,因为遮掩效应会引入偏差,并且以一种不透明的方式进行,所以读者通常希望了解它们。另外,我们并不是认为这些30%-40%的文章依靠遮掩效果实现的统计显著性为假阳性。相反,我们只是简单地指出编辑和审查员如果知道这些,他们可能会更仔细地检查控制变量。
我们认为要求二元模型的披露可以提醒读者注意遮掩效应。另外,读者想知道遮掩效应的存在,因为遮掩效应的存在,研究结果在其他模型可能会变得不稳健,因此更容易被作者隐藏。他们对控制变量的选择,可能会导致问题,如放大偏差。承然,控制变量会导致主要效应的估计减少也会导致误差,但这种误差对作者不利,并不利于出版文章。
我们的研究指出以p-值阈值为导向的方式存在问题(McShane et al. 2019)。当研究人员一定要在汇报他们主要发现时附上p-值低于某一阈值才能出版,那么研究人员有激励地去寻找使他们的发现统计显著的方法。这会导致许多反常的激励,包括根据p-值选择模型。
我们给出建议应该限制研究人员可以对控制变量的选择。作者可以通过贝叶斯模式平均方法(Bartels 1997; Montgomery and Nyhan 2010;Leamer2016)或者其他方法得到更多的控制变量选择,以此获取稳健性。他们还可以使用规范曲线分析,并报告所有合理理论模型对主要效应的估计。(Simon-sohn, Simmons, and Nelson 2020)。研究人员可以在他们分析数据之前进行匹配,减少因自由地选择模型带来的影响(Sekhon2011 ;  Hainmueller2012 ; Imaiand-Ratkovic2014),也可以通过减少数据外推(Ho et al. 2007)。他们可以使用保留的样品和在控制变量很多的情况下采用新的估计量 (Ning, Peng, and Imai2020; Athey,Imbens,and Wager2018)。他们还可以在数据收集前预注册控制变量,作为预分析计划的一部分 (Casey, Glennerster, and Miguel 2012; Humphreys, de la Sierra, andvander Windt 2013)。
研究人员可以披露二元模型能让审阅员和读者去知道增加控制变量的影响。如果二元模型与其他模型区别巨大,那么作者需要解释为什么。通过二元模型,读者可得知控制变量是否有利于作者出版以及是否会引入误差。基于高比例的假阳性期刊研究,读者需要知道这些信息。

除了限制控制变量的自由地选择,研究人员应该注意遮掩效应的来源。在某些情况,研究人员对此有合理的解释。但是在一些情况,研究人员应该考虑排除会带来遮掩效应的变量,例如当来源是中介效应或放大偏差时。


关于回归中变量的问题

1.什么时候应该使用回归分析?控制变量意味着什么?2.如何选择正确的因变量(控制变量),让你的计量模型不再肮脏,3.调节变量, 中介变量和控制变量啥区别与联系? 4.控制、调节和中介变量,系说,5.核心解释变量A不显著, 但加入变量B后, 为什么A和B都显著了?6.被解释变量比解释变量的层级更高的模型设定合理么?7.审稿: 协变量何时重要? 哪个重要, 有多重要?8.三张图秒懂, 混淆, 中介, 调节, 对撞, 暴露, 结果和协变量的复杂关系,9.因果推断专题:6.再谈混淆变量,10.什么时候需要标准化回归模型中的变量?11.因果推断专题:1.混淆变量,12.虚拟变量回归模型是什么? 政策评估的前件,13.11种与机器学习相关的多元变量分析方法汇总,14.回归中各变量的数值相差过大有事, 又有什么问题?15.哦, 不, 回归符号反了, 我们该怎么办?16.回归系数与预期相反时, 我们能够采取的方法和思路有哪些?17.显著不显著的后背是什么, 非(半)参估计里解决内生性,18.在什么情况下多增加一个自变量后, 回归的R方会变小呢?19.控制变量选择问题: 如何鉴别好或不好的控制变量?附上14篇相关文章!20.如何测度不可观测变量遗漏的严重程度, 建议各位学者看过来!21.如何选择合适的工具变量, 基于既有文献的总结和解释!22.如何选择合适的工具变量, 基于既有文献的总结和解释!23.如何测度不可观测变量遗漏的严重程度, 建议各位学者看过来!24.社会网络计量经济学是什么?测度社会关系网中的同伴效应!25.社会网络分析最新文献和软件学习手册,26.添加一个新变量能使以前不显著的变量变得显著了?27.加入其他控制变量后, 估计系数的符号相反了?28.估计工具变量回归时, 是否必须将所有外生变量用作工具变量?29.实证分析观测数据的10条检查清单, 消除实证分析中许多潜在的虚假结果,30.可以在面板回归分析中使用时间序列解释变量或被解释变量吗?31.收入和年龄等变量是将其转化成有序离散变量还是当成连续变量进行回归呢?32.你确定找到一个好的工具变量了吗? 这将是一篇最值得你看的文章!33.因没阅读主编最新文章, 被知名期刊主编竟无情desk reject! 到底是什么方法方面的文章呢?34.审稿人有义务告诉你回归中可能的遗漏变量么?,35.回归中常数项显著说明模型中有遗漏变量问题?

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

4年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存