查看原文
其他

我们应该在多大程度上相信工具变量估计, 基于63份顶刊复制结果的操作建议

计量经济圈 计量经济圈 2022-05-11

凡是搞计量经济的,都关注这个号了

稿件:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

下面引荐一份由计量社群群友撰写的关于工具变量的Replication studies文章,以及在使用工具变量过程中的实践建议。

正文

关于下方文字内容,作者:戴尚泽,武汉大学中国中部发展研究院,通信邮箱:daishangze@whu.edu.cn

Apoorva Lal, Mac Lockhart, Yiqing Xu, Ziwen Zu, How Much Should We Trust Estimates from Instrumental Variable Designs in Political Science? Working paper.

Instrumental variable (IV) strategies are commonly used in political science to establish causal relationships, yet the identifying assumptions required by an IV design are demanding and it remains challenging for researchers to evaluate their plausibility. We replicate 63 papers published in three top journals in political science from the past decade (2011-2020) and document several troubling patterns: (1) researchers often miscalculate the first-stage F statistics, overestimating the strength of their IVs; (2) most researchers rely on classical asymptotic standard errors, which often severely underestimate the uncertainties around the two-stage-least-squared (2SLS) estimates; (3) in the majority of the replicated studies, the 2SLS estimates are much bigger than the ordinary-least-squared estimates, and their ratio is negatively correlated with the strength of the IVs in studies where the IVs are not experimentally generated, suggesting potential violations of the exclusion restriction; such a relationship is much weaker with experimentally generated IVs. To improve practice, we provide a checklist for researchers to avoid the Se pitfalls and recommend a zero-first-stage test and a local-to-zero procedure to guard against failure of the identifying assumptions.
摘要:工具变量策略在政治科学中普遍用于建立因果关系,然而工具变量设计所要求的假设是非常困难的,对于研究人员来说,评估它们的合理性仍然是一个挑战。我们重复了过去十年(2011-2020年)在三大政治科学期刊上发表的63篇论文,并记录了几个令人不安的情形: (1)研究人员经常错误地计算第一阶段的F统计数据,高估了他们工具变量的强度; (2)大多数研究人员依赖于经典的渐近标准误(渐近性是指当样本容量无限增长时适用的估计量和检验统计量性质),这往往严重低估了2SLS估计的不确定性;(3)在大多数重复研究中,2SLS 估计值远大于普通的最小二乘估计值,而且它们的比例与并非在实验中生成的工具变量的强度呈负相关。而对实验中生成的工具变量而言,这种关系要弱得多。因此,我们为研究人员提供了一个避免这些陷阱的检查表,并推荐了一个零到第一阶段测试和一个局部到零的程序,以防止识别假设的失效。
引言
工具变量在社会科学研究中常被视为内生性处理以及因果推断的方法之一,其之所以成为应用研究人员的热门选择,是因为它可以在所有实验环境中估计截面和面板数据中的因果关系。现有文章中涌现出了一大批非常有趣的工具变量:如Lifetime Earnings and the Vietnam Era Draft Lottery: Evidence from Social Security Administrative Records利用征兵时征兵号的是否在征兵范围内作为是否参加战争的工具变量;Children and Their Parents' Labor Supply: Evidence from Exogenous Variation in Family Size文章中采用头两个孩子的性别构成作为孩子数量的工具变量;The Local Labour Market Effects of Light Rail Transit中利用地区与连接CBD和都市主要机场的直线的位置关系中作为是否有轻轨站的工具变量;Innovation agglomeration and urban hierarchy: evidence from Chine标准误cities中利用城市的长宽比作为城市层级的工具变量等。
直观来看,工具变量应当和解释变量有强烈的相关关系但却对被解释变量没有直接影响。因此,工具变量往往需要满足一系列假设才可以被称之为合理的工具变量,如本文中作者在第二部分便列举出了工具变量需要满足的假设:第一,相关性,即与解释变量有显著的相关关系。第二,外生性,即被解释变量刨去能够被解释变量解释的部分以后便与工具变量没有相关关系。那么,已有研究中究竟存在怎样的工具变量误用错用的问题呢?是否能够有一种方法来检验工具变量的合理性呢?这便是作者在文章中所要回答的问题。因此,本篇读书报告便分为以下三个部分:(1)现有研究中的现状与问题(2)作者对问题的处理方式(3)总结与讨论。
作者Apoorva Lal是斯坦福大学政治科学系的博士生,主要研究方向为政治方法论、比较政治学和经济发展,目前尚没有刊物见刊。Mac Lockhart是加州圣地亚哥分校政治学专业的博士生,主要研究方向是选举制度,目前在Proceedings of the National Academy of Sciences等权威期刊发表三篇文章。Yiqing Xu是斯坦福大学政治科学系的助理教授,关注政治方法论以及比较政治学,主要关注中国问题研究。目前已在Political Analysis、The Journal of Politics、American Political Science Review等政治学权威刊物发表十余篇文章。Ziwen Zu是美国加州大学圣地亚哥分校政治学专业的博士生,目前参与编写由上海财经大学等出版社出版发行的书稿两份。
一、利用工具变量研究中的现状与问题
研究者对IV估计量能否揭示一定程度的利害关系表示质疑。一些人抱怨说IV估计量在数值上通常远大于原始的OLS估计量,即便后者的主要关注点是向上的选择性偏差。一个常用的解释是,处置效应异质性是基于LATE框架的。这项研究中的依从者,也就是那些由于工具变量而发生处置效应值变化的单位,对于处置的敏感程度强于样本中的其他单位。事实上,我们的联合研究中19篇文章使用了这一解释。然而,效应规模的差异往往过大以至于不能完全由处置效应异质性所解释,但却通常有违背约束限制的迹象。其他人表示严重关切的是,经常用于IV估计的推断方法是否有效。
这些观察激发了我们对经验主义政治科学文献中工具变量的使用进行系统的检查。我们着手复制过去十年(2011-2020年)在 American Political Science Review(APSR)、 American
Journal of Political Science (AJPS) 和Journal of Politics(JOP)上发表的所有论文,这些论文使用工具变量设计作为主要识别策略之一。我们从115篇论文开始,其中65篇在网上有完整的材料以供文章的复制。在65篇论文中,我们成功地为63篇论文复制了至少一个主要的工具变量结果。其中,三篇文章各有两种不同的工具变量设计,产生不同的2SLS结果。Table1展示了刊物的可复制性。
受Sovey和Green(2011)的启发,在Table2中,我们总结了可复制设计中工具变量们的类型,在这里,我们的分类方式与原文不同,为了更好的反映学科中工具变量类型的变化。与Sovey和Green(2011)一样,最大的范畴是“理论”,作者用社会科学理论或实质性知识来证明工具变量第一条假设的有效性,包括工具变量们的准随机性和排斥约束。我们进一步将基于理论的工具变量分为四个子类别: 地理/气候/天气、历史、处理组与对照组和其他。许多理论类别的研究证明了基于地理、气候或天气条件的工具变量选择是合理的。例如,Zhu (2017)使用加权地理紧凑程度作为跨国公司活动的工具; Hager和Hilbig (2019)使用到河流的平均海拔和距离来表示公平的继承习俗; Grossman, Pierskalla 和Boswell Dean (2017a)使用陆地的分割程度作为政府分割的工具变量。Henderson 和Brooks (2016)利用选举日前后的降雨量,作为民主党票数差距的工具。

利用这64个工具变量设计中的数据,我们进行了一个程序化的复制实践,方法为:对于每一篇论文,我们选择一个主要的IV方程(Specification),它在支持论文的主要主张中起着核心作用; 它或者被称为基准方程,或者出现在一个主要的表格或图表中。根据这个方程,我们的复制过程包括以下步骤。首先计算第一阶段F统计量基于:(1)经典渐近标准误,(2) Huber White稳健标准误,(3)聚类标准误,(4) bootstrap 标准误。例如,bootstrap 标准误的计算方法是:

其中,pz是工具变量的数量,Var是是基于非参数bootstrap程序的估计方差-协方差矩阵。在补充材料中,我们比较了四种类型的偏 F 统计量。由于 bootstrap 和 cluster-bootstrap 标准误通常比其他 标准误估计量更保守,因此我们在大多数比较中使用基于这些标准误的偏F统计量。其次,我们使用 2SLS 估计器与分析 标准误和bootstrap 标准误复制原始 IV 结果。我们记录点估计、标准误和z得分(z得分在统计学中是一种无因次值,就是一种纯数字标记,是借由从单一分数中减去总体的平均值,再依照总体的标准差分割成不同的差距,按照z值公式,各个样本在经过变换后,通常在正、负五到六之间不等。)。我们还通过对治疗和控制变量的结果变量进行回归来估计一个简单的 OLS 模型,而忽略了该工具。然后我们计算 2SLS 和 OLS 估计值之间的比率。我们还记录了其他有用的信息,例如观察的数量、集群的数量、IV的类型、标准误的计算方式以及每篇论文用来证明其IV策略合理性的基本原理。Figure2展示了z得分和偏F统计量的分布。

通过上述的复制实践,我们发现了三个令人不安的模式。首先,很大一部分研究没有报告第一阶段F统计量或者没有计算残差,例如,没有调整异方差性、序列相关性或者聚类结构的标准误差。因此,许多已发表的研究都依赖于计量经济学文献所称的“弱工具”。
我们的第二个发现是基于推论统计学的: 我们复制的大多数研究依赖于经典的渐近法来量化围绕两阶段最小二乘(2SLS)估计的不确定性。Young(2017)表明,他们严重低估了经济学研究的不确定性,并导致过度拒绝零假设。我们发现了一个相似的模式:将文章中的报告的标准误替换为模拟出的标准误以后,在64个设计的26个(41%)当中,2SLS的估计在5%的水平上变得无统计学意义。而在原始文章中这个数字只有9个(14%)。
最后但并非最不重要的是,我们的复制证实了来自经济学和金融学的证据,即2SLS的估计数量往往远远大于政治科学中的OLS估计数量(Jiang,2017)。在64种设计中的59种(92%) ,2SLS的估计值在数量上比OLS的估计值大,其中21种(33%)至少比OLS的估计值大5倍。即使我们排除了16篇论文,这些论文明确声称在OLS估计中预计会出现向下偏差,这个百分比仍然很高(分别为89%和29%)。
二、作者给出的解决方法
高估IV系数和低估2SLS估计的不确定性的问题可以通过采用更保守的不确定性估计量来缓解,例如那些基于自举法的估计量。然而,排除限制(初步的理解,只要自变量不直接影响方程中的因变量,排除限制就被认为是有效的。例如,研究人员依靠样本群体的随机化来确保处理组和对照组之间的可比性。然而,有时随机化是不可能的。)失败更难解决。这是因为它本质上是一个研究设计问题,最终应该在研究设计阶段解决。在本节中,我们提供了一组诊断工具来帮助研究评估假设2的有效性。这些测试最适合观察性研究,其中证明排除限制的合理性仍然具有挑战性。
本文给出的方法是ZFS(Zero-first-stage)检验和LZT(local to zero)技术,文章在后面也给出了这种方法的R语言包。排除限制是一种强有力且通常无法检验的假设,是工具有效性的基础;事实上,研究人员通常会在论文和研讨会上花费大量精力来论证条件在他们的特定环境中得到满足。然而,最近一些安慰剂测试作为一种论证工具有效性的方式变得流行,特别是在观察环境中,工具的选择由详细的领域知识指导。Bound 和 Jaeger (2000) 首先建议对子样本使用辅助回归,其中该工具不会影响治疗分配,称为“Zero-first-stage”(ZFS)测试。主要的直觉是,在第一阶段为零的子样本中,如果满足排除限制,则简化形式效应也应该为零。换句话说,受一个实质性先验的推动,即对于总体的子样本(以下称为“ZFS 子样本”),该工具的第一阶段效应可能为零,研究人员接着表明,对于工具变量(通过 Z回归 Y)在 ZFS 子样本中近似为零,这是有利于工具变量有效性的暗示性证据。大多数观测仪器应该基于分配机制的实质性知识产生一些 ZFS 子样本。
这种类型的安慰剂在历史政治经济学研究中特别流行,在这些研究中,特定的历史或地理特征被认为是治疗分配的有效工具,因此它们不太可能在特定背景之外推动治疗分配。例如,Nunn (2008) 研究奴隶贸易对非洲现代发展的影响,使用从每个国家到最近的奴隶劳动需求地点的航行距离作为衡量被带走的标准化奴隶数量的工具。然后作者认为,通过使用安慰剂测试,对于非洲以外的国家,第一阶段效应(该工具对结果进行回归,现代 GDP)大约为零,到新世界需求地点的距离可能是一个有效的工具,其中假定的机制(靠近需求地点的地方仅在跨大西洋奴隶贸易中出口更多奴隶)没有牵引力,因此提供了一个候选 ZFS 样本。在一篇相关论文中,Nunn 和 Wantchekon (2011) 使用相同的策略表明,到奴隶贸易港口的距离并不能预测亚洲晴雨表(barometer)中现代的信任态度,而它们在非洲晴雨表(主要研究人群)中可以预测。
虽然这是我们建议大多数观察性 IV 论文采用的有用启发式检查,但它是一种非正式测试,不提供测试统计数据。van Kippersluis 和 Rietveld(2018)证明 ZFS 测试可以与 Conley、Hansen 和 Rossi(2012)(下文写为CHR(2012))建议的“合理外生”方法有效结合。为了说明该方法,我们首先用 CHR (2012) 的符号重写 IV 联立方程:

依照教条主义,γ应当为0(思考一下全知网引用量最多的一篇文章是啥)。CHR (2012) 建议可以放宽这个假设,并根据研究人员对排除限制违反程度的看法,利用用户指定的假设来代替 γ 的合理值、范围或分布。他们提出了三种不同的推理方法,包括指定 γ 的值范围、γ 的先验分布假设以及需要所有模型参数和相应参数分布的先验的全贝叶斯分析。我们专注于第二种方法,CHR (2012) 将其称为“local to zero”(LTZ) 近似,它考虑“局部”违反排除限制。CHR (2012)展示了利用一个更弱的假设替换γ=0的前提假设,那个更弱的假设就是γ服从一个F分布,满足:

其中原始 2SLS 渐近分布因附加项而膨胀。虽然基于模拟的方法可用于为γ的任意分布满足上面的第一个方程,但当假设γ服从一个方差为Ωγ均值为μγ高斯分布便为最方便的形式,这将上面的第一个方程简化为上面的第二个方程,第二个方程就是一个高斯分布的加总。
三、结论及讨论
在本文中,我们复制了发表在政治学领域的三个顶级期刊上的IV 设计,这些期刊使用 IV 作为主要识别策略之一。我们发现研究人员经常高估他们的 工具变量的强度并低估围绕 2SLS 估计的不确定性。当使用引导程序获得不确定性时,我们发现许多 2SLS 估计变得没有信息——它们通常与朴素的 OLS 估计在统计上无法区分,并且通常为 0。此外,我们表明 2SLS 估计的量级通常比 OLS 大得多估计,它们的差异与 IV 的强度呈负相关。我们认为这是因为弱 IV 放大了排除限制失败的偏差。这个结果表明 IV 估计可能比 OLS 估计有更大的偏差。
本文的结果表明,在实践中,工具变量的假设 2其实很难被满足,因此研究人员要为 IV 设计的有效性承担更重的举证责任。一方面,真正随机(且强大)的工具变量在我们的日常生活中很少见;另一方面,在收集数据后,很难构建出满足排除限制的安慰剂测试。此外,研究人员往往无法轻易扩大样本量以获得足够的统计功效。下面我们提供了一份清单,供研究人员在应用或考虑应用具有观察数据的IV策略时参考:
1.预估统计量会高估还是低估。
2.考虑工具变量对处理变量是否有着合理的随机冲击。
3.画出由工具变量估计出的处理变量与处理变量真实值的相关关系图。
4.计算第一阶段回归中假设检验统计量的大小。
5.利用bootstrap方式得到2SLS统计量的标准误与置信区间。
6.注意工具变量系数值和原统计量系数值的大小比较。
7.尝试在所谓的自然实验中确定总是接受者、从不接受者、遵守者这三个主要阶层的观察类似物。“从不接受者”是 ZFS 样本的合理候选者。然后通过估计 IV对 ZFS样本中感兴趣的结果的影响来进行安慰剂测试.
8.分析ZFS检验的结果和置信区间。
图片来源:bing.com

关于工具变量,参看1.内生性问题操作指南, 广为流传的22篇文章,2.看完顶级期刊文章后, 整理了内生性处理小册子,3.如何寻找工具变量?得工具者得实证计量,4.内生性处理的秘密武器-工具变量估,5.工具变量在社会科学因果推断中的应用,6.为你的"工具变量"合理性进行辩护, 此文献可以作为范例,7.没有工具变量、断点和随机冲击,也可以推断归因,8.工具变量与因果推断, 明尼苏达Bellemare关于IV的分析,9.工具变量IV与内生性处理的精细解读,10.我的"工具变量"走丢了,寻找工具变量思路手册,11.面板数据里处理多重高维固定效应的神器, 还可用工具变量处理内生性,12.豪斯曼, 拉姆齐检验,过度拟合,弱工具和过度识别,模型选择和重抽样问题,13.工具变量先锋 Sargan,供参考,14.AEA期刊的IV靠不靠谱?15.计量大焖锅: iv, clorenz, rank, scalar, bys, xtile, newey, nlcom,16.GMM是IV、2SLS、GLS、ML的统领,待我慢慢道来,17.IV和GMM相关估计步骤,内生性、异方差性等检验方法,18.因果推断IV方法经典文献,究竟是制度还是人力资本促进了经济的发展?19.内生变量的交互项如何寻工具变量, 交互项共线咋办,20.面板数据、工具变量选择和HAUSMAN检验的若干问题,21.IV和Matching老矣, “弹性联合似然法”成新趋势,22.IV回归系数比OLS大很多咋回事, 怎么办呢? ,23.不用IV, 基于异方差识别方法解决内生性, 赐一篇文献,24.找不到IV, RD和DID该怎么办? 这有一种备选方法,25.内生转换模型vs内生处理模型vs样本选择模型vs工具变量2SLS,26.内生性, 工具变量与 GMM估计, 程序code附,27.GMM和工具变量在面板数据中的运用,28.关于工具变量的材料包, 标题,模型,内生变量,工具变量,29.必须使用所有外生变量作为工具变量吗?30.工具变量精辟解释, 保证你一辈子都忘不了,31.毛咕噜论文中一些有趣的工具变量!33.前沿: 删失数据分位数工具变量(CQIV)估计, 做删失数据异质性效应分析34.不需要找工具变量, 新方式构建工具变量, 导师再也不用担心内生性问题了!35.关于顶级外刊工具变量的使用最全策略, 不收藏反复读就不要谈IV估计!36.如何通过因果图选择合适的工具变量?一份关于IV的简短百科全书37.前沿: nature刊掀起DAG热, 不掌握就遭淘汰无疑!因果关系研究的图形工具!38.最清晰的内生性问题详解及软件操作方案!实证研究必备工具!39.中国女学者与其日本同行在JPE上发文了!利用独特数据, 地理断点RDD和IV研究中国环境议题!40.双胞胎样本解决遗漏变量和测量误差, LIV解决选择偏差41.内生性处理的秘密武器-工具变量估计42.工具变量IV必读文章20篇, 因果识别就靠他了43.看完顶级期刊文章后, 整理了内生性处理小册子44.“内生性” 到底是什么鬼? New Yorker告诉你,45.Heckman两步法的内生性问题(IV-Heckman),46.最全估计方法,解决遗漏变量偏差,内生性,混淆变量和相关问题47.非线性面板模型中内生性解决方案48.内生性处理方法与进展49.内生性问题和倾向得分匹配50.你的内生性解决方式out, ERM独领风骚51.面板数据是怎样处理内生性的52.计量分析中的内生性问题综述53.一份改变实证研究的内生性处理思维导图54.Top期刊里不同来源内生性处理方法55.面板数据中heckman方法和程序(xtheckman),56.控制函数法CF, 处理内生性的广义方法57.二值选择模型内生性检验方法58.2SRI还是2SPS, 内生性问题的二阶段CF法实现59.非线性模型及离散内生变量处理利器, 应用计量经济学中的控制函数法!60.最全利用工具变量控制内生性的步骤和代码—在经管研究中的应用,61.如何选择合适的工具变量, 基于既有文献的总结和解释!62.中介效应最新进展: 中介效应中的工具变量法使用方法及其代码!63.弱工具变量的稳健性检验, 附上code和相关说明!64.工具变量对因果效应的识别和外推, 大牛的顶级评述!65.刚2022年, Acemoglu就在QJE上发文了!OLS+IV走遍天下都不怕!66.如何在AER上用OLS发经济史研究, 这篇道出了验证IV合理性的标准范式! 必读,67.怎样找到一个巧妙的工具变量, IV在公共政策评估中的应用,68.Bartik工具变量是什么? 份额移动法IV应用越来越多,69.阿西莫格鲁又一篇使用IV做因果推断的经典文献, 拿起小板凳一睹为快!70.AER教你两种论证IV合理性的实证策略, 以及如何对IV做安慰剂检验

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存