查看原文
其他

你确定找到一个好的工具变量了吗? 这将是一篇最值得你看的文章!


凡是搞计量经济的,都关注这个号了

箱:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

上方配图与下方内容无关,只为更新些信息,“洪永淼教授履新后首发文“概率论与统计学在经济学中的应用”! 前沿和经典方法应有尽有!”。
Source: 沪港发展联合研究所, 选 题:吴建峰,翻 译:张书茗,审 译:吴建峰,排 版:朱红英
「选题人」 偶然读到Cornell University助理教授Alexandra Cirone的短文,谈到了关于IV方法在历史政治学中的应用和进展,受益不少。特别请书茗做了翻译。涉及不少计量经济学术语,不精准之处,请大家指正。

来源:“A good instrument is hard to find”, Broadstreet, 9 April 2021, https://broadstreet.blog/2021/04/09/a-good-instrument-is-hard-to-find/
好的工具变量寻之不易
无论身处哪个学科领域,估计因果效应都并非易事。HPE(Historical Political Economy, 即历史政治经济学)研究的一个重要特点就是数据可观测,作为研究者的我们无法控制处理分配(treatment assignment)。
今天,我要讨论的话题是工具(instruments)。对于在HPE领域进行了因果干预的研究者来说,工具变量(instrumental variable,IV)分析法是一个潜在的识别策略。如果我们感兴趣的自变量(即预设的处理变量)是内生的,那么我们就得试着找到第三个“近似随机”的变量,以助于决定在处理条件中的选择——这个第三变量就是工具变量。好的工具变量往往能成就极其出色的论文。
看上去的确很不错,但工具变量法实际上很容易受诟病。这一方面是因为我们需要使识别策略满足排他性约束,而这一条件无法进行统计性检验(并且有许多可以模糊处理的空间);另一方面是因为一些“天真”学者认为工具变量分析易于完成,而实际上并非如此,有时候寻找历史工具变量是很复杂的事情。
但也不要太担忧,毕竟凡事预则立...
HPE研究的排他性约束
让我们先从困难的部分开始。
研究设计中有很多可识别的假设,但其中最突出的是工具变量法假设该变量只通过其与自变量的关系来影响因变量。这就是“恶名昭著”的“排他性约束”,这也正是采用工具变量法的研究能否成功的关键。我无意浪费时间从头讲起,只是想要指出在历史研究中应用工具变量法,还需要面对一些额外的挑战。
首先需要记住的是,相比于短期,有时候排他性约束在长期更难合理化。如果潜在的工具变量在多重时点与暴露变量相关,那么将会有多种导向结果的路径(并且可能有更多违背排他性约束的情况)。或者如果协变量的滞后值被用作工具变量,并且协变量效应的结果是长期持续的,那么又会存在一个识别问题(更具体一点,研究历史移民、民族语言分化或宗教的人一定得读Gallen和Raymond撰写的工作论文《Broken Instruments》)。
总的来说,在几十年的历史中识别混淆变量和因果关系也实属不易,更何况我们还经常低估了干扰措施所产生的下界效应(downstream effects)。
读者们应该意识到存在“后工具变量偏差”,可以阅读一下Glynn和Rueda的相关论文《Post-Instrument Bias》)。他们在这篇文章中指出:诚然,研究者通常考虑了后工具变量协变量以满足排他性约束,但这实际抵消了自然实验的全部好处。
任何排他性约束都必须以特定的研究话题知识为依据,而最好的辩护通常包括历史主要来源证据、创意性的描述数据和其他领域的引用。幸运的是,这类研究通常是HPE学者大放异彩的地方(尽管数据缺失和历史记录不足也可能使满足排他性约束变得更加困难)。
最后,值得一提的是,大受欢迎的工具变量常被用来预测许多不同的事情,而这一事实正好表明它们很可能违反了排他性约束(尽管对于更难被找到的历史工具变量而言,这可能不算什么大问题)。例如,降雨量便是一种非常受欢迎的外生工具变量。Jon Mellon那篇精彩的论文《Rain, Rain, Go Away…》中证明了这一点。他回顾了185项社会科学研究,发现了137个与天气相关的不同变量(这还只是保守估计)。他还为读者提供了步骤,指导如何通过系统地回顾使用受欢迎的工具变量的现有文献,来寻找潜在的违背排他性约束的研究行为。
有时候批判工具变量并不难,但是如果你阅读了这些批评的评论本身,你将会有更多机会来了解你将要面临的挑战。
如何找到好的工具变量?
如何为历史研究找到一个好的工具变量?
最有效的建议自然是要非常熟悉你的研究话题(可以阅读Thad Dunning关于自然实验的教材,这样你的潜意识就会知道寻找的方向)。不论如何,关于排他性约束的论证需要详尽的知识支持,但有时完美的工具变量会在做背景调查的过程中被发掘。举个例子,我和我的合著者在研究中使用了基于抽签的程序作为工具变量,以估计委员会服务对职业生涯的因果效应——我当时正在档案馆里读一本19世纪的法国书籍,然后从中偶然得到了工具变量的灵感。
另一个不错的建议直接来源于Scott Cunningham的书《Causal Inference: The Mixtape》。他写道:“满足排他性约束的工具变量的一个必要不充分条件是,当你告诉人们 Zi(工具变量)和 Yi(结果变量)的关系时,他们对此感到困惑 …… 工具变量可能显得格格不入...因为 Zi 与 Yi 看起来很不协调。如果二者协调,这大概意味着排他性约束被违背了。但是,如果二者不太协调,并且使得人们对此感到困惑,那么这至少有潜力成为还不错的工具变量。”
或者,你也可以通过阅读一些历史工具变量的文章来获得灵感,我在下面列举了一些我收藏的:
Nunn (2008):着眼于奴隶贸易对非洲经济发展影响的研究;使用与主要奴隶港口的距离作为衡量奴隶贸易强度的工具变量。
Dube and Harish (2020):研究了15至20世纪的欧洲女王更爱发动战争的原因;利用“前君主”第一个出生的孩子的性别和君主姊妹作为女王统治的工具变量。
Acharya, Blackwell, Sen (2018):考察了1860年的奴隶制是如何与当今的政治态度和党派相关联的;利用棉花的适宜度作为奴隶制盛行的工具变量。
Biavaschi, Giulietti, and Siddique (2017):着眼于移民如何“美国化”其姓名以改善其职业前景;使用基于拼字游戏点的语言复杂性指数作为预测姓名美国化的工具变量。
Cirone and van Coppenolle (2018):研究了预算委员会的服务如何影响长期的政治生涯;使用以抽签为基础的程序作为委员会选举的工具变量。
Kern and Hainmueller (2009):分析了观看西德电视节目是否会弱化东德公民对共产主义政权的支持;采用区级是否收看西德电视广播作为工具变量。Gihleb and Giuntella (2017):研究了天主教学校出勤率对于提高学生成绩的影响;利用女性宗教职业的人数突然减少(源于第二次梵蒂冈会议的改革)作为天主教学校教育的工具变量。
如果你想要用好工具变量
对于历史研究来说,工具变量法是完全可行的识别策略。但是以下是需要记住的一些事项:
在你的论文中单独列出一个部分来讨论识别假设。虽然你不能“证明”排他性约束,但你可以提供描述性数据或历史依据(引用其他领域)来支持对因果模型的解释。前文提到的Glynn和Rueda的论文收集了前三大政治科学期刊(APSR、AJPS和JOP)有关工具变量的论文数据,他们发现在155篇使用工具变量的论文中,只有116篇明确讨论了排他性约束。那么其他人在做什么?——没人知道。
不要不明显地在文中加入工具变量这部分讨论。这不是一种容易论证的识别策略,也不应该被视为稳健型检验。一个孤零零的段落和后面的回归表不会让你顺利通过顶级期刊的审稿(而且更有可能意外地让审稿人觉得你不懂这个方法)。
在同一篇文章中考虑其他可选的估计策略。为了更好理解工具变量法中的偏差和潜在的违背排他性约束的行为,讨论或包括像OLS这样的“原始”规范是非常重要的;也可以对模型之间的差异进行富有成效的讨论。
不要只是因为你想在摘要中使用“因果”一词而使用“工具变量”。对于观测数据,还有其他的识别策略,比如双重差分法、断点回归法、匹配法、合成控制法,而一个表现不佳的工具变量并不是因果关系识别。
试着喜欢有向无环图(DAGs, directed acyclic graphs)——这可以帮助你预测违背排他性约束的情况,并更好地帮助你理解自己的研究。
最后,一个为阅读这篇文章的研究生准备的百试不爽的法则:当一个老师用“工具变量”一词来转发一些貌似合理的外生事件或世界上的意外事件时,他有80%的几率是在讽刺——别怪我没提醒你。
标题由译者改写。

在实证研究中,我们总是希望估计某个因素对另一个因素的因果影响,而此时不得不面对由测量误差、双向因果、遗漏变量等带来的内生性问题。实证经济学家采用得最多的方法之一就是工具变量估计(IV),通过寻找合适的工具变量估计出两个因素间的因果效应。鉴于此,给大家整理一下关于工具变量方法的重要文章,后面也会分享更多的代码和数据给大家去练习。

1.内生性问题操作指南, 广为流传的22篇文章,2.看完顶级期刊文章后, 整理了内生性处理小册子,3.如何寻找工具变量?得工具者得实证计量,4.内生性处理的秘密武器-工具变量估,5.工具变量在社会科学因果推断中的应用,6.为你的"工具变量"合理性进行辩护, 此文献可以作为范例,7.没有工具变量、断点和随机冲击,也可以推断归因,8.工具变量与因果推断, 明尼苏达Bellemare关于IV的分析,9.工具变量IV与内生性处理的精细解读,10.我的"工具变量"走丢了,寻找工具变量思路手册,11.面板数据里处理多重高维固定效应的神器, 还可用工具变量处理内生性,12.豪斯曼, 拉姆齐检验,过度拟合,弱工具和过度识别,模型选择和重抽样问题,13.工具变量先锋 Sargan,供参考,14.AEA期刊的IV靠不靠谱?15.计量大焖锅: iv, clorenz, rank, scalar, bys, xtile, newey, nlcom,16.GMM是IV、2SLS、GLS、ML的统领,待我慢慢道来,17.IV和GMM相关估计步骤,内生性、异方差性等检验方法,18.因果推断IV方法经典文献,究竟是制度还是人力资本促进了经济的发展?19.内生变量的交互项如何寻工具变量, 交互项共线咋办,20.面板数据、工具变量选择和HAUSMAN检验的若干问题,21.IV和Matching老矣, “弹性联合似然法”成新趋势,22.IV回归系数比OLS大很多咋回事, 怎么办呢? ,23.不用IV, 基于异方差识别方法解决内生性, 赐一篇文献,24.找不到IV, RD和DID该怎么办? 这有一种备选方法,25.内生转换模型vs内生处理模型vs样本选择模型vs工具变量2SLS,26.内生性, 工具变量与 GMM估计, 程序code附,27.GMM和工具变量在面板数据中的运用,28.关于工具变量的材料包, 标题,模型,内生变量,工具变量,29.必须使用所有外生变量作为工具变量吗?30.工具变量精辟解释, 保证你一辈子都忘不了,31.毛咕噜论文中一些有趣的工具变量!33.前沿: 删失数据分位数工具变量(CQIV)估计, 做删失数据异质性效应分析34.不需要找工具变量, 新方式构建工具变量, 导师再也不用担心内生性问题了!35.关于顶级外刊工具变量的使用最全策略, 不收藏反复读就不要谈IV估计!36.如何通过因果图选择合适的工具变量?一份关于IV的简短百科全书37.前沿: nature刊掀起DAG热, 不掌握就遭淘汰无疑!因果关系研究的图形工具!38.最清晰的内生性问题详解及软件操作方案!实证研究必备工具!39.中国女学者与其日本同行在JPE上发文了!利用独特数据, 地理断点RDD和IV研究中国环境议题!40.双胞胎样本解决遗漏变量和测量误差, LIV解决选择偏差41.内生性处理的秘密武器-工具变量估计42.工具变量IV必读文章20篇, 因果识别就靠他了43.看完顶级期刊文章后, 整理了内生性处理小册子44.“内生性” 到底是什么鬼? New Yorker告诉你,45.Heckman两步法的内生性问题(IV-Heckman),46.最全估计方法,解决遗漏变量偏差,内生性,混淆变量和相关问题47.非线性面板模型中内生性解决方案48.内生性处理方法与进展,49.万能cmp程序, 有了他, 建议把其他程序全删掉!50.你的内生性解决方式out, ERM独领风骚51.面板数据是怎样处理内生性的52.计量分析中的内生性问题综述53.一份改变实证研究的内生性处理思维导图54.Top期刊里不同来源内生性处理方法55.面板数据中heckman方法和程序(xtheckman),56.控制函数法CF, 处理内生性的广义方法57.二值选择模型内生性检验方法58.2SRI还是2SPS, 内生性问题的二阶段CF法实现59.非线性模型及离散内生变量处理利器, 应用计量经济学中的控制函数法!60.最全利用工具变量控制内生性的步骤和代码—在经管研究中的应用,61.如何选择合适的工具变量, 基于既有文献的总结和解释!62.中介效应最新进展: 中介效应中的工具变量法使用方法及其代码!63.弱工具变量的稳健性检验, 附上code和相关说明!64.工具变量对因果效应的识别和外推, 大牛的顶级评述!65.几百年一遇的工具变量让基于OLS的截面数据回归结果发到Top了, 设计巧妙让人叹服!66.一份使用工具变量回归的AER文章清单, 思路惊奇定会让你脑洞大开!67.估计工具变量回归时, 是否必须将所有外生变量用作工具变量?68.引力模型基础上的工具变量如何构建?69.必读, 宗教是如何阻碍经济发展的? 基于DID, IV和各种机制分析的AER量化史分析!70.JPE上利用地理断点RDD和IV研究中国环境议题的do文件release!71.工具变量IV估计免费课程, 文章, 数据和代码全在这里, 不学习可不要后悔!72.天下回归, 无内生性不破, 唯此神文不破, 练就内生性处理的终极大法!73.搞懂因果推断中内生性问题解决方法必读的书籍和文献已搜集好!74.2020年博导圈流传最广的一份“几十种内生性处理方法及其要求和局限”的宝典, 并附上代表性重要文献!75.因变量和内生变量是连续,有序和无序多元变量时, 该如何做工具变量估计?

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存