工具变量法:IV估计的信与不信
👇 连享会 · 推文导航 | www.lianxh.cn
🍎 Stata:Stata基础 | Stata绘图 | Stata程序 | Stata新命令 📘 论文:数据处理 | 结果输出 | 论文写作 | 数据分享 💹 计量:回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归 ⛳ 专题:SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析 🔃 因果:DID | RDD | 因果推断 | 合成控制法 | PSM-Matching 🔨 工具:工具软件 | Markdown | Python-R-Stata 🎧 课程:公开课-直播 | 计量专题 | 关于连享会
连享会 · 文本分析 | 爬虫 | 机器学习
作者:肖蕊 (上海交通大学)
邮箱:1327536202@qq.com
编者按:本文主要摘译自下文,特此致谢!
Source:Lal A, Lockhart M W, Xu Y, et al. How Much Should We Trust Instrumental Variable Estimates in Political Science? Practical Advice based on Over 60 Replicated Studies[J]. Practical Advice based on Over, 2021, 60. -PDF- -Video-
目录
1. 介绍
2. 理论回顾
2.1 IV 估计策略
2.2 潜在问题
3. 数据和 IV 类型
3.1 数据
3.2 IV 类型
4. 复现步骤和结果
4.1 复现步骤
4.2 复现结果
5. 诊断工具:排他性假设冲突
5.1 Zero-first-stage 检验
5.2 案例研究
6. 结束语
7. 相关推文
温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:
工具变量法 (IV) 是检验因果效应的重要识别策略,但其使用往往需要较为严苛的假设条件。
Apoorva Lal,Mac Lockhart,Yiqing Xu 和 Ziwen Zu 四位学者围绕 IV 方法的使用,复现了 2011-2020 年三本政治学顶尖期刊上发表的 61 篇文章的相关结果,并指出了现有研究存在的问题。进一步地,为了提高研究的可信度,作者建议研究者们在实践中使用 zero-irst-stage 检验和 local to zero 步骤。
接下来我们对该研究的内容进行简要介绍。
1. 介绍
在社会科学研究中,IV 是用于检验因果关系的常见方法。不过,有研究者质疑 IV 估计是否真的揭示了因果效应。具体地,当原始的 OLS 估计被认为高估了真实结果时,使用 IV 方法甚至会得到更大的系数。对于这种情况,常见的解释思路可以参考 LATE 框架的处理效应异质性。但是当 OLS 和 IV 估计系数在数值上差距过大时,难免会让人联想排他性假设可能并不成立。
基于三本政治学顶尖期刊上的论文复现结果,作者发现既有研究中存在三类问题:
首先,较大比重的研究要么没有报告第一阶段 值,要么计算方式存在问题,这将导致弱工具变量问题; 其次,复现的多数研究结果都依赖于经典渐进标准误,这可能严重低估不确定性,并导致过度拒绝原假设; 最后,在政治学研究中,IV 得到的估计系数在数值大小方面经常比 OLS 大得多。这也是最难解决的问题。作者推测这种情况的出现是由于弱工具变量问题和排他性假设不成立一同导致的。
2. 理论回顾
IV 估计的基本原理:为了检验 对 的影响,使用工具变量 分离出 中的 “外生性” 变动部分,也就是说 中与潜在混淆因素不相关的变化。
IV 估计的基本假设。正如下图所示,IV 估计方法依赖于两个关键识别假设:
和 相关,这个假设是可以进行检验的; 和误差项 不相关,也就意味着 的分配是准随机的。除了通过 , 不存在直接影响 的其他渠道 (排他性假设)。
2.1 IV 估计策略
在施加一系列参数假设后,我们定义如下的方程组:
其中, 是观测单位 的结果变量, 是处理变量, 是 的工具变量, 是我们感兴趣的变量,它度量了 (恒定的) 处理效应。
两个方程中的误差项 和 可能是相关的。 和 之间的相关性使得 OLS 回归得到的估计系数不再具有一致性。这类内生性问题可能是由以下因素引起的:
同时影响 和 且无法观测的遗漏变量; 的测量误差; 互为因果,即 反过来影响 。
IV 方法通过利用 获取 的外生变化部分解决了这个问题,我们利用第一阶段的方程替换结构方程中的 可以得到如下方程:
上式可以写成:
这样 ,为了获得 ,我们需要下面的假设条件:
假设 1 (相关性):,即要求工具变量可以预测处理变量; 假设 2 (排他性):。由于 和 可能相关,这意味着 。上述成立需要两个条件:一是给定外生协变量的情况下,工具变量是随机或准随机的;二是除了处理变量,工具变量不存在影响结果变量的其他途径。
我们可以得到 2SLS 估计量:
其中,。如果模型恰好识别,就有:
如果对于处理变量 仅有一个,对应的工具变量 也只有一个,那么 2SLS 估计量可以写成 Wald 统计量:
对于有限样本,可以发现简单 IV 估计量的期望与真实值之间存在偏误:
即使在 的情况下,第二项也可能不趋向于 0。这个偏误随着样本的增大而降低,而弱 IV 和过多的工具变量将会加剧偏误的程度。
推论:为什么相比于 OLS 估计量,使用 2SLS 估计量进行推断是更具有挑战性的呢?对于 的方差估计量可以写成:
其中, 是误差项的方差估计量, 是第一阶段的 R 方。只要 ,就会有 。工具变量与处理变量的关联程度越高,得到的 IV 估计也就越准确。
2.2 潜在问题
弱工具变量:因为IV 系数本质上是个比值,当 ,弱工具变量问题就是一个 “分母为 0” 的问题。为了克服这个问题,传统上要求第一阶段的 值大于 10,且研究者需要将其明确地报告出来。近期,也有学者认为 值应该更高。弱工具变量会导致三个问题:
第一,当排他性假设成立时,这将使得 2SLS 估计量的有限偏误趋向于不一致的 OLS 估计量; 第二,2SLS 估计结果将变得非常不准确; 第三,样本量不足以支持假设检验的需求, 统计量并不服从 分布。
排他性假设失效:多数情况下,假设 2 是难以直接检验的,这也就需要研究者花费大量精力论述所使用的 IV 是可信的,或是采用加入控制变量的方法。由于 。当 ,即使对排他性假设轻度的违背都会放大等式右侧第二项的数值,导致估计结果不一致。
对于无效的工具变量, 2SLS 估计量相对于真实值的渐进偏误可能大于 OLS 估计量。为了说明这个问题,可以参考如下表达式:
其中 , 和 分别代表 和 , 和 ,以及 和 之间的相关性。当分母中的 数值很小 (弱工具变量) 时,两者的比值就会变得很大。
3. 数据和 IV 类型
3.1 数据
作者选择了 2011 年到 2020 在 American Political Science Review (APSR)、American Journal of Political Science (AJPS) 和 Journal of Politics (JOP) 上发表的研究结果进行复现。
这些文章的选取符合如下标准:(1) 对 IV 的讨论出现在正文部分且用于支持文章的某个主要观点;(2) 仅考虑使用线性模型的文章;(3) 剔除了在一个识别方程中包含多个内生变量的文章;(4) 剔除了动态面板框架下使用 IV 或 GMM 估计量的文章。
复现使用的数据来源于公开数据分享平台,如 Harvard Dataverse,以及作者个人主页,最终能够找到 70 篇文章 (61%) 的复现材料。各项研究之间的代码完整性和文档质量存在较大差异。只要能够成功复现文章中出现的一个 2SLS 点估计结果,作者就认为对应文章所做的研究是可重复的。
下表对三本期刊上相关文章的数据获得和 IV 复现情况进行了统计描述:
3.2 IV 类型
按照 Sovey 和 Green (2011),最大的一类 IV 为理论上的 (Theory) ,对于这一类 IV,作者会在研究中使用社会科学理论或是实质性知识证明相关假设的合理性。基于理论的 IV 可进一步被分为四类:地理/气候/天气、历史、某一事件引起的扩散效应、其他。
举例来说,Henderson 和 Brooks (2016) 使用选举日附近的降雨情况作为共和党得票情况的工具变量;Vernby (2013) 使用历史上的移民水平作为现今非公民居住者数量的工具变量;Dube 和 Naidu (2015) 使用美国对拉丁美洲以外国家的军事援助作为美国对哥伦比亚军事援助的工具变量。
第二大类为随机实验,这时通常可以将 “被鼓励参加实验” 视为工具变量。另一类 IV 可以被称为自然实验 (Natural Experiment) (Sovey 和 Green,2011),这一类涉及两种情况,即模糊断点方法,以及由出生日期或资格引起的政策适用方面的差异。最后一类 IV 是基于计量假设的,如使用变量的滞后期,或是对变量进行变换来满足假设条件 (比如 Bartik IV)。
具体以上分类在文中总结为下表:
4. 复现步骤和结果
4.1 复现步骤
作者的复现过程涉及如下步骤:
首先,分别基于传统渐进标准误、Huber White 稳健标准误、聚类稳健标准误 (如果存在聚类结构) 以及 bootstrap 标准误计算第一阶段的 统计量; 其次,作者基于不同类型的标准误使用 2SLS 估计量复现原始的 IV 估计结果,由此得到对应的点估计结果、标准误和 值。作者也估计了 OLS 模型的结果,并计算 2SLS 和 OLS 估计量的比值。
4.2 复现结果
基于复现数据,文章主要有三个主要发现:
关于第一阶段 值:14 篇 (22%) 文章没有报告该统计量;对于报告 统计量的研究中,10 篇 (20%) 并未因潜在的异方差问题或是聚类结构进行调整,而使用了渐进标准误;
基于 (聚类) bootstrap 标准误,有 12 项研究经过复现后得到的 统计量小于 10,而这些文章中有 3 篇未报告 值,7 篇原文中得到的 值大于10;当施加更严格的要求后,即 > 104.7 后,只有 31% 的样本符合要求。
**关于 2SLS 的 值,**:研究报告的 值聚集在 1.96 附近,对应于 5% 的统计显著水平;基于 bootstrap 标准误得到的复现 值小于文章报告的 值,报告的 值主要基于渐进标准误。
关于 2SLS 估计和 OLS 估计的关系:参照下图,多数研究的 2SLS 估计和 OLS 估计系数正负一致,2SLS 估计结果经常比 OLS 估计结果大得多。
我们试着探索这个比值是否与工具变量的解释能力有关。我们用 刻画工具变量的解释能力,由于 ,,因而有:
其中 是第一阶段 的预测值。当 和 符号相同时,上述不等式成立。由于 以 为界,当排他性假设成立,即 时, 和 理论上应不存在关联。
但在复现过程中,对于所使用 IV 并非实验生成的研究中,可以发现两者存在强烈的负相关关系;而对于那些使用实验生成 IV 的研究,这种关系变得很弱。因而,OLS 和 IV 估计差异与 IV 的解释能力是有关的。
下表列出了作者通过复现既有研究得到的主要发现。以上结果强烈地支持作者们的推断,2SLS 和 OLS 估计之间的巨大差异是由于识别假设不成立导致的,即违背排他性假设引起的偏误在弱工具变量问题下进一步放大了。
5. 诊断工具:排他性假设冲突
5.1 Zero-first-stage 检验
Bound 和 Jaeger (2000) 首先建议对工具变量无法影响处理机制的子样本进行辅助回归,这种方法被称为 zero-first-stage (ZFS) 检验。其思路在于当人们基于先验知识明确知道某个子样本的第一阶段回归结果为 0,那么如果排他性假设满足,简约式估计得到的效应大小也应当为 0。
按照如下方程组:
这时工具变量 同样进入了结构方程,排他性假设等同于 。
事实上这个假设也可以放宽,Conley,Hansen 和 Rossi (2012) (后文称 CHR 2012) 指出,结合研究者对排他性假设违背程度的信念,可以对 的数值、范围或是分布有合理的假设。于是当使用更弱的假设 “ ~ F” 替代 “”, 的分布形式为:
当假设 服从高斯分布时,即 ,方程 (5.2) 就可以简化成 (5.3)。
为了选择适当的 ,van Kippersluis 和 Rietveld (2018) 建议使用方程 (5.1) 对 ZFS 部分 ( 的数值被假定为 0) 进行估计,并使用估计得到的 作为 。这种方法将非正式的 ZFS 检验和 plausibly-exogenous 方法结合,同时对应的 R 和 Stata 软件操作程序也是可获得的。
5.2 案例研究
在 Guiso,Sapienza 和 Zingales (2016) (后称 GSZ 2016) 中,为了探讨自治城市的经历 (free-city experience) 对当地社会资本的影响,作者们选取了 “城市在中世纪是否是主教所在地” 作为工具变量。作者认为,在控制大量地理因素后,公社组建的可能性是工具变量影响现今社会资本的唯一途径。
文章将样本划分为南部地区和北部地区进行回归。对于南部地区,由于不存在自治城市,可以推测简约式的结果是不相关的;而对于北部地区,作者预计应当会对结果变量产生影响。
为了度量社会资本,作者分别使用当地人均非盈利组织数量 (Nonprofit) 和器官捐赠组织存在情况 (Organ Donation) 作为衡量指标,下表列出了 GSZ (2016) 简约式的回归结果。
接下来作者结合这篇文章,向大家说明上述方法具体是如何操作的。先计算第一阶段 值,对于北部地区,使用 bootstrap 标准误得到的 统计量为 67.3,而南部地区对应的 统计量从定义上应当为 0,然后复现原文表 4 的简约式结果。
在随后的回归过程中,使用原文中南部地区的结果得到的两个估计系数 0.178 和 0.189,将其作为工具变量对结果变量的直接效应 (前文提到的 )。最后得到相应的估计结果并汇报在下图中。
从图中可以发现,相比于 bootstrap 方法,传统稳健标准误低估了不确定性,且当用非营利组织情况作为结果变量时,LTZ 方法相比于原文得到的估计系数更小,标准误更大。
当结果变量为器官捐赠情况时,使用传统 2SLS 和 bootstrap 方法得到的估计结果显著不为 0,这令人怀疑排他性假设收到了违背,LTZ 方法得到的估计系数更小,不确定性更大,且置信区间包含了 0 值。
6. 结束语
在研究者基于观测数据 (考虑) 使用 IV 方法时,需要注意以下几点:
想清楚使用 OLS 方法估计究竟是夸大还是低估了处理效应,是否有必要使用 IV 方法进行估计; 在实验设计阶段,考虑选取的 IV 是否可以按照令人信服的逻辑对处理变量产生 (准) 随机影响; 在运行完第一阶段回归后,作图比较一下 和 的差别,目测检验一下 IV 的解释能力; 使用 bootstrap 标准误计算第一阶段的 统计量。如果数据存在聚类或是群体结构,使用聚类 bootstrap 方法。当 值足够大时再推进研究; 类似地,对于 2SLS 估计量使用 bootstrap 方法获得标准误和置信区间; 如果有充分理由相信 OLS 结果已经存在向上的偏误,而得到的 2SLS 估计甚至比 OLS 大 (得多) 的话,就要引起重视了; 在自然实验中有总是接受者 (always takers),从不接受者 (never takers) 和依从者 (compliers) 三类主体,进行观测研究时也可以尝试划分出类似的群体。从不接受者 (never takers) 可以合理地被用作 ZFS 样本。从而我们可以使用该样本进行安慰剂检验来估计 IV 对结果变量的影响; 使用 ZFS 检验的结果获得 LTZ IV 估计值和置信区间,并与原始的估计值和置信区间进行比较。
7. 相关推文
Note:产生如下推文列表的 Stata 命令为:
lianxh iv, m
安装最新版lianxh
命令:
ssc install lianxh, replace
专题:面板数据 regife:面板交互固定效应模型-Interactive Fixed Effect 专题:IV-GMM Stata:最牛IV-Shift Share IV 实操-ssaggregate Stata:无需工具变量的IV估计-kinkyreg- Stata:当工具变量小于内生变量时,该如何估计?-mmeiv IV估计中的外部有效性(External Validity) IV在哪里?奇思妙想的工具变量 twostepweakiv:弱工具变量有多弱? 多个(弱)工具变量如何应对-IV-mivreg? IV:工具变量不满足外生性怎么办? IV-工具变量法:第一阶段系数符号确定时的小样本无偏估计 IV:可以用内生变量的滞后项做工具变量吗? Stata: 工具变量法 (IV) 也不难呀! IV专题: 内生性检验与过度识别检验 IV 经典:寻找 IV 的足迹——Card(1993) IV-估计:工具变量不外生时也可以用! 专题:内生性-因果推断 Abadie新作:简明IV,DID,RDD教程和综述 工具变量-IV:排他性约束及经典文献解读
New! Stata 搜索神器:
lianxh
和songbl
GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
. ssc install lianxh
. ssc install songbl
👉 使用:
. lianxh DID 倍分法
. songbl all
🍏 关于我们
连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。 直通车: 👉【**百度一下:**连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。