查看原文
其他

如何通过因果图选择合适的工具变量?一份关于IV的简短百科全书

计量经济圈 计量经济圈 2021-10-23

凡是搞计量经济的,都关注这个号了

稿件:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

就内生性问题及其解决方法,咱们为各位学者引荐了很多文章,例如:看完顶级期刊文章后, 整理了内生性处理小册子1.“内生性” 到底是什么鬼? New Yorker告诉你2.Heckman两步法的内生性问题(IV-Heckman);3.IV和GMM相关估计步骤,内生性、异方差性等检验方法4.最全估计方法,解决遗漏变量偏差,内生性,混淆变量和相关问题5.毛咕噜论文中一些有趣的工具变量!6.非线性面板模型中内生性解决方案7.内生性处理的秘密武器-工具变量估计8.内生性处理方法与进展9.内生性问题和倾向得分匹配10.你的内生性解决方式out, ERM独领风骚11.工具变量IV必读文章20篇, 因果识别就靠他了12.面板数据是怎样处理内生性的13.计量分析中的内生性问题综述14.工具变量IV与内生性处理的解读15.一份改变实证研究的内生性处理思维导图;16.Top期刊里不同来源内生性处理方法17.面板数据中heckman方法和程序(xtheckman);18.控制函数法CF, 处理内生性的广义方法19.二值选择模型内生性检验方法20.2SRI还是2SPS, 内生性问题的二阶段CF法实现21.内生变量的交互项如何寻工具变量22.工具变量精辟解释, 保证你一辈子都忘不了

关于工具变量,可以参看如下文章:1.内生性问题操作指南, 广为流传的22篇文章2.看完顶级期刊文章后, 整理了内生性处理小册子3.如何寻找工具变量?得工具者得实证计量4.内生性处理的秘密武器-工具变量估5.工具变量在社会科学因果推断中的应用6.为你的"工具变量"合理性进行辩护, 此文献可以作为范例7.没有工具变量、断点和随机冲击,也可以推断归因8.工具变量与因果推断, 明尼苏达Bellemare关于IV的分析9.工具变量IV与内生性处理的精细解读10.我的"工具变量"走丢了,寻找工具变量思路手册11.面板数据里处理多重高维固定效应的神器, 还可用工具变量处理内生性12.豪斯曼, 拉姆齐检验,过度拟合,弱工具和过度识别,模型选择和重抽样问题13.工具变量先锋 Sargan,供参考14.AEA期刊的IV靠不靠谱?15.计量大焖锅: iv, clorenz, rank, scalar, bys, xtile, newey, nlcom,16.GMM是IV、2SLS、GLS、ML的统领,待我慢慢道来17.IV和GMM相关估计步骤,内生性、异方差性等检验方法18.因果推断IV方法经典文献,究竟是制度还是人力资本促进了经济的发展?19.内生变量的交互项如何寻工具变量, 交互项共线咋办20.面板数据、工具变量选择和HAUSMAN检验的若干问题21.IV和Matching老矣, “弹性联合似然法”成新趋势22.IV回归系数比OLS大很多咋回事, 怎么办呢? 23.不用IV, 基于异方差识别方法解决内生性, 赐一篇文献24.找不到IV, RD和DID该怎么办? 这有一种备选方法25.内生转换模型vs内生处理模型vs样本选择模型vs工具变量2SLS26.内生性, 工具变量与 GMM估计, 程序code附27.GMM和工具变量在面板数据中的运用28.关于工具变量的材料包, 标题,模型,内生变量,工具变量29.必须使用所有外生变量作为工具变量吗?30.工具变量精辟解释, 保证你一辈子都忘不了31.毛咕噜论文中一些有趣的工具变量!32.为你的"工具变量"合理性进行辩护, 此文献可以作为范例33.内生变量的交互项如何寻工具变量, 交互项共线咋办等等。

今天,我们引荐一份“如何通过因果图选择合适的工具变量?一份关于IV的简短百科全书”。

正文
关于下方文字内容,作者:王乐,东北财经大学金融学院通信邮箱:wl614335@163.com
注:文后附上了PDF版本的文章,更加便于阅读,可以前往参看。
作者之前的文章:Top前沿: 农业和应用经济学中的机器学习, 其与计量经济学的比较, 不读不懂你就out了!
在统计学、计量经济学、流行病学及相关学科中,当解释变量与误差项相关时,IV方法被用于估计因果关系,在这种情况下,普通最小二乘法和方差分析的结果是有偏的,而工具变量方法得出的是一致估计量。解释变量与误差项的相关性可能在以下几种情况下出现:
1.因变量的变化会改变至少一个协变量的值(“反向”因果关系),
2.有一些被忽略的变量同时影响因变量和自变量
3.协变量受非随机测量误差的影响。
在线性模型中,使用IVs有两个要求:
1.工具变量必须与内生解释变量相关。如果这种相关性很强,那么这个工具变量就被称为在第一阶段很强。弱相关性可能会导致参数估计和误差项有偏。
2.工具变量不能与解释方程中的误差项相关。如果满足此条件,则工具变量被称为满足排除限制。

一、引言

工具变量的概念最早是由Philip G. Wright于1928年以联立方程的形式提出的。在1945年, Olav Reiersøl应用了工具变量的方法,并给这种方法命名。
虽然IV可以扩展到广泛的模型中,但IV的最普遍的应用是线性回归。一般而言,工具变量被定义为与自变量X相关、与线性方程中的“误差项”U无关的变量Z。

人员发现烟草税和健康状况是相关的,这可能被视为吸烟导致健康变化的证据。


三、选择合适的工具变量

由于是不可观测的,因此独立于的要求不能从数据中推断出,而必须从模型结构中确定。假设我们希望评估大学辅导对GPA的影响。参加辅导和GPA之间的关系可能被一些因素干扰,如参加辅导课程的学生可能更关心他们的成绩,或者在学习上有困难。图1-3通过辅导和GPA之间的双向弧线描述了这种干扰。

假设辅导地点在大学图书馆,距离可能导致学生花更多的时间在图书馆,进而提高他们的平均绩点,如图1所示。

在图2中,我们看到,距离不符合工具变量,因为它可通过以下路径与GPA产生联系:然而,如果我们通过把图书馆时间作为协变量来控制,那么距离就变成了一个工具变量,因为给定的图书馆时间下,距离与GPA是独立的。
假设一个学生的“自然能力”影响了他在图书馆的时间和GPA,如图3所示,

此时,距离就不能用作工具变量。

最后,假设图书馆的学习时间并不影响GPA,因为不在图书馆学习的学生在其他地方学习,如图4所示。在这种情况下, 控制图书馆的开放时间仍然会产生距离影响GPA的假象。然而,如果我们不控制图书馆的时间并将其作为协变量,那么距离又可以被用作工具变量。

六、工具变量估计量的解释

上面的论述假设因果效应不随观察的不同而变化,即是一个常数。一般来说,不同的个体对“处理”x的变化会有不同的反应,因此x对y的变化在总体中的平均效应可能与在给定的子群体中的效应不同。
标准IV估计值可以解释局部平均效果(LATE),而不是平均效果(ATE)。Imbens和Angrist(1994)证明,在弱条件下,线性IV估计量可以解释为局部平均效果的加权平均值,其中权重取决于内生回归变量对工具变量变化的弹性。这意味着IV估计量只解释了受到工具变量影响的子群体中变量产生的影响,且对工具变量的变化反应最大的子群体对估计量的影响最大。例如,如果一个研究者将赠地大学(政府资助的低学费大学)的存在作为大学教育对收入回归的工具变量,研究群体为如果存在大学就会获得学位,如果不存在大学就不会获得学位的人。在没有进一步假设的情况下,这种实证结果并不能告诉研究人员大学对于那些无论当地是否有大学都能获得或永远得不到大学学位的人的影响。

七、潜在的问题

如果工具变量与方程中的误差项相关,则工具变量估计通常是不一致的。另一个问题是由“弱”工具变量的选择引起的,这些工具变量在第一阶段回归中预测较差。因此,当它们被用来代替第二阶段方程中的问题预测变量时,它们得出的最终预测结果也较差。
在上面讨论的吸烟和健康的例子中,如果吸烟状况在很大程度上对税收的变化没有反应,那么烟草税就是弱吸烟工具变量。如果更高的税收并没有促使人们戒烟(或不开始吸烟),那么税率的变化并没有告诉我们吸烟对健康的影响。如果税收通过影响吸烟之外的其他渠道影响健康,那么这些工具是无效的,可能产生误导的结果。例如,拥有相对健康意识的人群的地方和时期可能会实施高烟草税,甚至在保持吸烟率不变的情况下也会表现出更好的健康状况,所以我们可以观察到健康和烟草税之间的相关性,即使吸烟对健康没有影响。在这种情况下,我们将错误地根据烟草税和健康之间的相关性来推断吸烟对健康的因果影响。

八、抽样性质和假设检验

工具变量估计量只有期望的渐近性质,推断是基于估计量的抽样分布的渐近近似。即使当工具变量与被解释方程的误差不相关且工具变量不弱时,工具变量估计量的有限样本性质也可能较差。例如,恰好识别的模型产生没有矩的有限样本估计量,该估计量可以说既不偏也不无偏,t统计量的大小可能远离真实的参数值。

九、工具变量的强度和过度识别的限制

工具变量的强度可以直接评估,对于只有一个内生回归变量的模型,常见的经验法则是:在第一阶段回归中,被排除的不相关的工具变量的f统计量应大于10。
工具变量与方程中的误差项不相关在恰好识别的模型中是无法检验的。而对于过度识别,最常见的检验为Sargan-Hansen检验,原理为:如果工具变量是外生的,那么残差应该与外生变量不相关。通过残差对外生变量集的OLS回归,可以计算出Sargan-Hansen检验的T*R平方统计量。在误差项与工具变量不相关的情况下,这个统计量将是m - k自由度的渐近卡方。

计量使用时间去均值变量(time-demeaned variables)来移除未观察到的效果。因此,如果解释变量中包括定常变量,那么FEIV估计的作用将是有限的。

长按以上二维码可以查看PDF版本

关于因果推断,我们引荐了关于各种因果识别方法的120份经典实证文献汇总”,哈佛大学新修订完成的因果推断经典大作免费下载!附数据和code,因果推断的统计方法总结, 177份文献政策评估的计量方法综述, 包括最新因果推断方法在教育领域使用IV, RDD, DID, PSM多吗? 使用具体文献,看完顶级期刊文章后, 整理了内生性处理小册子工具变量精辟解释, 保证你一辈子都忘不了DID, 合成控制, 匹配, RDD四种方法比较, 适用范围和特征关于双重差分法DID的32篇精选Articles专辑!关于(模糊)断点回归设计的100篇精选Articles专辑!匹配方法(matching)操作指南, 值得收藏的16篇文章等,MIT广为流传的政策"处理效应"读本DID的研究动态和政策评估中应用的文献综述最新政策效应评估的四种方法政策效应评估的基本问题等。

1.用"因果关系图"来进行因果推断的新技能2.因果推断专题:因果图3.因果推断专题:有向无环图DAG4.confounder与collider啥区别? 混淆 vs 对撞5.三张图秒懂, 混淆, 中介, 调节, 对撞, 暴露, 结果和协变量的复杂关系6.中介效应检验流程, 示意图公布, 不再畏惧中介分析7.图灵奖得主Pearl的因果推断新科学,Book of Why?  8.前沿: nature刊掀起DAG热, 不掌握就遭淘汰无疑!因果关系研究的图形工具!9.前沿: 卫星数据在实证研究中的应用, 用其开展因果推断的好处!10.7大因果推断大法精选实证论文, 可用于中国本土博士课堂教学!11.随机分配是什么, 为什么重要, 对因果关系影响几何?12.应用计量经济学现状: 因果推断与政策评估最全综述13.疫情期计量课程免费开放!面板数据, 因果推断, 时间序列分析与Stata应用14.Python做因果推断的方法示例, 解读与code15.内生转换模型vs内生处理模型vs样本选择模型vs工具变量2SLS16.不用IV, 基于异方差识别方法解决内生性, 赐一篇文献等等。

Reference: Wikipedia, other online sources.

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存