查看原文
其他

控制变量的内生性需要处理吗?如何处理呢?

计量圈社群 计量经济圈 2022-10-02
凡是搞计量经济的,都关注这个号了
稿件:econometrics666@126.com
所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

American Journal of Agricultural Economics期刊联合主编,明尼苏达大学Marc F. Bellemare就《控制变量的内生性需要处理吗?如何处理呢?》,做了如下的分享。
参看:1.工具变量与因果推断, 明尼苏达Bellemare关于IV的分析

继续“Metrics Monday”系列,继续上周 de Luca 等工作论文讨论的控制变量主题。我想讨论控制变量的内生性问题。
请注意,接下来的很多想法都是我自己想出来的,当然就不一定全都是正确的,因此,欢迎对这个主题进行探讨的评论。
与往常一样,假设你有观测数据,并且对估计核心解释变量D对结果变量Y的因果关系感兴趣(当然,你也能控制 住一系列变量X )。为了便于讨论,我们假设方程中只有一个控制变量,具体设定如下:
Y = a + bX + cD + e   (1)  
感兴趣的参数是c。如果你有观测数据,那么你就会知道在大多数情况下,E(D’e) 不为零。也就是说,D在方程 (1)中对Y是内生变量,此时,参数c就没有完全捕捉到D对Y的因果效应。
但是X呢?经常发生的是,X 显然也对 Y 是内生的,例如,X是由每个受访者对Y的期望所决定的决策变量,此时Y会反过来影响X,这将构成反向因果关系的情况。
就同行评审过程而言,我不鼓励你做的一件事,是尝试为 X 找到一个工具变量。为什么这样呢?简单而言,如果有点愤世嫉俗的话:因为D是你感兴趣的核心解释变量,而要处理D的内生性问题本身就很困难了。也就是说,你在这方面做得如何会直接决定你的论文被审稿人和编辑接受的程度。而试图处理你的控制变量X的内生性问题,会成倍地增加审稿人提出拒绝你论文的审稿建议。
说真的,我有时仍然会看到一些论文,作者在研究核心解释变量D对结果变量Y的影响,但是他们花了相当多的时间试图处理控制变量X的内生性问题。一般来说,这些作者也深陷像Heckman选择模型这样的似然过程中,所以处理X只是他们给读者带来的一长串负担中的一件事。不过,同志们,这真的是无关紧要的,因为感兴趣的变量是D,而不是 X。
那么我们如何处理内生性控制变量呢?首先,让我们考虑一下内生性控制变量意味着什么:
  • 内生性控制变量X意味着 E(X'e) 不为零,这显然意味着方程(1)中估计的参数b将有偏差。

  • 内生性控制变量X还意味着参数c的OLS估计量将有偏差,因为X出现在c的 OLS 估计量的公式中。此外,请参阅 Frölich (2008) 的这篇文章(http://onlinelibrary.wiley.com/doi/10.1111/j.1751-5823.2008.00045.x/abstract),说的是存在内生性控制变量的情况下 OLS 和 2SLS估计都将出现不一致性问题。也就是说,它们不会收敛到感兴趣参数c的真实值。

  • 倘若不在方程(1)中加入内生性控制变量X,此时X会被归结到误差项e中,因此,如果X与核心解释变量D相关,那么你对c的估计会出现偏差。

这表明了以下几点:
如果 D 和 X 不相关,那么最好将 X 完全排除在回归之外,因为在这种情况下,它不会使你对 c 的估计产生偏差,无论X能解释多少Y的变化。
如果 D 和 X 相关,那么无论哪种方式都有问题。排除掉X 意味着你有一个遗漏变量偏差。包括它意味着你的估计会出现不一致问题。那么,你应该怎么做?我认为中间的方法是通常的“两者都做”,即在加入和排除内生性控制变量的情况下分别呈现回归结果,看看两者有什么变化。但即使这样也不是非常令人满意,因为在这两种情况下都存在偏差,“获得更好的研究设计”更没有帮助。
理想情况下,你会为 X 找到一个好的(即有效且相关的)工具变量IV,但这些很难找到,在我看到试图解决控制变量X的内生性的论文中,用于核心解释变量D的IV通常不是最好的,而用于那些内生性控制变量X的IV就更糟糕了。
另请参阅此处(http://economics.stackexchange.com/questions/3194/what-happens-if-the-control-variables-are-also-endogenous)以了解有关此问题的讨论,鉴于涉及到许多观点,我发现有点难以理解。Lechner (2008) 也有这篇文章(http://www.sciencedirect.com/science/article/pii/S0167715207002131),但它似乎专门针对匹配方法。

Source: https://marcfbellemare.com/wordpress/11057


关于回归中变量的问题

1.什么时候应该使用回归分析?控制变量意味着什么?2.如何选择正确的因变量(控制变量),让你的计量模型不再肮脏,3.调节变量, 中介变量和控制变量啥区别与联系? 4.控制、调节和中介变量,系说,5.核心解释变量A不显著, 但加入变量B后, 为什么A和B都显著了?6.被解释变量比解释变量的层级更高的模型设定合理么?7.审稿: 协变量何时重要? 哪个重要, 有多重要?8.三张图秒懂, 混淆, 中介, 调节, 对撞, 暴露, 结果和协变量的复杂关系,9.因果推断专题:6.再谈混淆变量,10.什么时候需要标准化回归模型中的变量?11.因果推断专题:1.混淆变量,12.虚拟变量回归模型是什么? 政策评估的前件,13.11种与机器学习相关的多元变量分析方法汇总,14.回归中各变量的数值相差过大有事, 又有什么问题?15.哦, 不, 回归符号反了, 我们该怎么办?16.回归系数与预期相反时, 我们能够采取的方法和思路有哪些?17.显著不显著的后背是什么, 非(半)参估计里解决内生性,18.在什么情况下多增加一个自变量后, 回归的R方会变小呢?19.控制变量选择问题: 如何鉴别好或不好的控制变量?附上14篇相关文章!20.如何测度不可观测变量遗漏的严重程度, 建议各位学者看过来!21.如何选择合适的工具变量, 基于既有文献的总结和解释!22.如何选择合适的工具变量, 基于既有文献的总结和解释!23.如何测度不可观测变量遗漏的严重程度, 建议各位学者看过来!24.社会网络计量经济学是什么?测度社会关系网中的同伴效应!25.社会网络分析最新文献和软件学习手册,26.添加一个新变量能使以前不显著的变量变得显著了?27.加入其他控制变量后, 估计系数的符号相反了?28.估计工具变量回归时, 是否必须将所有外生变量用作工具变量?29.实证分析观测数据的10条检查清单, 消除实证分析中许多潜在的虚假结果,30.可以在面板回归分析中使用时间序列解释变量或被解释变量吗?31.收入和年龄等变量是将其转化成有序离散变量还是当成连续变量进行回归呢?32.你确定找到一个好的工具变量了吗? 这将是一篇最值得你看的文章!33.因没阅读主编最新文章, 被知名期刊主编竟无情desk reject! 到底是什么方法方面的文章呢?34.审稿人有义务告诉你回归中可能的遗漏变量么?,35.回归中常数项显著说明模型中有遗漏变量问题?

关于内生性,参看:1.讲座视频: 模型内生性分类, 检验与处理,2.全能的内生性问题处理方法ERMs, 强烈安利一下!3.补救实证中内生性问题的21种方法, 来自国际顶级期刊的要求!4.前沿: 解决内生性问题的无工具变量推断法,5.你的内生性解决方式out, CMP已一统天下而独领风骚!6.不强调内生性, 用极简截面数据和交互项, 就将经济学故事讲到领域Top刊!7.六种定量方法解决内生性问题, 附stata代码操作,8.天下回归, 无内生性不破, 唯此神文不破, 练就内生性处理的终极大法!9.搞懂因果推断中内生性问题解决方法必读的书籍和文献已搜集好!10.实证研究中自选择基础上的内生性问题回顾, 建议和纠正措施!11.简洁的内生性问题处理思维流程图, 并且还附上检验的代码!12.内生性问题: 微观和宏观经济学研究中的关键因果识别问题
下这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

3.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存