不用太关心控制变量,真的!
👇 连享会 · 推文导航 | www.lianxh.cn
🍎 Stata:Stata基础 | Stata绘图 | Stata程序 | Stata新命令 📘 论文:数据处理 | 结果输出 | 论文写作 | 数据分享 💹 计量:回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归 ⛳ 专题:SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析 🔃 因果:DID | RDD | 因果推断 | 合成控制法 | PSM-Matching 🔨 工具:工具软件 | Markdown | Python-R-Stata 🎧 课程:公开课-直播 | 计量专题 | 关于连享会
连享会视频课 · 因果推断实用计量方法
作者: 刘琦(剑桥大学)
邮箱: ql301@cam.ac.uk
[source]: Hünermund P, Louw B. On the Nuisance of Control Variables in Regression Analysis[J]. arXiv preprint arXiv:2005.10314, 2020. -Link-
目录
1. 引言
2. 控制变量的结构性解释
3. 对实证研究分析的启示
参考文献
温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:
在回归分析中,我们经常会引入「控制变量」来更好的评估自变量和因变量之间的因果关系。在这篇文章中,我们认为控制变量本身是不具有因果解释的。因此,我们建议在实证研究论文的结果部分「不要讨论其边际效应」。
1. 引言
多元回归分析 (multivariate regression) 是战略管理和经济学实证研究中的重要工具。这种方法通过引入控制变量来缓解混杂变量对因果效应估计的干扰。尽管控制变量在因果推断中处在一个很重要的地位,但在实证研究中,学者经常夸大其作用。
在本文中,我们认为:虽然控制变量对于因果关系的识别至关重要,但其本身通常不具有结构性解释。即使是有效的控制变量,也常常会与其他未观察到 (或不能观测到) 的因素(unobserved factors)关联,从因果推断的角度来看,这使得它们的边际效应无法解释 (Westreich 和 Greenland,2013;Keele等,2020)。因此,研究人员应考虑在解释其分析结果时完全忽略它们。
然而,在研究中,从控制变量中得出实质性结论的现象很普遍,例如,「控制变量的影响符合预期」 、「在结果中,我们的控制变量的结果值得注意」 等表述。具体来看,我们对近五年来在 Strategic Management Journal 上使用参数回归模型的论文进行了分析,发现有近 47% 的文章明确讨论了控制变量的估计效果。
此外,审稿人也经常会以「尽管这些控制变量并不是分析的主要重点,但他们仍然可以提供有价值的信息」为依据,要求论文作者提供控制变量系数的经济解释的情况。
2. 控制变量的结构性解释
Durand 和 Vaara (2009) 在战略管理的文献中,首次引入因果图进行实证研究的逻辑梳理,并且高度评价其作用。考虑到回归中解释变量与控制变量间关系的复杂性,接下来,我们将使用因果图进行描述分析 (Pearl,2000; Hünermund,Bareinboim 2019)。
图 a 给出了一个简单的有关处理变量 (treatment variable) 和结果变量 (outcome variable) 的经济模型,并且两个变量之间的关系被箭头连接,用来表明两个因素之间的因果关系。此外, 和 是两个可能会影响处理变量和结果变量的混杂因素,是相互关联的 (correlated),并通过图中的虚线双向弧线来表示。同时, 和 这种相互关联的关系,也给处理变量和结果变量之间的关系提供了一个活动途径 (Pearl,2000)。因此, 和 不仅通过真正的因果路径 连接,而且还通过第二条路径 ( 对 的因果关系)、 ( 对 的因果关系)、以及 ( 和 有相互关联的作用) 来连接,这会产生虚假的非因果关系。
在回归分析中,控制变量正好可以阻止此类活动 (backdoor) 的路径。故根据图 a,研究人员可以选择控制 或者 (两者都可以被用来确定因果关系)以获得 对 的无污染影响。
尽管如此,在控制 的情况下,其边际效应本身将不对应于 对 的任何因果效应。这主要是因为 与 相关, 将部分吸收 对 的因果影响 (Cinelli and Hazlett,2020)。
图 b 描绘了一个包含几组控制变量的更为复杂的示例,并且每组都足以确定 对 的因果关系 (Textor 和 Liśkiewicz,2012)。在这种情况下:一种可能性是仅控制 ,从而阻止所有通过后门进入 的路径;第二种,控制 的直接影响因素 (、 和 ),这也将阻止所有后门路径;第三种选择是控制整个混杂因素 (、、、 和 ),这将是最耗费数据的策略,并且由于自由度较低,将会导致估算值不精确。这个例子也说明了用于识别因果关系 的控制变量组个数 (在此为 ),通常小于一个模型中混杂变量的总数。同时,如果 的所有直接影响因素 (此处为 、 和 )在回归中都考虑到,则控制变量的估计可以得到一个结构性解释。但这又不太可能实现,因为在许多实际环境中,影响 的因素可能会很多。
3. 对实证研究分析的启示
对有偏差 (biased) 的控制变量系数的边际效应解释是存在问题的,研究人员可能会发现错误的结论,除非可以确定在回归分析中考虑了结果变量的所有相关影响因素 (all-causes regression),否则不建议在实证研究中讨论控制变量的系数。同时,我们也建议仅将控制变量视为识别因果关系的干扰项,并不要在报告结果中展示 (Liang 和 Zeger,1995)。
我们对控制变量系数解释方式的建议也适用于非参数匹配估计 (Heckman 等,1998) 和现代机器学习,特别是高维设置 (Belloni 等,2014)。
简而言之,我们不需要过多的担心「控制变量的系数变化并没有预期的迹象」。因为在实际操作中控制变量的估计总是可能会产生偏差。相反,研究人员应该更加专注于解释主要变量的边际效应。相比之下,控制变量几乎没有实质性意义,我们可以放心地省略或只在附录中讨论。这样不仅会有效阻止研究人员从控制变量中得出错误的因果结论,而且还简化实证研究论文的讨论部分,并节省宝贵的资源用来讨论主要变量的经济效果。
参考文献
Hünermund P, Louw B. On the Nuisance of Control Variables in Regression Analysis[J]. arXiv preprint arXiv:2005.10314, 2020. -Link- Westreich D, Greenland S. The table 2 fallacy: presenting and interpreting confounder and modifier coefficients[J]. American journal of epidemiology, 2013, 177(4): 292-298. -Link- Keele L, Stevenson R T, Elwert F. The causal interpretation of estimated associations in regression models[J]. Political Science Research and Methods, 2020, 8(1): 1-13. -Link- Durand R, Vaara E. Causation, counterfactuals, and competitive advantage[J]. Strategic Management Journal, 2009, 30(12): 1245-1264. -Link- Pearl J. Models, reasoning and inference[J]. Cambridge, UK: CambridgeUniversityPress, 2000. -Link- Hünermund P, Bareinboim E. Causal inference and data-fusion in econometrics[J]. arXiv preprint arXiv:1912.09104, 2019. -Link- Cinelli C, Hazlett C. Making sense of sensitivity: Extending omitted variable bias[J]. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 2020, 82(1): 39-67. -Link- Textor J, Liskiewicz M. Adjustment criteria in causal diagrams: An algorithmic perspective[J]. arXiv preprint arXiv:1202.3764, 2012. -Link- Liang K Y, Zeger S L. Inference based on estimating functions in the presence of nuisance parameters[J]. Statistical Science, 1995, 10(2): 158-173. -Link- Heckman J J, Ichimura H, Todd P. Matching as an econometric evaluation estimator[J]. The review of economic studies, 1998, 65(2): 261-294. -Link- Belloni A, Chernozhukov V, Hansen C. High-dimensional methods and inference on structural and treatment effects[J]. Journal of Economic Perspectives, 2014, 28(2): 29-50. -Link-
课程推荐:因果推断实用计量方法
主讲老师:邱嘉平教授
🍓 课程主页:https://gitee.com/lianxh/YGqjp
New! Stata 搜索神器:
lianxh
和songbl
GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
. ssc install lianxh
. ssc install songbl
👉 使用:
. lianxh DID 倍分法
. songbl all
🍏 关于我们
连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。