查看原文
其他

控制变量!控制变量!Good-Controls-Bad-Controls

连享会 连享会 2023-10-24

👇 连享会 · 推文导航 | www.lianxh.cn

连享会 · 2022空间计量专题

作者:曹昊煜 (兰州大学)
邮箱:caohy19@lzu.edu.cn

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:

编者按:本文主要摘译自下文,特此致谢!
Source:Cinelli C, Forney A, Pearl J. A Crash Course in Good and Bad Controls. Sociological Methods & Research. 2022. -PDF- -Link- -R-


目录

  • 1. 导言

  • 2. 因果模型与因果图

    • 2.1 结构因果模型与因果图

    • 2.2 干预和因果效应

    • 2.3 因果与非因果路径

    • 2.4 后门准则

    • 2.5 线性与非线性模型

    • 2.6 实质共同结果与 d 分离

  • 3. 好的控制与坏的控制

    • 3.1 好的控制

    • 3.2 坏的控制

    • 3.3 中性的控制

  • 4. 结语

  • 5. 相关推文



1. 导言

在实证研究中「坏的控制」时常出现,当一个变量的加入使得回归结果与预期产生明显差异时,该变量可能是坏的控制。如何避免这一差异已经成为实证研究中的重要挑战。在本文中,我们试图使用图形工具来解决这一问题。

当需要使估计结果更加接近真实参数时,我们必须考虑加入某个变量后对结果的影响。一方面存在一些好的控制,如果不加入模型可能导致遗漏变量问题。另一方面,如果加入坏的控制,则可能导致估计偏误。

尽管在现有的部分教材中提到了遗漏 “相关变量” 问题,但他们并未明确说明何谓 “相关变量”,也没有指出加入某些变量可能导致不一致估计的问题。上述事实可能会使研究者产生一个不好的想法,即尽可能多地加入控制变量总是更好的。

实际上,好的控制是在感兴趣的解释变量确定时已经固定的变量,即不受处理变量影响的因素,而坏的控制会受到处理变量的影响。但这一条件对控制变量是否是好的控制而言既不必要也不充分。尽管如此,我们仍可以借助图形来更好地理解控制变量的好坏。

2. 因果模型与因果图

2.1 结构因果模型与因果图

为了研究回归方程的估计结果与因果效应是否存在差距,首先必须定义因果效应。下面是一个结构因果模型 (Structural Causal Models,SCM) 的例子:

其中, 为内生变量, 为一切外生的因素,通常称之为扰动项。函数 称为结构方程,每一个函数代表了一条因果路径。模型定义了内生变量的联合分布 ,称为观测分布。每个结构因果模型都可以使用因果图 (又称有向无环图) 表示,结构因果模型 M 的因果图如下所示:

2.2 干预和因果效应

干预是通过改变 SCM 的机制实现的。例如,我们使用 代替模型中的机制 ,即 被外生地赋值为 ,则因果图变为:

此时 SCM 中的内生变量服从干预分布 ,平均因果效应为 (Average Causal Effect,ACE):

可见因果效应取决于 的取值,在线性模型中,ACE 退化为一个数值。当然,也可以使用同样的思路定义其他的因果效应,比如条件直接效应 (Controlled Direct Effect,CDE)。此时内生变量 也受到控制:

在加入干预机制的结构因果模型 中,潜在结果 定义为内生变量的解,也就是说 可以等价地写为 。从而平均因果效应可以写为:

2.3 因果与非因果路径

假定所有函数关系都是线性的,即 。进一步假定 服从多元正态分布。因此 ACE 为:

回归的系数:

因此直接使用 回归无法得到真正的因果关系。其原因在于 混杂在二者的因果关系中,或者说存在混杂路径 ,有时也称为 “后门路径”,此时 必须控制在回归方程中。

在一般的因果图中,需要理解三种重要的因果关系:

  • 中介 (Chains):中介指的是路径 ,即 的因果影响是通过 实现的。在方程中控制 会阻断这一联系;
  • 共同原因 (Forks):共同原因指的是路径 ,即 同时影响 。因此二者间存在非因果路径,在方程中控制 会阻断这一联系;
  • 共同结果 (Coliders):共同结果指的是路径 ,这一路径本身是关闭的,但如果我们在方程中控制了 ,则会打开这一非因果路径。

需要注意的是,控制某一变量的派生变量也视为部分控制了该因素。现在我们可以判断当以 为条件时,路径 是否被阻断:

  • 当路径是中介或共同原因时, 中会纳入中间节点能够阻断路径
  • 当路径是共同结果时, 中既不包含中间节点,也不包含其结果,则能够阻断路径

2.4 后门准则

因果图揭示了何种 的设定会阻断正确的因果路径,我们需要做的是选择 ,以保证:

  • 阻断所有虚假的路径;
  • 避免阻断或部分阻断真实的因果路径;
  • 避免打开其他虚假的路径。

以上三点称为后门准则。如果我们能够找到一组变量 ,那么使用迭代期望率:

2.5 线性与非线性模型

前文的识别结果还没有参数化,其步骤是首先计算出 ,再计算 的无条件均值。如果 是线性的,那么:

其中 表示 中除了 以外的变量。因此在线性假定下,ACE 简化为 。但如果函数假定是非线性的,则该结果不再成立。

2.6 实质共同结果与 d 分离

考虑以下因果模型:

可以看到共同结果 ,当我们在模型中控制了 时,会部分打开这一路径,此时 就是一个坏的控制。如果 的设定阻断了所有 之间的路径,则称二者 d 分离,也即条件独立 。因此,假定该示例中不存在路径 ,则 是 d 分离的,此时控制 也不会打开任何二者间的路径。

3. 好的控制与坏的控制

这一部分将介绍 18 个结构因果模型并分析其控制的好坏,各分类的名称由作者命名,因此可能不具备一般性。

3.1 好的控制

3.1.1 共同原因情形

作为共同原因或者共同原因的派生变量时,控制 可以阻断虚假的因果路径。

模型 1 中 是共同原因,因此必须控制在模型中。而在模型 2 或模型 3 中, 并不是传统意义上的混淆因素,但控制 可以切断来自不可观测因素的混淆,此时可以得到无偏的 ACE 估计。

3.1.2 带有中介的共同原因

如果模型中同时存在共同原因和中介关系,那么同样必须阻断后门路径。

以上三个模型中同时包含了中介关系和共同原因,以模型 4 为例,其后门路径为 。而在模型 5 和模型 6 中, 是共同原因 的派生变量,因此同样可以阻断后门路径。

3.2 坏的控制

3.2.1 M 偏误

在模型 7 中,变量 同时与处理变量和结果变量相关,因此其被称为 “预处理” 变量。尽管在传统的计量经济学中认为 是一个好的控制,但实际上可能会打开一条后门路径 ,这种坏的控制称为 M 偏误。

3.2.2 偏误放大

另一种关于 “预处理” 的控制是加入影响处理变量的因素。在这一情形下,不但无法分离出真实的因果效应,还会放大本身存在的偏误。

3.2.3 阻断正确路径

在因果推断中,一方面我们想要剔除所有可疑的路径,另一方面也要注意不能阻断正确的因果路径。下面两个模型显示了阻断因果路径的坏控制:

在这两个模型中, 分别作为中介变量和中介变量的派生变量,因此在模型中加入 之后,会完全和部分阻断正确的因果路径,导致不一致的估计。

3.2.4 打开混淆路径

对具有中介变量的模型稍加改动。假设存在不可观测的因素 作为 的共同原因。此时路径 这一共同结果阻断,加入 之后反而会打开该路径。

3.2.5 选择偏误

以下两种情况称为选择偏误,其特征是打开了与 共同相关的因果路径。在左边的模型中,控制 之后出现了混淆路径 ,右边的模型则由于控制了共同原因而违反了后门准则。

3.2.6 Case-Control 偏误

在最后一个模型中,如果加入 的派生变量也可能导致估计偏误,尽管 之间并不存在因果路径。

这一结果的原因很难通过因果路径解释,但 本质上是 的一个派生变量,其很有可能是处理的结果,因此加入 同样是一个坏的控制。但当 之间的路径不存在,或者说二者 d 分离时,加入 可以检验二者的关系是否为 0。

3.3 中性的控制

3.3.1 可能提高精度的情形

在很多情形下,加入某些控制变量是无害的,但也无法提供更多因果信息。例如在以下模型中, 并没有混淆因果关系,也没有阻断可疑的因果路径,因此 是一个中性的控制。但加入 之后,因果关系估计的标准误会下降,因此 能够改善 ACE 的估计精度。

3.3.2 可能降低精度的情形

与第一种情形相反,在下面的模型中虽然控制 也不会影响从 的因果关系,但是此时会放大 ACE 的估计方差,降低估计的精度。可见 的父变量会损害估计精度,而 的父变量则会提高估计精度。

要注意的是,该模型与偏误放大情形非常类似,唯一的区别在于该模型中不存在与 同时相关的不可观测因素。

3.3.3 可能缓解选择偏误的情形

与传统经济学不同,并非所有 “处理后” 变量都是坏的控制。在以下的两个模型中, 的加入并未打开混淆路径。

在这两个模型中,加入 都会降低 的方差,因而损害估计的精度。但在右边的模型中,控制 可以缓解关于 的选择偏误。

4. 结语

本文对结构因果模型进行了简要的介绍,同时列举了诸多好的控制、坏的控制和中性控制的例子。通过后门准则,我们可以在绝大多数情况下分析控制变量的优劣,但对于中性控制与平均因果关系估计精度,以及其他特殊情形,因果图可能无法提供直接的判断,需要结合实际的研究问题和更深入的结构因果方程理论来进行分析。

5. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 控制变量, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

  • 专题:论文写作
    • 控制变量如何选?大牛们的10条建议
  • 专题:Stata命令
    • Stata:控制变量组合的筛选-tuples
    • Stata新命令-pdslasso:众多控制变量和工具变量如何挑选?
  • 专题:回归分析
    • 控制变量越多越好吗?
    • Stata:控制变量与核心解释变量地位对等吗?
    • 调节效应是否需要考虑对控制变量交乘?
    • 控制变量!控制变量!
    • 不用太关心控制变量,真的!
    • 加入控制变量后结果悲催了!
  • 专题:IV-GMM
    • Lasso一下:再多的控制变量和工具变量我也不怕-T217
  • 专题:断点回归RDD
    • RDD:断点回归可以加入控制变量吗?
    • Stata:RDD-中可以加入控制变量
  • 专题:内生性-因果推断
    • 敏感性分析B-Stata实操:控制变量内生时的系数敏感性分析-regsensitivity
    • 敏感性分析A-理论基础:控制变量内生时的系数敏感性分析-regsensitivity
  • 专题:其它
    • 锚定情境法(一):有效控制变量自评偏差

课程推荐:因果推断实用计量方法
主讲老师:丘嘉平教授
🍓 课程主页https://gitee.com/lianxh/YGqjp

New! Stata 搜索神器:lianxhsongbl  GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
. ssc install lianxh
. ssc install songbl
👉  使用:
. lianxh DID 倍分法
. songbl all

🍏 关于我们

  • 连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存