查看原文
其他

因果推断:混杂因素敏感性分析理论(上)

连享会 连享会 2023-10-24

👇 连享会 · 推文导航 | www.lianxh.cn

连享会 · 因果推断实用计量方法

作者:陈卓然(中山大学)
邮箱:chenzhr25@mail2.sysu.edu.cn

编者按:本文主要参考自下文,特此致谢!
Source:Masten M A, Poirier A, Zhang L. Assessing sensitivity to unconfoundedness: Estimation and inference[J]. arXiv preprint arXiv: 2012.15716, 2020. -PDF-

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:


目录

  • 1. 引言

  • 2. 处理效应的总体边界

    • 2.1 模型和基准点估计结果

    • 2.2 放松无混淆因素假设的敏感性分析

    • 2.3 处理效应边界

    • 2.4 截断点

    • 2.5 条件 c 依赖性

  • 3. 估计

    • 3.1 第一阶段分位数回归和倾向得分估计

    • 3.2 边界函数的第二步估计

  • 4. 实证应用

    • 4.1 放松无混淆性假设

    • 4.2 非负 ATE 的截断点分析

  • 5. 总结

  • 6. 相关推文



1. 引言

本文提出一系列用来量化处理效应稳健性的方法,这一处理效应是通过使用无混淆假定 (或称依可测变量选择或条件独立假设) 来估计的。特别地,我们通过调整一个敏感性参数 来逐渐放松无混淆假定,并估计不同处理效应的参数,如 ATE、ATT等。当 足够大时,这些边界就等于无假设下的边界。进一步,本文通过 NSW 项目的研究来展现方法的具体应用。

2. 处理效应的总体边界

2.1 模型和基准点估计结果

考虑标准的潜在结果框架,其中 是一个可观测的二元处理变量, 代表不可观测的潜在结果。

代表一个可观测协变量的向量,可以是离散的、连续的或者是二者的混合。令 的支撑,定义 ,代表可观测的广义倾向得分。

当满足如下的两个假设时,潜在结果的条件分布是能够被点识别的。

  1. 无混淆性:
  2. 重叠性:对于所有的

因此 分布的任何函数都是能够被点识别,我们不妨聚焦于两个典型的例子:平均处理效应 和处理组的平均处理效应 ,同时也考虑条件分位数处理效应 和条件平均处理效应

2.2 放松无混淆因素假设的敏感性分析

相比于无混淆性假设而言,重叠性假设很容易从数据中得到验证。但是无混淆性假设却很难被证明或者被证伪,因此常常采用敏感性分析的方法来研究。具体而言,我们将无混淆性假设用一个更弱的假设来替代,然后探究这样是否会影响我们对感兴趣参数的判断。我们不妨将这种更弱的假设称为条件 依赖性

定义 1:令 是一个介于 0 和 1 之间的常数。如果下式对于所有 成立,我们称 在给定 时,条件 依赖于

时,条件 依赖假设等价于无混淆因素假设 。当 时,条件 依赖通过允许不可观测的条件概率 ,与可观测的倾向得分之间相差至多为 ,从而我们可以允许一定程度上的依不可观测变量选择,也就是说在给定可观测变量 之后,处理变量和结果变量之间并不一定独立。

充分大超过一个阈值 时,条件 依赖假设就不会施加任何约束了,而这一阈值等于

这一阈值的推导也很容易,因为

时,条件   依赖性假设施加了一定程度的约束,但是它并没有要求条件独立性一定要满足,因此这是一种条件部分独立假设。我们将无混淆因素假设替换为:

  • 条件部分独立假设: 在给定 后,条件 依赖于

2.3 处理效应边界

当我们将条件独立假设放松以后,ATE 和 ATT 不能再被点识别,只能进行部分识别,即可以确定上界和下界。随着 逐渐逼 近0,这些边界就会收敛到一个点,因此对于很小的 来说,上下边界的范围是非常窄的。敏感性分析的目标就是去探寻这些边界的形状和宽度如何随着 从 0 到 1 变化。

对于连续的 来说,所有我们感兴趣的参数都可以被写为分位数回归 的边界函数。在上述条件部分独立假设和其他一些正则化假设下,Masten 和 Poirier (2018) 给出边界的显式表达式:

其中,

其中,

从而我们可以求得条件分位数处理效应 的上界和下界:

将这一边界在 上积分可得 的上下界:

进一步在 的边际分布上积分可得 ATE 的上下界:

从而为了得到 ATT 的上下界,不妨令

代表了的边界,从而我们可以得到 的边界:

于是我们得到了 ATT 的边界:

其中,,并且上述所有的边界都可以取到 (边界是 sharp 的)。

2.4 截断点

在基准模型 () 的条件下发现 ,那么我们可以在多大程度上放松无混淆因素假设,同时保证 ?为此我们需要定义 ATE 非负的截断点:

而这一数值实际上就刻画了 ATE 为正这一结论的稳健性。

2.5 条件 c 依赖性

在实际研究中如何去理解条件 依赖性假设呢?或者说在实际研究中什么样的 是大的,什么样的 是小的?不妨令 代表 的一个成分,定义倾向得分

表示去 倾向得分:仅条件于 ,总体中被处理的个体所占的比例。进一步考虑如下的随机变量

这一个差分刻画了在给定 的条件下,通过加入 对于可观测的倾向得分的影响。回忆一下条件 依赖性的定义,不难发现其中的相似之处:我们在给定 的前提下,通过加入不可观测的 造成倾向得分的变化。因此我们可以使用 的分布对 进行校准,也就是说可以去计算 的 50 分位点、75 分位点、90 分位点以及其上界

然后将这些点作为截断点 的参考值,如果 小于选定的参考值,这意味着我们感兴趣的结论是敏感的。如果 大于选定的参考值,这意味着我们感兴趣的结论是稳健的。当然你也可以看一下 位于 分布的什么位置,也就是通过计算 来评估相对的敏感性。

那么如何选定协变量 呢?一般来说,我们应该选择那些对于基准回归结果影响充分大的控制变量。那么又怎样知道控制变量的影响是否充分大呢?

比如说我们想要估计 ,不妨令 代表在仅使用 的条件下通过依可观测变量选择模型估计出来的 ,而令 代表在使用全部控制变量的条件下通过依可观测变量选择模型估计出来的 ,则 就表示了遗漏掉控制变量 对于 点估计量的影响。

3. 估计

前一节中假设总体分布是已知的,但是我们实际研究中只能观测到总体的一个有限样本 ,那么如何使用有限的样本数据对于上一节中提到的总体边界进行估计呢?注意到在上一节中所有边界的推导背后都依赖于式 (3) 和式 (4),而这两个 的上下界又依赖于如下两个变量:

  1. 条件分位数函数
  2. 倾向得分

我们可以采用参数、非参数、半参数等方法进行估计。我们这里主要考虑参数估计。

3.1 第一阶段分位数回归和倾向得分估计

我们通过将 的函数 (譬如 ) 做线性分位数回归来估计 。对于 ,令

在分位点 线性分位数回归估计系数。其中, 是检查函数 (check function)。于是我们关心的估计量可以写为

通过最大似然法来估计倾向得分,特别地,我们设定参数模型为

是一个已知的 cdf, 是一个已知的向量函数, 是一个未知的常数向量。 可以是一个很灵活的函数,但是为了简化,我们暂且假定 。给定这一假定之后, 的维度是 ,同时假定 的定义域为 。不妨令 代表 的最大似然函数:

其中对于每一个

为倾向得分估计量。

3.2 边界函数的第二步估计

根据第一步中估计的结果,我们可以得到 CQTE 边界函数的估计量:

其中,

其中,

为解决边界极端分位数的估计问题,我们将 限定在 当中。其中, 是一个固定且已知的常数,通常的取值为 0.05 或 0.01。由此可以得到修正后的分位数边界:

从而可以得到 CQTE 的边界:

CATE 的边界:

以及 ATE 的边界:

为得到 ATT 边界的估计,令

对于 ,令

以及

然后我们用上面的样本估计量替换掉式 (5) 之后即可得到 ATT 边界的估计量。

4. 实证应用

我们的数据来源于 LaLonde (1986) 对国民支持工作 (National Supported Work,NSW) 的研究。NSW 项目将参与者随机分配到要么接受一份 9-18 个月的有保障的工作,同时在这个期间会有较为频繁的辅导培训,要么就被丢到劳动力市场中。

我们使用 NSW 数据中全部的男性,他们的工资收入在 1974 年、1975 年、1978 年被观察到,这份数据集中有 445 个人,其中 185 个人处于处理组,260 个人处于控制组。

除了这份实验样本之外,我们根据可观测数据构建了一个样本,这个样本中包含 NSW 中的 185 个人作为处理组,以及 PSID (Panel Study of Income Dynamics) 中 2490 个人作为控制组,这一控制组中包括全部 1975 年到 1978 年间小于 55 岁且尚未退休的男性。我们进一步去除 1974 年和 1975 年间工资高于 5000 美元的观测值,最终留下 148 个处理个体和 242 个未处理个体。

我们感兴趣的结果变量是 1978 年的工资,解释变量有 8 个:1974 年的工资,1975 年的工资,教育年限,年龄,种族,婚姻状态,是否有一个很高的学历,处理变量。工资的变量以 1982 年美元为单位。下表给出了这些变量的描述性统计:

表 2 展现了在无混杂因素假设下 ATE 和 ATT 的基准点估计,这些估计是通过逆改率加权的参数 Logit 倾向得分估计来计算。

4.1 放松无混淆性假设

下图展现了我们主要的结果:

这些是在条件 依赖性假设下处理效应的边界以及相应的置信区间,其中实线是可观测数据集的边界,虚线是实验数据集的边界,浅色的点线是可观测数据的置信区间,浅色的点虚线是实验数据的置信区间。

对于每一个数据集,当 时,这些边界收敛到一个点。当 时,我们允许部分程度上的依不可观测变量选择。在比较两个数据集的边界的形状之后,不难发现实验数据要比观测数据要更加稳健,这是因为几乎对于所有的 值,实验数据的边界都显著要比观测数据的边界更窄 (tighter)。

第二种衡量稳健性的方法是截断点分析,也就是说在保证原结论不变的前提下,我们能够放松的 的最大值,我们下面考虑 ATE 和 ATT 非负这一结论的敏感性.

4.2 非负 ATE 的截断点分析

在我们的实验数据中,被估计的截断点的值为 0.082。对于所有的 ,ATE 的可识别集合都是为非负的。对于所有的 ,ATE 的可识别集合中既有正数也有负数。此时我们不能说平均处理效应为正。

对于可观测数据而言,ATE 非负的截断点是 0.037,远远小于实验数据中的截断点的值,因此实验数据的 ATE 非负的结论要远远比可观测数据中 ATE 非负的结论稳健。同样的结论在 ATT 中也是一样的,对于实验数据而言,ATT 的非负的截断点是 0.123,而对于可观测数据集,ATT 非负的截断点是 0.049,因此 ATT 非负的结论在实验组数据中依然比可观测数据中更加稳健。

我们已经比较了基于实验数据和基于可观测数据得到的结论的稳健性。下面考虑这两个结果在极端情形下是否稳健,为此我们使用去变量 的倾向得分分析方法。

对于表 3 中每一行的变量 ,我们计算如下分布的四个描述性统计量:

我们挑选了 的 50th、75th、90th 分位点以及最大可观测值 ,这些分位点告诉我们控制变量 对于处理变量的边际影响。而 依赖性约束实际上是限制了不可观测的潜在结果对于处理变量边际影响的最大值 (包括上界和下界)。因此表 3 中的值能够帮助我们校准

具体而言,我们可以将截断点与这张表中的值进行比较,这些值可以当作依不可观测变量选择幅度的上界。因此对于这张表中一个给定的参考值,如果截断点比这个参考值要大,我们就可以认为我们的结论对于无混淆性因素假设的失效是稳健的。如果截断点小于参考值,我们就可以认为结论对于无混淆性因素假设是敏感的。

实验数据中的 ATE 的截断点是 0.082,这一数值要比上表 一列中的三个值要大,和其中的三个值相等。如果看一个不太严格的比较:90th 分位点。我们发现 0.082 要比除 Hispanic 这一行之外所有值都大。但是如果我们将 时的密度函数绘制出来以后,可以发现只有极少数个体值大于 0.082,绝大多数个体值都远小于这个截断点。

进一步放松标准:仅考虑 75th 分位数,我们发现截断点远高于 75 百分位数这一列的全部值。

去变量 法倾向得分仅考虑了可观测变量和处理变量之间的关系,它并没有用到结果变量的数据。一个更为保守的分析是考虑那些在表 3 中有较大值的变量 同时也会对我们的结论变量产生较大的影响。具体而言,我们考虑在基准无混淆因素假设下去变量 逆概率加权估计方法。

上表呈现了在两个数据集中去除一个变量对于 ATE 点估计的影响。我们发现对于实验数据来说,省略任意一个控制变量之后对于点估计的影响至多 5.4%。总而言之,去变量 法结果表明在一个绝对水平上,ATE 是非负的结论对于实验数据是非常稳健的,相似的结论对于 ATT 也是仍旧成立的。

下面我们采用同样的方法对可观测数据集进行分析。下表呈现了去变量 倾向得分分析结果。

对于可观测数据而言,ATE 非负的截断点是 0.037,从 的这一列可知,ATE 非负的结论是不稳健的。假设我们仅考虑那些显著改变点估计的变量 (表4),比如说种族 Black 能够改变 ATE 点估计量大约 14%,其对于倾向得分的边际影响即便是在 50th 分位数也要比我们估计出来的 ATE 截断点大1.5倍。因此可以认为在可观测数据中 ATE 为正的结论是不稳健的。

但是迄今为止,我们所有的讨论均集中于截断点的点估计。当考虑抽样不确定性时,我们可以发现实验数据的 ATE 点估计 0.082 的置信区间是 [0.0156, 1],远远宽于可观测数据的 ATE 点估计 0.037 的置信区间 [0.009, 1],这也验证了我们前文对于二者稳健性的结论。

5. 总结

建立在无混淆因素假设下处理效应的识别,估计和推断一直被广泛地研究和应用。这一方法依赖于无混淆性因素假设和重叠性假设。其中,重叠性假设是很容易得到验证的,例如可以使用 Stata 中的 teffects 来检验重叠性。而无混淆性因素假设,相对而言是较难验证和检验的。这篇推文中提出一套评估无混淆性因素的分析工具,相比于前期的文献而言,该方法不需要依赖太多的参数假设。

6. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 敏感性, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

  • 专题:Stata命令
    • 敏感性分析B-Stata实操:控制变量内生时的系数敏感性分析-regsensitivity
    • 敏感性分析A-理论基础:控制变量内生时的系数敏感性分析-regsensitivity
  • 专题:回归分析
    • Stata:敏感性分析-rcr
    • 遗漏变量?敏感性分析!新命令sensemakr-T310
  • 专题:内生性-因果推断
    • 因果推断:未测量混杂因素的敏感性分析-T249

课程推荐:因果推断实用计量方法
主讲老师:邱嘉平教授
🍓 课程主页https://gitee.com/lianxh/YGqjp

New! Stata 搜索神器:lianxhsongbl  GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
. ssc install lianxh
. ssc install songbl
👉  使用:
. lianxh DID 倍分法
. songbl all

🍏 关于我们

  • 连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存