因果推断:混杂因素敏感性分析理论(上)
👇 连享会 · 推文导航 | www.lianxh.cn
🍎 Stata:Stata基础 | Stata绘图 | Stata程序 | Stata新命令 📘 论文:数据处理 | 结果输出 | 论文写作 | 数据分享 💹 计量:回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归 ⛳ 专题:SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析 🔃 因果:DID | RDD | 因果推断 | 合成控制法 | PSM-Matching 🔨 工具:工具软件 | Markdown | Python-R-Stata 🎧 课程:公开课-直播 | 计量专题 | 关于连享会
连享会 · 因果推断实用计量方法
作者:陈卓然(中山大学)
邮箱:chenzhr25@mail2.sysu.edu.cn
编者按:本文主要参考自下文,特此致谢!
Source:Masten M A, Poirier A, Zhang L. Assessing sensitivity to unconfoundedness: Estimation and inference[J]. arXiv preprint arXiv: 2012.15716, 2020. -PDF-
温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:
目录
1. 引言
2. 处理效应的总体边界
2.1 模型和基准点估计结果
2.2 放松无混淆因素假设的敏感性分析
2.3 处理效应边界
2.4 截断点
2.5 条件 c 依赖性
3. 估计
3.1 第一阶段分位数回归和倾向得分估计
3.2 边界函数的第二步估计
4. 实证应用
4.1 放松无混淆性假设
4.2 非负 ATE 的截断点分析
5. 总结
6. 相关推文
1. 引言
本文提出一系列用来量化处理效应稳健性的方法,这一处理效应是通过使用无混淆假定 (或称依可测变量选择或条件独立假设) 来估计的。特别地,我们通过调整一个敏感性参数 来逐渐放松无混淆假定,并估计不同处理效应的参数,如 ATE、ATT等。当 足够大时,这些边界就等于无假设下的边界。进一步,本文通过 NSW 项目的研究来展现方法的具体应用。
2. 处理效应的总体边界
2.1 模型和基准点估计结果
考虑标准的潜在结果框架,其中 是一个可观测的二元处理变量, 和 代表不可观测的潜在结果。
令 代表一个可观测协变量的向量,可以是离散的、连续的或者是二者的混合。令 是 的支撑,定义 ,代表可观测的广义倾向得分。
当满足如下的两个假设时,潜在结果的条件分布是能够被点识别的。
无混淆性: 和 ; 重叠性:对于所有的 ,。
因此 和 分布的任何函数都是能够被点识别,我们不妨聚焦于两个典型的例子:平均处理效应 和处理组的平均处理效应 ,同时也考虑条件分位数处理效应 和条件平均处理效应 。
2.2 放松无混淆因素假设的敏感性分析
相比于无混淆性假设而言,重叠性假设很容易从数据中得到验证。但是无混淆性假设却很难被证明或者被证伪,因此常常采用敏感性分析的方法来研究。具体而言,我们将无混淆性假设用一个更弱的假设来替代,然后探究这样是否会影响我们对感兴趣参数的判断。我们不妨将这种更弱的假设称为条件 依赖性:
定义 1:令 ,, 是一个介于 0 和 1 之间的常数。如果下式对于所有 成立,我们称 在给定 时,条件 依赖于 。
当 时,条件 依赖假设等价于无混淆因素假设 。当 时,条件 依赖通过允许不可观测的条件概率 ,与可观测的倾向得分之间相差至多为 ,从而我们可以允许一定程度上的依不可观测变量选择,也就是说在给定可观测变量 之后,处理变量和结果变量之间并不一定独立。
当 充分大超过一个阈值 时,条件 依赖假设就不会施加任何约束了,而这一阈值等于
这一阈值的推导也很容易,因为
当 时,条件 依赖性假设施加了一定程度的约束,但是它并没有要求条件独立性一定要满足,因此这是一种条件部分独立假设。我们将无混淆因素假设替换为:
条件部分独立假设: 在给定 后,条件 依赖于 和 。
2.3 处理效应边界
当我们将条件独立假设放松以后,ATE 和 ATT 不能再被点识别,只能进行部分识别,即可以确定上界和下界。随着 逐渐逼 近0,这些边界就会收敛到一个点,因此对于很小的 来说,上下边界的范围是非常窄的。敏感性分析的目标就是去探寻这些边界的形状和宽度如何随着 从 0 到 1 变化。
对于连续的 来说,所有我们感兴趣的参数都可以被写为分位数回归 的边界函数。在上述条件部分独立假设和其他一些正则化假设下,Masten 和 Poirier (2018) 给出边界的显式表达式:。
其中,。
其中,。
从而我们可以求得条件分位数处理效应 的上界和下界:
将这一边界在 上积分可得 的上下界:
进一步在 的边际分布上积分可得 ATE 的上下界:
从而为了得到 ATT 的上下界,不妨令
和
于是我们得到了 ATT 的边界:
其中,
2.4 截断点
在基准模型 (
而这一数值实际上就刻画了 ATE 为正这一结论的稳健性。
2.5 条件 c 依赖性
在实际研究中如何去理解条件
令
表示去
这一个差分刻画了在给定
然后将这些点作为截断点
那么如何选定协变量
比如说我们想要估计
3. 估计
前一节中假设总体分布是已知的,但是我们实际研究中只能观测到总体的一个有限样本
条件分位数函数 倾向得分
我们可以采用参数、非参数、半参数等方法进行估计。我们这里主要考虑参数估计。
3.1 第一阶段分位数回归和倾向得分估计
我们通过将
是
通过最大似然法来估计倾向得分,特别地,我们设定参数模型为
其中对于每一个
则
3.2 边界函数的第二步估计
根据第一步中估计的结果,我们可以得到 CQTE 边界函数的估计量:
其中,。
其中,。
为解决边界极端分位数的估计问题,我们将
从而可以得到 CQTE 的边界:
CATE 的边界:
以及 ATE 的边界:
为得到 ATT 边界的估计,令
对于
以及
然后我们用上面的样本估计量替换掉式 (5) 之后即可得到 ATT 边界的估计量。
4. 实证应用
我们的数据来源于 LaLonde (1986) 对国民支持工作 (National Supported Work,NSW) 的研究。NSW 项目将参与者随机分配到要么接受一份 9-18 个月的有保障的工作,同时在这个期间会有较为频繁的辅导培训,要么就被丢到劳动力市场中。
我们使用 NSW 数据中全部的男性,他们的工资收入在 1974 年、1975 年、1978 年被观察到,这份数据集中有 445 个人,其中 185 个人处于处理组,260 个人处于控制组。
除了这份实验样本之外,我们根据可观测数据构建了一个样本,这个样本中包含 NSW 中的 185 个人作为处理组,以及 PSID (Panel Study of Income Dynamics) 中 2490 个人作为控制组,这一控制组中包括全部 1975 年到 1978 年间小于 55 岁且尚未退休的男性。我们进一步去除 1974 年和 1975 年间工资高于 5000 美元的观测值,最终留下 148 个处理个体和 242 个未处理个体。
我们感兴趣的结果变量是 1978 年的工资,解释变量有 8 个:1974 年的工资,1975 年的工资,教育年限,年龄,种族,婚姻状态,是否有一个很高的学历,处理变量。工资的变量以 1982 年美元为单位。下表给出了这些变量的描述性统计:
表 2 展现了在无混杂因素假设下 ATE 和 ATT 的基准点估计,这些估计是通过逆改率加权的参数 Logit 倾向得分估计来计算。
4.1 放松无混淆性假设
下图展现了我们主要的结果:
这些是在条件
对于每一个数据集,当
第二种衡量稳健性的方法是截断点分析,也就是说在保证原结论不变的前提下,我们能够放松的
4.2 非负 ATE 的截断点分析
在我们的实验数据中,被估计的截断点的值为 0.082。对于所有的
对于可观测数据而言,ATE 非负的截断点是 0.037,远远小于实验数据中的截断点的值,因此实验数据的 ATE 非负的结论要远远比可观测数据中 ATE 非负的结论稳健。同样的结论在 ATT 中也是一样的,对于实验数据而言,ATT 的非负的截断点是 0.123,而对于可观测数据集,ATT 非负的截断点是 0.049,因此 ATT 非负的结论在实验组数据中依然比可观测数据中更加稳健。
我们已经比较了基于实验数据和基于可观测数据得到的结论的稳健性。下面考虑这两个结果在极端情形下是否稳健,为此我们使用去变量
对于表 3 中每一行的变量
我们挑选了
具体而言,我们可以将截断点与这张表中的值进行比较,这些值可以当作依不可观测变量选择幅度的上界。因此对于这张表中一个给定的参考值,如果截断点比这个参考值要大,我们就可以认为我们的结论对于无混淆性因素假设的失效是稳健的。如果截断点小于参考值,我们就可以认为结论对于无混淆性因素假设是敏感的。
实验数据中的 ATE 的截断点是 0.082,这一数值要比上表
进一步放松标准:仅考虑 75th 分位数,我们发现截断点远高于 75 百分位数这一列的全部值。
去变量
上表呈现了在两个数据集中去除一个变量对于 ATE 点估计的影响。我们发现对于实验数据来说,省略任意一个控制变量之后对于点估计的影响至多 5.4%。总而言之,去变量
下面我们采用同样的方法对可观测数据集进行分析。下表呈现了去变量
对于可观测数据而言,ATE 非负的截断点是 0.037,从
但是迄今为止,我们所有的讨论均集中于截断点的点估计。当考虑抽样不确定性时,我们可以发现实验数据的 ATE 点估计 0.082 的置信区间是 [0.0156, 1],远远宽于可观测数据的 ATE 点估计 0.037 的置信区间 [0.009, 1],这也验证了我们前文对于二者稳健性的结论。
5. 总结
建立在无混淆因素假设下处理效应的识别,估计和推断一直被广泛地研究和应用。这一方法依赖于无混淆性因素假设和重叠性假设。其中,重叠性假设是很容易得到验证的,例如可以使用 Stata 中的 teffects
来检验重叠性。而无混淆性因素假设,相对而言是较难验证和检验的。这篇推文中提出一套评估无混淆性因素的分析工具,相比于前期的文献而言,该方法不需要依赖太多的参数假设。
6. 相关推文
Note:产生如下推文列表的 Stata 命令为:
lianxh 敏感性, m
安装最新版lianxh
命令:
ssc install lianxh, replace
专题:Stata命令 敏感性分析B-Stata实操:控制变量内生时的系数敏感性分析-regsensitivity 敏感性分析A-理论基础:控制变量内生时的系数敏感性分析-regsensitivity 专题:回归分析 Stata:敏感性分析-rcr 遗漏变量?敏感性分析!新命令sensemakr-T310 专题:内生性-因果推断 因果推断:未测量混杂因素的敏感性分析-T249
课程推荐:因果推断实用计量方法
主讲老师:邱嘉平教授
🍓 课程主页:https://gitee.com/lianxh/YGqjp
New! Stata 搜索神器:
lianxh
和songbl
GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
. ssc install lianxh
. ssc install songbl
👉 使用:
. lianxh DID 倍分法
. songbl all
🍏 关于我们
连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。