敏感性分析之理论基础:控制变量内生时的系数敏感性分析-regsensitivity
👇 连享会 · 推文导航 | www.lianxh.cn
🍎 Stata:Stata基础 | Stata绘图 | Stata程序 | Stata新命令 📘 论文:数据处理 | 结果输出 | 论文写作 | 数据分享 💹 计量:回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归 ⛳ 专题:SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析 🔃 因果:DID | RDD | 因果推断 | 合成控制法 | PSM-Matching 🔨 工具:工具软件 | Markdown | Python-R-Stata 🎧 课程:公开课-直播 | 计量专题 | 关于连享会
连享会 · 2022 暑期班
作者:陈卓然 (中山大学)
邮箱:chenzhr25@mail2.sysu.edu.cn
温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:
目录
1. 基准模型
2. 敏感性分析
2.1 敏感性参数
2.2 识别
2.3 敏感性参数的解释
3. 因果模型
3.1 无混淆偏差
3.2 双重差分
3.3 工具变量
4. 实证应用
4.1 数据
4.2 基准结果
4.3 评估基于可观测变量的选择
5. 参考文献
6. 相关推文
1. 基准模型
假定 和 分别是可观测的一个标量, 是可观测的 维控制向量, 是一个不可观测的控制标量。记 , 为 对 回归之后 的估计系数。为保证这些系数有定义,我们做出如下的假设:
假设 1: 的方差矩阵有限且正定。从而我们可以写出如下等式:
其中, 代表回归的残差和常数项之和,因此它与 都不相关。在这里,我们感兴趣的参数为 。
现在考虑如下 对 的回归方程,记 的系数分别为 。
其中, 的定义与 类似。注意在式 (2) 中 表示依可测变量选择, 表示依不可测变量选择。
假设 2 (不存在依不可测变量选择):。令 表示 对 的回归中 的系数,由于不存在依不可测变量选择,因此有如下定理:
定理 1:假定 的联合分布已知,如果假设 1 和假设 2 成立,则如下结论成立:
,因此 能够被点识别; 的可识别集合为 。
这一结论允许内生控制变量,亦即在保证 能够被识别的基础上,可观测的控制变量 与不可观测的控制变量 任意相关,不过遗憾的是可观测控制变量的系数 完全不能被识别。
但是这里存在一个问题,即假设 2 是很难成立的。接下来,我们会用一种新的办法来评估这一假设的重要性。
2. 敏感性分析
2.1 敏感性参数
由于无法观测到式 (1) 的 ,我们并不能估计 。不过,我们能够估计式 (2) 中的 。因此我们很关心 和 之差,也就是遗漏变量偏误:
其中, 表示将不可观测的 对可观测的 回归之后的 。从式 (3) 不难看出遗漏变量偏误是 的函数,因此 是一个很自然的敏感性参数。但是仅仅将 作为一个敏感性参数的话,研究者需要对这一系数的绝对大小做出正确判断,而这往往并不容易。
在这里,我们定义一个相对敏感性参数。令 表示 上加权的欧几里得范数,亦即 ,其中 。我们考虑如下假设:
假设 3:对于一个已知的正数:。
假设 4:。
利用假设 4,假设 3 可以写为:
由于 对于 的任意线性变换都是保持不变的,因此 对于 的任意线性变换都是保持不变,这一性质确保了 是无单位的敏感性系数。
第一节的基准模型假设 ,实际上对应的是 。我们通过假定 来放松这一假设。此外从式 (3) 中,我们不难看出这一偏误同时也是 的函数,因此采用和前文相同的思路,我们考虑 和 之间的相对大小,也就是式 (1) 中 和 的系数的相对大小。
假设 5: 对于一个已知的正数:。
同样在假设 4 成立的前提下,假设 5 和假设 3 有着相同的含义,同样由于 对于 的线性变换保持不变,因此 也是一个无单位的敏感性系数。
最后,同样注意到遗漏变量偏误式 (3) 也是 的函数,因此我们可以直接考虑对可观测变量和不可观测变量之间的关系做出限制。亦即如下的假设 6:
假设 6: 对于一个已知的正数:。
假设 6 允许我们对控制变量内生性的程度做出限制,当控制变量完全外生时,。此时 , 越大代表控制变量的内生性程度越强。同样在假设 4 成立的前提之下, 对于 的线性变换保持不变,最后注意到我们有时也将 写作 。
2.2 识别
为简化起见,我们首先将处理变量和控制变量标准化,使得 ,。在标准化之后,。同时记 对于 的回归结果为长回归,而称 对 的回归结果为中回归。
2.2.1 仅使用 上的限制进行识别
令 表示 在正定方差假设 1、正态化假设 4、假设 3 下的可识别集合。注意我们此处的集合并未考虑假设 5 和假设 6。令
代表 的下确界和上确界。下面的定理 2 给出了这两个边界的解析解。当我们进一步考虑假设 6,并使用 代表 的可识别集合,则令
代表 的下确界和上确界。下面的定理 3 给出了这两个边界的显式解。为此我们还需要定义额外的几个符号。对于任意的随机向量 和 ,令 ,
敏感性系数 会通过这一函数来影响边界,当然这一函数也依赖于 和 之间的协方差。进一步定义
此处的不等号来源于 的正定性。注意到 在中回归方程中的系数可以写作 。
假设 7: 并且 。
假设7并不是必须的,它只是为了简化证明过程。
定理 2:假设 的联合分布是已知的。同时假设 1、3、4、7 成立,并假设 、。如果 ,那么
其中
否则, 且
定理 2 刻画了当允许基于不可观测变量选择时,
由于定理 2 提供了边界的一些显式解,因此我们能够立即推导出一些有用的性质。具体来看:
当 时,这一边界收敛到 ,也就是在不存在依不可观测变量选择的基准模型的点估计,因此我们可以将基准模型看作是我们模型的一个特例。对于 ,边界就不再是一个点了,上下边界之间的范围会随着 的增大而增大,而且其增大的速率取决于如下的几个变量:
处理变量和可观测协变量之间的相关性: ;结果变量在经控制变量调整以后的方差: ;处理变量在经控制变量调整之后的方差: ;将 对一个常数和 回归之后的 。
在实际研究过程中,研究者通常会做一些截断性分析,也就是说依不可观测变量选择必须相对依可观测变量选择有多强才能够推翻基准模型。
以定理 2 为例,假设在我们的基准模型中,
这个点被称为截断点 (breakdown point)。它是在保证
引理 1:当定理 2 的假设成立的情况下,
引理 1 中的结果刻画了依不可观测变量选择相对于依可观测变量选择的得以推翻我们基准模型的最大幅度。
2.2.2 使用 和 上的限制来进行识别
在某些应用中,定理 2 给出的边界可能太宽了,因此研究者可能想要限制可观测控制变量和不可观测控制变量之间的相关关系。在假设 6 的前提之下,我们将
注意到当
定理 3:假设
其中,
否则,
与定理 2 类似,定理 3 描述的是当允许依不可观测变量选择,同时控制变量部分内生的情况下,
在定理 2 中,我们强调为了使得
特别地,假定
对于任意给定的
相反,当
2.2.3 使用 , 以及 的限制来识别
在实证研究中,有时即使我们施加了外生性控制变量的假设,结果也依然有可能并不稳健。在这种情况下面,我们可能希望施加假设 5。
令
假定我们感兴趣于某个已知的常数
然后我们可以定义稳健性区域 (robust region) (Masten 和 Pirier,2020):
在这一稳健性区域内,任意的敏感性参数组合都可以保证
尽管我们无法得到
然后定义如下函数:
从而我们可以得到如下定理:
定理 4:假设
如果 ,那么 ;如果 ,那么 ;如果 ,那么
定理 4 表明三维的截断前沿可以作为一个优化问题的解被计算出来。在这个优化问题中,我们仅需要在 4 维空间中进行寻找,这一维度并不取决于控制变量
2.3 敏感性参数的解释
2.3.1 哪些控制变量是需要被校准的?
我们使用相对敏感性系数 (比如
为了弄清楚这个问题,我们将可观测的控制变量分为两组:
非校准控制变量 (control covariates): 校准控制变量 (calibration covariates):
我们将式 (1) 重新写成如下的形式:
其中,
将控制变量分为非校准组和校准组是很有用的,因为在很多应用当中,我们不一定认为遗漏变量对于模型中所有可观测的控制变量具有相同的解释力度。因此分组之后,我们实际上只需要考虑遗漏变量对于校准控制变量的影响。
下面我们简要介绍一下如何将上一节的结论拓展到控制变量分组的情形下。我们主要用到的是 FWL 定理。关于 FWL 定理的具体内容可以参见连享会推文「图示线性回归系数:Frisch-Waugh定理与部分回归图」。
根据 FWL 定理,式 (1) 中
其中,
因此我们只需要将上一节当中的
2.3.2 什么是稳健性的结果?
我们怎样判断
尽管如此,1 并不是一个亘古不变的绝对标准。这是因为当我们考虑将控制变量分为非校准组和校准组之后,非校准组
但是这并不表明结果变得不再稳健,因为此时我们衡量稳健性的标准也已经发生了变化。也就是说当校准变量
简而言之,
而
因此相对敏感性系数并不能给我们一个统一绝对的衡量结果稳健性的标准,相反这样的系数允许我们从一个相对于可观测变量影响的视角去看待结果的稳健性。
2.3.3 评估外生性控制变量
我们上面的讨论大多集中在
一种方法就是对于
一方面如果 中的很多值都是非零的,而且很大,我们可能就会担心外生性控制变量假设不成立。这是因为如果 在某种意义上与可观测变量 相似,那么我们可能会预期到 很接近于某个 。另一方面我们可以使用这些值来对于 进行校准,比方说可以选择 中的最大值作为 。
3. 因果模型
在这一部分,我们重点讨论三种不同的因果模型:无混淆偏差模型,双重差分模型,工具变量模型。在这三种因果模型中
3.1 无混淆偏差
令
其中
这一假设表明在去除掉可观测控制变量
注意由于潜在结果遵循式 (4) 的形式,因此线性潜在无混淆偏差等价于对于任意给定的
命题 1:在线性潜在结果模型下,如果线性潜在无混淆偏差假设成立,同时假设 1 成立,则
因为
引理 2: 如果命题 1 的所有假设均成立,且假设 2 (
尽管假设 2 不太可能成立,但是由于
3.2 双重差分
令
其中,
其中
记
命题 2:对于线性潜在结果模型式 (5),如果以下外生性假设成立
则
引理 3:假设命题 2 中全部的假设成立,同时假设 2 (
其中,
3.3 工具变量
令
其中
在假说 2 成立的情况之下,也就是工具变量外生性的假设下,
不过在一个典型的工具变量分析当中,我们并不关心简约式因果效应,而是更关心处理变量对于结果的因果影响。上一节中的结论也可以允许我们评估当工具变量排他性(或者称外生性) 失效时的这种因果影响,不过这样的分析可能更为复杂,我们暂且略过。
4. 实证应用
在采用本文介绍的敏感性分析方法对 Bazzi 等 (2020) 的文章重新审视之前,我们有必要对于这篇文章的背景做一定的梳理。这篇文章是波士顿大学的 Samuel Bazzi 等人在 2020 年发表在 Econometrica 的一篇文章,研究的是在美国诞生的早期,大规模的拓荒运动对美国顽强的个人主义的影响。
1893 年美国著名的历史学家 Frederick Jackson Turner 指出美国拓荒运动塑造了美国顽强的个人主义。Bazzi 等人追踪了 1790 年到 1890 年间拓荒的边境,并构建了总的边境经历。研究发现从历史的维度上看,这些边境地区有着不同的人口特征和更强的个人主义,即便是在拓荒运动结束之后,这些有着更强边境经历 (TFE) 的地区依然呈现出更普遍的个人主义,以及对于政府干预的更大程度反感。
Bazzi 等 (2020) 通过无混淆偏差识别策略得到其主要结论的。同时,考虑到遗漏变量对系数
4.1 数据
这篇文章主要利用的是美国郡层面的数据。其处置变量
结果变量
基于问卷的结果变量:
民众对于政府接济穷人的态度:作者采用 1992 年到 1996 年的全民调查问卷 ANES(American National Election Study) 中的问题:联邦政府对于穷人的支出应该增加,减少,还是保持不变?如果个体 的回答为减少, ,否则为 0。民众对于政府福利支出的态度:作者采用 2014 到 2016 年的 CCES 的调查问卷中的问题:你希望你的立法部门增加福利支出还是减少福利支出?如果个体 的回答是大幅增加或者略微增加, ,否则为0。民众对于政府通过削减支出来减少债务的态度:作者采用 2000 年到 2014 年的 CCES 调查问卷中的问题:如果国会想要平衡预算,你希望国会采取哪种措施:1) 削减国防支出,2) 削减国民支出,3) 增加税收。如果个体 的选择是削减国民支出, ,否则 。
基于个体行为而非调查问卷的结果变量:
是郡 平均有效财政税率,其数据来源是从 2010 年到 2014 年的 NAHB (National Association of Home Builders) 数据库。 是在郡 中从 2000 年到 2016 年五次总统选举中共和党的平均投票比例。
下面是一些控制变量,我们将其分为两组:校准控制变量
校准控制变量 :郡中心点的纬度,郡中心点的经度,土地面积,平均降雨量,平均温度,海拔,平均潜在农业产出以及郡中心点到河、湖、海的距离。非校准控制变量 :州层面的固定效应,年龄,年龄的平方,性别,种族以及问卷固定效应。
4.2 基准结果
考虑到数据的可获得性,我们这里主要集中于由公开数据产生的结果,如下表所示:
可以看出,那些暴露在边境时间较长的郡个体会更倾向于削减对穷人的救济,削减福利支出,削减国民支出来减少债务,而且这些郡有着更少的财产税率并更可能支持共和党,这些系数都极其显著。从而作者得出结论:边境文化造就了这些居民对于政府干预和再分配的反对。
4.3 评估基于可观测变量的选择
上表的基准结果依赖于依可观测变量选择的假设,亦即在控制了可观测的控制变量
排除现代人口密度的混淆效应; 增加控制变量排除以往研究中强调的文化变异性; 指出不可观测变量不太可能影响结果; 使用工具变量 (美国人口的迁移) 来提取 TFE 中的外生部分。
前两种方法不外乎增加更多的控制变量,我们主要讨论其第三章策略:使用计量方法来评估遗漏变量的重要性。
4.3.1 假设外生控制变量的敏感性分析
假设控制变量外生的敏感性分析是由 Oster (2019) 提出的。Oster 的分析使用了两种敏感性参数:
,即长回归 对 回归的
对于任意给定的
上表 Panel B 第二行呈现了正确的 Oster
但是注意到 Panel B 的第一行报告的 Oster
等于 0,然后求解出
但是尽管如此,Bazzi 等 (2020) 指出:Oster 2019 发现当
当然对于正确计算得到的
4.3.2 外生控制变量的评估
在 Bazzi 等 (2020) 中,控制变量究竟是不是外生的呢?这取决于遗漏的变量
当代人口密度 与土著居民的矛盾 制造业的就业占比 矿物资源 移民比例 通铁路的时间 坚韧性 (ruggedness) 性别比例 降雨的风险 陆地运输的地点 (Portage Sites) 奴隶制的盛行 苏格兰-爱尔兰人的定居地 出生地的多样性
我们不妨假设遗漏的变量
但是由于
很不幸,上表的回归结果显示
4.3.3 允许内生控制变量的敏感性分析
首先考虑最简单的定理 2:仅使用单一的
正如前文所提到的,由于将控制变量分为校准控制变量和非校准控制变量,1 并不是绝对的衡量标准,特别是将更多的与处置变量相关的控制变量放入
从表 1 的第 (4) 列和第 (5) 列中可以看出,对于两个不基于问卷的结果变量,其截断点的估计值为 72% 和 80.4%。以共和党平均投票比例为例,可以得出如下的结论:只要以不可观测变量选择的程度占以可观测变量选择幅度不超过 80.4%,我们就无法拒绝
相比之下,第 (1)-(3) 列的截断点估计值都非常小:3% 和 6%。也就是说对于这些结果,我们为了推翻
与基于 Oster 2019 得出的结论不同,我们发现使用基于问卷的结果变量对于依不可观测变量选择是高度敏感的,而不基于问卷的两个结果变量对于依不可观测变量选择都是非常稳健的。
下面考虑不可观测变量对于结果变量的影响
左上角的图显示了在允许内生变量任意内生性而且对结果方程不做任何限制的条件下,
如果要在某种程度上控制内生性的程度,我们便可以允许更多依不可测变量进行选择。右上角的图展示了
左下角的图展示了依不可观测变量选择的截断点受到控制变量外生性的影响,即
右下角的图考虑的实际上是一个三维的截断前沿
此时结果显示遗漏变量对于处理变量和结果变量的影响相对于可观测控制变量而言至多可以达到 110% 而不影响
因此平均的共和党的投票比例对于依可测变量选择假设是非常稳健的,下面我们考虑另外一个结果变量:削减对穷人的救济。
左图的含义和共和党平均投票比例的结果类似,此处就不再过多赘述了。可以看出,当
右图绘制了三维截断前沿,可以看出当对不可观测变量对结果变量的影响施加更大约束时,我们就可以允许更多的依可测变量选择。例如,考虑任意内生的控制变量 (
总而言之,我们发现削减对穷人救济的结果变量相较于前面的共和党平均投票比例的结果变量而言是非常敏感的。在削减对穷人救济的结果变量的回归中,控制变量内生性的程度 (
4.3.4 校准控制变量的选择
在上述分析中,我们并没有将州层面的固定效应当作校准控制变量。下面我们将其放入校准控制变量当中来考察他们的影响。
这张图对应于图 1 中右上角和右下角的两张图,但是这里我们将州层面固定效应也加入校准控制变量当中。可以发现对于任意给定的
通过将州层面的固定效应加入到校准控制变量中,其对于处置变量的影响程度增强了,而此时由于我们并没有改变
所以我们在图 3 中估计出来的 30% 截断点并不能说明结果是不够稳健的,特别是如果考虑到此时的校准控制变量包含了全部的州层面的固定效应,这些校准变量影响的 30% 还是非常之大的。通常来讲,如果实际的遗漏变量的影响不会达到这么大时,我们的结果还是非常稳健的。
图 3 的右图绘制了估计出的三维截断前沿。相比于图 1 的右下角的那张图,这张图的截断前沿全部向内收缩了。表面上看,这似乎说明结果不再稳健了,但正如我们刚刚所提到的,由于将州固定效应包含进校准变量
4.3.5 实证结论
总而言之,对于 Bazzi 等 (2020) 这篇文章,当我们允许控制变量内生时,发现他们通过基于问卷的结果变量得出的结论对于遗漏变量的存在是非常敏感的,但是他们通过不基于问卷的结果变量如财产税和投票比例得到的结论仍然稳健。因此 Bazzi 等人得到的支持边境学说 (Frontier Thesis) 的结论可能并没有想象中那么可靠。或者说边境生活的影响可能更主要通过选举等渠道来体现出来,而不是从个人的偏好来体现。
5. 参考文献
Masten M A, Poirier A. Inference on breakdown frontiers[J]. Quantitative Economics, 2020, 11(1): 41-111. -PDF- Bazzi S, Fiszbein M, Gebresilasse M. Frontier culture: The roots and persistence of “rugged individualism” in the United States[J]. Econometrica, 2020, 88(6): 2329-2368. -PDF- -Replication- Oster E. Unobservable selection and coefficient stability: Theory and evidence[J]. Journal of Business & Economic Statistics, 2019, 37(2): 187-204. -PDF- Altonji J G, Elder T E, Taber C R. Selection on observed and unobserved variables: Assessing the effectiveness of Catholic schools[J]. Journal of political economy, 2005, 113(1): 151-184. -PDF- Altonji J G, Elder T E, Taber C R. Using selection on observed variables to assess bias from unobservables when evaluating swan-ganz catheterization[J]. American Economic Review, 2008, 98(2): 345-50. -PDF- Chalak K. Identification of average effects under magnitude and sign restrictions on confounding[J]. Quantitative Economics, 2019, 10(4): 1619-1657. -PDF- Masten M A, Poirier A, Zhang L. Assessing sensitivity to unconfoundedness: Estimation and inference[J]. arXiv preprint arXiv:2012.15716, 2020. -PDF-
6. 相关推文
Note:产生如下推文列表的 Stata 命令为:
lianxh 敏感 稳定, m
安装最新版lianxh
命令:
ssc install lianxh, replace
专题:Stata命令 Stata:系数稳定性分析-psacalc 专题:回归分析 Stata:敏感性分析-rcr 遗漏变量?敏感性分析!新命令sensemakr-T310 专题:内生性-因果推断 因果推断:未测量混杂因素的敏感性分析-T249
课程推荐:因果推断实用计量方法
主讲老师:丘嘉平教授
🍓 课程主页:https://gitee.com/lianxh/YGqjp
New! Stata 搜索神器:
lianxh
和songbl
GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
. ssc install lianxh
. ssc install songbl
👉 使用:
. lianxh DID 倍分法
. songbl all
🍏 关于我们
连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。