查看原文
其他

基本无害 | 使回归有意义——异质性和非线性(1)

基本无害的 数据Seminar 2022-12-31

基本无害的计量经济学

——实证研究者指南

(重译本)

李井奎 译


第三章 使回归有意义第三节 异质性和非线性


正文共6424个字,预计阅读时间17分钟。感谢阅读!

原文:3.3.1

温馨提示:左右滑动可查看完整公式!


3.3  异质性和非线性

正如我们在前一节中所看到的,线性因果模型与CIA结合会带来具有因果解释的线性CEF。假设CEF是线性的,那么总体回归函数就是这个CEF。然而在实践中,线性CEF的假设并不是回归的因果解释所必需的。如第3.1.2节所讨论的那样,原因之一,是我们可以认为 的回归提供了对基础CEF的最佳线性近似,而不论这个基础CEF的具体形状如何。因此,如果CEF是具有因果解释的,回归近似它的事实就给回归系数赋予了一个因果性意义。然而,这种说法有点模糊,回归和CEF之间的联系,在性质上值得进一步探讨。这种探索使我们认识到,回归是一种计算上富有吸引力的匹配估计量。

3.3.1  回归与匹配

在过去的一二十年里,人们把匹配视作一种经验实证工具的兴趣日增。匹配作为控制协变量的策略通常是由CIA激发的,正如前一节中的因果回归。例如,Angrist(1998)利用匹配来估计志愿服兵役对军人日后收入的影响。这些匹配估计值要有一个因果解释的话,需要假设:基于军队用来选择士兵的个体特征(年龄、学历、考试分数),退伍军人的身份独立于潜在收入。匹配估计量非常简单:实际上,匹配相当于协变量特定的处理组-对照组比较,全部加权之后可以产生一个总体平均处理效应。
匹配策略的一个吸引人的特点是,它们通常伴随着一个明确的条件独立假设的表述,并需要给出匹配估计值的因果解释。同时,我们已经看到,回归系数的因果解释是基于完全相同的假设。换句话说,匹配和回归都是控制策略。由于两种策略的因果推理的核心假设相同,所以匹配是否或在多大程度上真正不同于回归是值得一问的。我们的观点是,回归可以作为一种特殊的加权匹配估计量,因此回归和匹配估计值之间的差异不太可能具有较大的经验重要性。
为了充实这一想法,更深入地研究匹配和回归被估量estimands)(即这些方法试图估计的总体量)的数学结构,会有所帮助。对于回归来说,被估量当然就是总体回归系数的向量。而匹配被估量通常是由协变量定义的分组间对比或比较的加权平均值。这在离散协变量的情况下是最容易看出的,比如在参军经历的例子中,我们用虚拟变量来表示退伍军人身份这个离散回归变量。由于处理变量只呈现出两个值,所以我们可以使用 和和表示潜在结果。在这种情况下,我们主要感兴趣的参数是处理组的平均处理效应表示潜在结果。在这种情况下,我们主要感兴趣的参数是处理组的平均处理效应。这告诉了我们退伍军人的平均收入。这告诉了我们退伍军人的平均收入(这是一个可观察到的量)和他们如果不服役将获得的反事实的平均收入(这是一个可观察到的量)和他们如果不服役将获得的反事实的平均收入之间的差异。根据是否为退伍军人对收入进行简单的比较,除非之间的差异。根据是否为退伍军人对收入进行简单的比较,除非独立于独立于,给出的是对处理组的处理效应的一个有偏差的指标。具体地说,

换句话说,所观察到的退伍军人身份的收入差异等于处理组的平均处理效应加上选择性偏差。这与第2章中关于选择性偏差的讨论是极为相似的。

在这种情况下,CIA是这么表示的:


给定CIA成立,选择性偏差在控制 后消失了,因此对处理组的处理效应可以通过对 的期望迭代来构建:
当然, 事反事实的。不过,根据CIA,有下面的等式成立:


因此,
其中, 是在 的每一个值上根据退伍军人身份计算的平均收入之差。当 时,我们记为
Angrist(1998)中的匹配估计量利用 离散这一事实来构造(3.3.1)右边的样本类似物。在离散情况下,匹配被估量可以写成:
其中 的概率质量函数。[1]在这种情况下, 值取决于出生年份、测验成绩组、参军年份、申请参军时的教育水平的所有可能组合。这种情况下的测验成绩来自AFQT,AFQT被军方用来对申请人的心理能力进行分类(我们在第3.2.2节中讨论的学校教育回归把它作为控制变量)。对于每一协变量组合,Angrist(1998)中的匹配估计量用退伍军人-非退伍军人样本收入差异代替 ,然后使用退伍军人间协变量的经验分布将它们组合成加权平均值。

还要注意,我们可以很容易地构建无条件平均处理效应,


这是用 的边际分布代替被处理组之间的分布得到的 的期望。δ 告诉我们服兵役对于特定的士兵来说可以获得或失去了多少收入,而 δ 告诉我们特定的申请者获得或失去了多少收入(因为Angrist(1980)的总体是由申请者构成的)。
美国军方对入伍者相当挑剔,特别是在冷战结束军队进行裁减之后。大多数情况下,军方现在只接收考试成绩在分数分布中上半段的高中毕业生。因此,在退伍军人和非退伍军人之间收入的简单比较中,军方对申请者的筛选就产生了正选择性偏差。表3.3.1报告了自1979年至1983年期间申请入伍的男子志愿服兵役(带来)对1988-91年社会保障应税收入影响的平均值差异、匹配和回归估计值。匹配估计值由样本类似项(3.3.2)构建。尽管白人退伍军人比白人非退伍军人多挣1233美元,但一旦协变量的差异被匹配掉,这样估计出来的退伍军人效应就变成了负的。同样,非白人退伍军人比非白人非退伍军人多挣2,449美元,在控制协变量后,这一差距减少到840美元。
表3.3.1还显示了自愿服兵役影响的回归估计值,并控制了用于构建匹配估计值的同一组协变量。这些是方程中 的估计值


其中, 为表示 的虚拟变量, 的回归效应, 为回归被估量。请注意,这个回归模型允许对协变量所取的每一个值给出单独的参数。因此,这个模型可以说在 上是饱和的,因为它包含了 每个值的参数。然而,它并不是完全饱和的,因为只有对 单独的可加性效应,而没有 的交互项。

表 3.3.1  自愿服兵役对收入影响的不作控制的估计值、匹配估计值和回归估计值

种族1988-1991年平均收入是否参军带来的平均收入差异匹配估计值回归估计值回归估计值减去匹配估计值
白人14,5371,233.4
(60.3)
-197.2(70.5)-88.8
(62.5)
108.4
(28.5)
非白人11,6642,449.1
(47.4)
839.7
(62.7)
1,074.4
(50.7)
234.7
(32.5)


注:摘自Angrist(1998,表二和表五)。括号内报告的是标准误。该表显示了自愿服兵役对1979年至1982年申请参军的男子1988-91年社会保障应税收入的影响的估计。匹配估计值和回归估计值控制了申请者的出生年份、申请时的教育程度和AFQT分数。样本中有128968名白人和175262名非白人。

尽管匹配和回归估计值控制了相同的变量,但表3.3.1中的回归估计值对于非白人略大,对于白人负得没有那么多。事实上,匹配结果与回归结果之间的差异是统计显著的。与此同时,两种估计策略对服兵役的影响呈现出大致相似的图景。回归估计值和匹配估计值相似的原因是,回归也可以被视为一种匹配估计量:回归被估量与匹配被估量的区别,仅在于用来特定化协变量的效应 组合为单个平均效应的权重。特别地,当匹配使用处理组之间协变量的分布来将特定化协变量的估计值加权到对处理组的处理效应的估计时,回归产生了这些效应的方差加权平均值。
要看到这一点,首先使用回归解析公式,将 的回归中 的系数写为


这组表达式中的第二个等式使用了这样一个事实,即在 上的饱和模型意味着 是线性的。因此, 定义为 回归的残差,即 的差。第三个等式使用了 的回归与 的回归相同的事实(我们从回归CEF定理3.1.6中可知这一点)。
为了进一步简化,我们扩展了条件期望函数
然后,代入(3.3.6)中分子里的 。这可得:
右边的第一项是零,因为 只是 的函数,而与 不相关。同理,第二项化简为

在这点上,我们已经证明:


其中, 是给定 的条件方差。这表明回归模型(3.3.4)给出了 的处理效应方差加权平均值。
因为我们感兴趣的回归变量 是一个虚拟变量,所以可以采取最后一步。在这种情况下,,所以
由此可见,回归被估量由 加权了特定化协变量的处理效应。相比之下,处理组的处理效应的匹配被估量可以写为
利用下面这一事实
这样一来,用于构造 的权重与每一个协变量取值处的处理概率成比例。因此,除非处理独立于协变量,否则回归和匹配加权方案是不同的。
从这个推导中得出的一个要点是,在处理组的处理效应的匹配被估量中,包含最有可能被处理的协变量分组的权重最大。相比而言,回归将最大的权重放在处理状态的条件方差最大的协变量分组上。作为一种规则,当 时处理方差是最大的,也就是说,对于有相同数量的处理组和对照组观测值的分组,(处理方差是最大的)。如果 在各分组之间没有变化,那么加权方案的差异就不重要了(尽管加权仍然影响估计量的统计有效性)。然而,在这个例子中,最有可能服兵役的男性似乎从服役中获益最少。这可能是因为那些最有可能服役的人最具资格入伍,因此即便不去服兵役也具有最高的收入潜力。这一事实导致对服兵役效应的匹配估计值小于基于相同的控制变量向量的回归估计值。[2]
同样重要的是,无论是回归还是协变匹配被估量,都没有对不同时既包含处理组观测值又包含对照组观测值的协变量分组给予任何权重。考虑 的值,比如说 ,要么没有人接受处理,要么所有人都接受了处理。那么, 没有被定义,而回归权值 为零。用匹配的计量经济学文献的语言来表述就是,在协变量的饱和控制条件下,回归和匹配被估量都有共同支撑(common support),也就是说,它们都被限制在处理组和对照组都有观测值的协变量值上。[3]
从被估量到估计量的步骤有点复杂。在实践中,回归和匹配估计量都是使用分组间一定数量的隐含推断的建模假设来实现的。例如,匹配估计量经常将协变量分组与很少的观测值相结合。如果被结合的分组不同时具有处理组和对照组的观测值,那么就违反了共同支撑这一假设。在X_i上不饱和的回归模型也可能违反共同支撑假设,因为不同时具有处理组和对照组观测值的协变量分组最终可能是通过外推(extrapolation)而对估计值发挥作用。然而,在这里,我们也看到了匹配策略和回归策略之间的对称性:原则上,它们属于同一类,并且在实践中也需要作出同样的折衷。[4]

更多关于回归和匹配的知识:有序处理和连续处理

上述二元处理变量回归的准匹配解释是否适用于有序和连续处理的模型?较长的答案会相当技术性,可能有些并不是你想知道的。在某种程度上,较短的答案也可解释。
正如我们已经讨论过的,总体OLS斜率向量总是能给出对CEF的MMSE线性近似。当然,这也适用于有序和连续回归元以及二元虚拟变量。一个相关的特性是回归系数具有“平均导数”解释。在多元回归模型中,由于OLS斜率向量是CEF梯度的矩阵加权平均值,使这种解释不幸地变得复杂起来。矩阵加权平均数很难解释,除非是在特殊情况下(参见Chamberlain和Leamer,1976)。当平均导数性质相对简单时,一个重要的特例是在有序或连续处理的回归模型中,使用饱和协变量模型。为了避免冗长的推导,我们只对这些公式进行解释即可。本章附录中概述了推导过程。更多的详细信息,请参阅Angrist和Krueger(1999)的附录。
为了这里讨论的目的,我们假设处理强度 为连续分布的随机变量,不一定为非负。假设我们感兴趣的CEF可以写作 ,其导数为

如此则我们有:

其中,(3.3.8)中的积分是在 的每个可能值进行的。该公式(由Yitzhaki(1996)推导)根据 的条件平均值高于和低于该值的差异,按比例加权 的每个可能值,接近 中值的点也会得到更多权重,因为 在该值处实现了最大化。
在引入协变量 的情况下,(3.3.8)中的权重依 而定。在分出 之后,同一公式的平均协变量的变化形式适用于 的多元回归系数。特别地,
其中
还有,
方程(3.3.10)反映了两种类型的平均值:一种是在固定协变量值下沿非线性CEF长度平均的积分,另一种是在协变量分组间平均的期望值。这方面的一个重要观点是,对于 等于0或1的 值,总体回归系数不包含 对CEF影响的信息。这包括 被固定处的 值。还值得注意的是,如果 是一个虚拟变量,我们可以从更一般的公式(3.3.10)中提取方程(3.3.7)。
Angrist和Krueger(1999)以出生所在州和出生年份为协变量构建了学校教育回归的平均权重函数。虽然等式(3.3.8)和(3.3.10)可能看起来很隐秘或至少不明显,但在本例中,平均权重 结果是一个以 为中心的 的合理平滑对称函数。
(3.3.8)或(3.3.10)的含义可在给出回归系数分布模型的情况下进一步探讨。例如,假设 是正态分布的。在式 中, 的标准离差,因此 是标准正态分布。那么有:
从截尾正态公式(truncated normal formulas)(例如,可参见:Johnson和Kotz,1970),我们知道:
以及
其中 是标准正态密度函数和分布函数。在该公式中替换(3.3.9)的 ,我们得到:
因此,我们表明:
换句话说,当 服从正态分布时, 的回归是无条件平均导数 。当然,这个结果是特例中的一个特例。[5]尽管如此,人们似乎有理由认为正态分布可能并不重要。根据我们的经验,无论回归系数的分布如何,由参数非线性模型(例如probit或Tobit)构造的平均导数(也称为“边际效应”)通常与相应的回归系数不易区分。我们将在第3.4.2节中详细介绍这一点。

注释:

[1] 这种匹配估计量被Rubin(1977)讨论过,也被Card和Sullivan(1988)用来估计培训补贴对就业的影响。

[2] 毫不奇怪,回归给予的分组最大的权重,因为回归对于同方差常数效应线性模型是有效的。我们应该期望一个有效的估计值给那些共同的处理效应估计得最准确得分组赋予最大的权重。对于同方差残差,最精确的处理效应来自于处理概率等于0.5的分组。

[3] 随机变量的支撑是一组以正概率出现的实现值。参见Heckman、Ichimura、Smith和Todd(1998)以及Smith和Todd(2001)关于匹配中的共同支撑的讨论。

[4] 涉及精确分布的X变量的匹配问题,通常通过聚集值来进行粗略的分组,或者通过对具有相似(尽管不一定相同)值的观测值进行配对来解决。参见Cochran(1965)、Rubin(1973)或Rosenbaum(1995,第3章)对这种方法的讨论。在具有连续分布协变量的情况下,匹配估计量是有偏的,因为匹配是不完美的。Abadie和Imbens(2008)最近表明,基于回归的偏差校正可以消除不完美匹配中的(渐近)偏差。

[5] 按照这种精神给出的其他专门的结论,见于Yitzhaki(1996)和Ruud(1986),他们考虑了有限因变量模型的无分布估计。



本专栏主理人简介

企研数据学术顾问 · 李井奎


李井奎,1978年1月生,浙江工商大学经济学院教授、博士生导师,哈佛大学访问学者,以教书育人和传播学问为己任,曾获浙江省“高校优秀教师”称号。除学术论文写作之外,还著有《大侦探经济学:现代经济学的因果推断革命》等科普著作。




星标⭐我们不迷路!想要文章及时到,文末“在看”少不了!

往期推荐


基本无害 | 使回归有意义——回归和因果关系(1)

基本无害 | 使回归有意义——回归和因果关系(2)

基本无害 | 使回归有意义——回归和因果关系(3)

数据治理 | 省下一个亿!一文读懂如何用python读取并处理PDF中的表格(赠送本文所用的PDF文件)

数据治理 | 有效防止跑数据卡顿!社科人必须掌握的计算机知识





数据Seminar




这里是大数据、分析技术与学术研究的三叉路口


文 | 《基本无害的计量经济学——实证研究者指南(重译本)》

翻译 | 李井奎

校对 | 陈泽 王锐

排版 | 李木子


    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存