基本无害的计量经济学
——实证研究者指南
(重译本)
正文共13127个字,预计阅读时间33分钟。感谢阅读!
原文:3.3
温馨提示: 左右滑动 可查看完整公式!
1 在前面的内容中,我们为大家分别推送了《基本无害》3.3.1到3.3.3的内容,本文我们汇总了第三章使回归有意义第三节异质性和非线性的内容,希望对大家的学习有所帮助。
3.3 异质性和非线性
正如我们在前一节中所看到的,线性因果模型与CIA结合会带来具有因果解释的线性CEF。假设CEF是线性的,那么总体回归函数就是这个CEF。然而在实践中,线性CEF的假设并不是回归的因果解释所必需的。如第3.1.2节 所讨论的那样,原因之一,是我们可以认为 对 和 的回归提供了对基础CEF的最佳线性近似,而不论这个基础CEF的具体形状如何。因此,如果CEF是具有因果解释的,回归近似它的事实就给回归系数赋予了一个因果性意义。然而,这种说法有点模糊,回归和CEF之间的联系,在性质上值得进一步探讨。这种探索使我们认识到,回归是一种计算上富有吸引力的匹配估计量。 3.3.1 回归与匹配 在过去的一二十年里,人们把匹配视作一种经验实证工具的兴趣日增。匹配作为控制协变量的策略通常是由CIA激发的,正如前一节中的因果回归。例如,Angrist(1998)利用匹配来估计志愿服兵役对军人日后收入的影响。这些匹配估计值要有一个因果解释的话,需要假设:基于军队用来选择士兵的个体特征(年龄、学历、考试分数),退伍军人的身份独立于潜在收入。匹配估计量非常简单:实际上,匹配相当于协变量特定的处理组-对照组比较,全部加权之后可以产生一个总体平均处理效应。 匹配策略的一个吸引人的特点是,它们通常伴随着一个明确的条件独立假设的表述,并需要给出匹配估计值的因果解释。同时,我们已经看到,回归系数的因果解释是基于完全相同的假设。换句话说,匹配和回归都是控制策略。由于两种策略的因果推理的核心假设相同,所以匹配是否或在多大程度上真正不同于回归是值得一问的。我们的观点是,回归可以作为一种特殊的加权匹配估计量,因此回归和匹配估计值之间的差异不太可能具有较大的经验重要性。 为了充实这一想法,更深入地研究匹配和回归被估量 (estimands )(即这些方法试图估计的总体量)的数学结构,会有所帮助。对于回归来说,被估量当然就是总体回归系数的向量。而匹配被估量通常是由协变量定义的分组间对比或比较的加权平均值。这在离散协变量的情况下是最容易看出的,比如在参军经历的例子中,我们用虚拟变量 来表示退伍军人身份这个离散回归变量。由于处理变量只呈现出两个值,所以我们可以使用 和 表示潜在结果。在这种情况下,我们主要感兴趣的参数是处理组的平均处理效应 。这告诉了我们退伍军人的平均收入 (这是一个可观察到的量)和他们如果不服役将获得的反事实的平均收入 之间的差异。根据是否为退伍军人对收入进行简单的比较,除非 独立于 ,给出的是对处理组的处理效应的一个有偏差的指标。具体地说,
换句话说,所观察到的退伍军人身份的收入差异等于处理组的平均处理效应加上选择性偏差。这与第2章中关于选择性偏差的讨论是极为相似的。
在这种情况下,CIA是这么表示的:
给定CIA成立,选择性偏差在控制 后消失了,因此对处理组的处理效应可以通过对 的期望迭代来构建:
当然, 是反事实的。不过,根据CIA,有下面的等式成立:
其中, 是在 的每一个值上根据退伍军人身份计算的平均收入之差。当 时,我们记为 。 Angrist(1998)中的匹配估计量利用 离散这一事实来构造(3.3.1)右边的样本类似物。在离散情况下,匹配被估量可以写成:
其中 是 时 的概率质量函数。[1] 在这种情况下, 值取决于出生年份、测验成绩组、参军年份、申请参军时的教育水平的所有可能组合。这种情况下的测验成绩来自AFQT,AFQT被军方用来对申请人的心理能力进行分类(我们在第3.2.2节 中讨论的学校教育回归把它作为控制变量)。对于每一协变量组合,Angrist(1998)中的匹配估计量用退伍军人-非退伍军人样本收入差异代替 ,然后使用退伍军人间协变量的经验分布将它们组合成加权平均值。 还要注意,我们可以很容易地构建无条件平均处理效应,
这是用 的边际分布代替被处理组之间的分布得到的 的期望。δ 告诉我们服兵役对于特定的士兵来说可以获得或失去了多少收入,而δ 告诉我们特定的申请者获得或失去了多少收入(因为Angrist(1980)的总体是由申请者构成的)。 美国军方对入伍者相当挑剔,特别是在冷战结束军队进行裁减之后。大多数情况下,军方现在只接收考试成绩在分数分布中上半段的高中毕业生。因此,在退伍军人和非退伍军人之间收入的简单比较中,军方对申请者的筛选就产生了正选择性偏差。表3.3.1报告了自1979年至1983年期间申请入伍的男子志愿服兵役(带来)对1988-91年社会保障应税收入影响的平均值差异、匹配和回归估计值。匹配估计值由样本类似项(3.3.2)构建。尽管白人退伍军人比白人非退伍军人多挣1233美元,但一旦协变量的差异被匹配掉,这样估计出来的退伍军人效应就变成了负的。同样,非白人退伍军人比非白人非退伍军人多挣2,449美元,在控制协变量后,这一差距减少到840美元。 表3.3.1还显示了自愿服兵役影响的回归估计值,并控制了用于构建匹配估计值的同一组协变量。这些是方程中 的估计值
其中, 为表示 的虚拟变量, 为 的回归效应, 为回归被估量。请注意,这个回归模型允许对协变量所取的每一个值给出单独的参数。因此,这个模型可以说在 上是饱和的,因为它包含了 每个值的参数。然而,它并不是完全饱和的,因为只有对 单独的可加性效应,而没有 的交互项。 表 3.3.1 自愿服兵役对收入影响的不作控制的估计值、匹配估计值和回归估计值
种族 1988-1991年平均收入 是否参军带来的平均收入差异 匹配估计值 回归估计值 回归估计值减去匹配估计值 白人 14,537 1,233.4 (60.3) -197.2 (70.5) -88.8 (62.5) 108.4 (28.5) 非白人 11,664 2,449.1 (47.4) 839.7 (62.7) 1,074.4 (50.7) 234.7 (32.5)
注:摘自Angrist(1998,表二和表五)。括号内报告的是标准误。该表显示了自愿服兵役对1979年至1982年申请参军的男子1988-91年社会保障应税收入的影响的估计。匹配估计值和回归估计值控制了申请者的出生年份、申请时的教育程度和AFQT分数。样本中有128968名白人和175262名非白人。
尽管匹配和回归估计值控制了相同的变量,但表3.3.1中的回归估计值对于非白人略大,对于白人负得没有那么多。事实上,匹配结果与回归结果之间的差异是统计显著的。与此同时,两种估计策略对服兵役的影响呈现出大致相似的图景。回归估计值和匹配估计值相似的原因是,回归也可以被视为一种匹配估计量:回归被估量与匹配被估量的区别,仅在于用来特定化协变量的效应 组合为单个平均效应的权重。特别地,当匹配使用处理组之间协变量的分布来将特定化协变量的估计值加权到对处理组的处理效应的估计时,回归产生了这些效应的方差加权平均值。 要看到这一点,首先使用回归解析公式,将 对 和 的回归中 的系数写为
这组表达式中的第二个等式使用了这样一个事实,即在 上的饱和模型意味着 是线性的。因此, 定义为 对 回归的残差,即 与 的差。第三个等式使用了 对 和 的回归与 对 的回归相同的事实(我们从回归CEF定理3.1.6中可知这一点)。
右边的第一项是零,因为 只是 的函数,而与 不相关。同理,第二项化简为 在这点上,我们已经证明:
其中, 是给定 时 的条件方差。这表明回归模型(3.3.4)给出了 的处理效应方差加权平均值。 因为我们感兴趣的回归变量 是一个虚拟变量,所以可以采取最后一步。在这种情况下, ,所以
由此可见,回归被估量由 加权了特定化协变量的处理效应。相比之下,处理组的处理效应的匹配被估量可以写为
这样一来,用于构造 的权重与每一个协变量取值处的处理概率成比例。因此,除非处理独立于协变量,否则回归和匹配加权方案是不同的。 从这个推导中得出的一个要点是,在处理组的处理效应的匹配被估量中,包含最有可能被处理的协变量分组的权重最大。相比而言,回归将最大的权重放在处理状态的条件方差最大的协变量分组上。作为一种规则,当 时处理方差是最大的,也就是说,对于有相同数量的处理组和对照组观测值的分组,(处理方差是最大的)。如果 在各分组之间没有变化,那么加权方案的差异就不重要了(尽管加权仍然影响估计量的统计有效性)。然而,在这个例子中,最有可能服兵役的男性似乎从服役中获益最少。这可能是因为那些最有可能服役的人最具资格入伍,因此即便不去服兵役也具有最高的收入潜力。这一事实导致对服兵役效应的匹配估计值小于基于相同的控制变量向量的回归估计值。[2] 同样重要的是,无论是回归还是协变匹配被估量,都没有对不同时既包含处理组观测值又包含对照组观测值的协变量分组给予任何权重。考虑 的值,比如说 ,要么没有人接受处理,要么所有人都接受了处理。那么, 没有被定义,而回归权值 为零。用匹配的计量经济学文献的语言来表述就是,在协变量的饱和控制条件下,回归和匹配被估量都有共同支撑(common support),也就是说,它们都被限制在处理组和对照组都有观测值的协变量值上。[3] 从被估量到估计量的步骤有点复杂。在实践中,回归和匹配估计量都是使用分组间一定数量的隐含推断的建模假设来实现的。例如,匹配估计量经常将协变量分组与很少的观测值相结合。如果被结合的分组不同时具有处理组和对照组的观测值,那么就违反了共同支撑这一假设。在 上不饱和的回归模型也可能违反共同支撑假设,因为不同时具有处理组和对照组观测值的协变量分组最终可能是通过外推(extrapolation)而对估计值发挥作用。然而,在这里,我们也看到了匹配策略和回归策略之间的对称性:原则上,它们属于同一类,并且在实践中也需要作出同样的折衷。[4] 上述二元处理变量回归的准匹配解释是否适用于有序和连续处理的模型?较长的答案会相当技术性,可能有些并不是你想知道的。在某种程度上,较短的答案也可解释。 正如我们已经讨论过的,总体OLS斜率向量总是能给出对CEF的MMSE线性近似。当然,这也适用于有序和连续回归元以及二元虚拟变量。一个相关的特性是回归系数具有“平均导数”解释。在多元回归模型中,由于OLS斜率向量是CEF梯度的矩阵加权平均值,使这种解释不幸地变得复杂起来。矩阵加权平均数很难解释,除非是在特殊情况下(参见Chamberlain和Leamer,1976)。当平均导数性质相对简单时,一个重要的特例是在有序或连续处理的回归模型中,使用饱和协变量模型。为了避免冗长的推导,我们只对这些公式进行解释即可。本章附录中概述了推导过程。更多的详细信息,请参阅Angrist和Krueger(1999)的附录。 为了这里讨论的目的,我们假设处理强度 为连续分布的随机变量,不一定为非负。假设我们感兴趣的CEF可以写作 ,其导数为 。 如此则我们有:
其中,(3.3.8)中的积分是在 的每个可能值进行的。该公式(由Yitzhaki(1996)推导)根据 的条件平均值高于和低于该值的差异,按比例加权 的每个可能值,接近 中值的点也会得到更多权重,因为 在该值处实现了最大化。 在引入协变量 的情况下,(3.3.8)中的权重依 而定。在分出 之后,同一公式的平均协变量的变化形式适用于 对 的多元回归系数。特别地,
方程(3.3.10)反映了两种类型的平均值:一种是在固定协变量值下沿非线性CEF长度平均的积分,另一种是在协变量分组间平均的期望值。这方面的一个重要观点是,对于 等于0或1的 值,总体回归系数不包含 对CEF影响的信息。这包括 被固定处的 值。还值得注意的是,如果 是一个虚拟变量,我们可以从更一般的公式(3.3.10)中提取方程(3.3.7)。 Angrist和Krueger(1999)以出生所在州和出生年份为协变量构建了学校教育回归的平均权重函数。虽然等式(3.3.8)和(3.3.10)可能看起来很隐秘或至少不明显,但在本例中,平均权重 结果是一个以 为中心的 的合理平滑对称函数。 (3.3.8)或(3.3.10)的含义可在给出回归系数分布模型的情况下进一步探讨。例如,假设 是正态分布的。在式 中, 是 的标准离差,因此 是标准正态分布。那么有:
从截尾正态公式(truncated normal formulas)(例如,可参见:Johnson和Kotz,1970),我们知道:
其中 和 是标准正态密度函数和分布函数。在该公式中替换(3.3.9)的 ,我们得到:
换句话说,当 服从正态分布时, 对 的回归是无条件平均导数 。当然,这个结果是特例中的一个特例。[5] 尽管如此,人们似乎有理由认为正态分布可能并不重要。根据我们的经验,无论回归系数的分布如何,由参数非线性模型(例如probit或Tobit)构造的平均导数(也称为“边际效应”)通常与相应的回归系数不易区分。我们将在第3.4.2节中详细介绍这一点。 3.3.2 使用倾向评分控制协变量 回归理论中最重要的成果就是OVB公式,它告诉我们,当遗漏的变量与所包含的变量不相关时,所包含变量的系数不受遗漏变量的影响。Rosenbaum和Rubin(1983)提出的倾向评分定理将这一观点扩展到依赖匹配而非回归的估计策略上来,其中感兴趣的因果变量是虚拟处理变量。[6] 倾向评分定理指出,如果潜在结果独立于以多元协变量向量 为条件的处理状态,那么潜在结果就独立于以协变量标量函数(即倾向评分)为条件的处理状态,倾向评分定义为 。形式上,我们有以下定理:
就像OVB回归公式一样,倾向评分定理告诉我们,你只需要控制影响处理概率的协变量。但它还告诉了我们更多:你唯一需要控制的协变量是处理概率本身。在实践中,倾向评分定理通常经两个步骤进行估计:首先,使用诸如logit或probit的某种参数模型估计 。然后,通过匹配第一步的估计评分或使用下面描述的加权方案计算处理效应的估计值(参见Imbens(2004)的综述)。 除了在评分上进行匹配,而不是直接在协变量上进行匹配这一点之外,直接倾向评分匹配与协变量匹配的工作方式相同。根据倾向评分定理和CIA,
从而,可以通过对 的估计值进行分层,并用条件样本平均值代替期望值,或通过将每个处理观测值与具有相似倾向评分值的对照组进行匹配(Dehejia和Wahba(1999)使用过这两种方法),来获得对受试者处理效应的估计值。或者,可以用基于模型的或非参数的 的估计值代替这些条件平均函数,用求和算子代替外部期望算子(如Heckman、Ichimura和Todd(1998)所做的那样)。 倾向评分估计的一个略显巧妙的加权方法是通过运用隐含着 和 事实的CIA条件来规避繁琐的匹配步骤。因此,给定一个估计 的方案,我们可以从样本对应物中构建平均处理效应的估计值:
最后一个表达式是Newey(1990)以及Robins、Mark和Newey(1992)提出的那种形式的被估量。我们可以类似地从样本模拟值中计算出处理组的处理效应如下:
通过加权所选择概率的倒数以纠正非随机抽样的想法可以追溯到Horvitz和Thompson(1952)。当然,为了使这种方法可行,并且为了得到一致的估计值,我们需要 的一致估计量。 Horvitz-Thompson描述的倾向评分法很有吸引力,因为估计量基本上是自动给出的,不需要繁琐的匹配。Horvitz-Thompson方法还标明了倾向评分匹配和回归之间的密切联系,正如第3.3.1节中讨论的协变量匹配情况那样。我们再来看回归被估量 ,它是 对 的总体回归,并且是控制了协变量的饱和模型。这个被估量可以写为:
(3.3.11)和(3.3.12)这两个Horvitz-Thompson匹配被估量以及回归被估量都属于Hirano、Imbens和Ridder(2003)考虑的那一类加权平均被估量:
其中 是一个已知的加权函数(要从被估量换为估计量,用一致估计量替换 ,用求和算子替换期望算子)。由平均处理效应,设 ;由处理组的处理效应,设 ;由回归,设 这种相似性再次突显了一个事实,即回归和匹配(包括倾向评分匹配)并不是真正不同的家伙什儿,至少在我们为倾向评分指定模型之前是如此。
这里的一大问题是如何最好地建模和估计 ,或者在估计 时选择多大程度的平滑或分层,特别是如果协变量是连续的,那么这个问题的回归模拟值是如何参数化控制变量的(例如如果协变量是离散的,就是给出多项式或主效应项和交互项)。这个问题的答案本质上是特定于应用的。越来越多的实证文献表明,在连续协变量中,带有几个多项式的倾向评分logit模型在实践中效果良好,尽管这不是一个定理,而且不可避免地需要对之作一些实验的检验(参见:Dehejia和Wahba,1999)。[7] 不断发展的理论文献已经产生了一些关于有效利用倾向评分的发人深省的定理。首先,从渐近有效性的角度来看,用倾向评分匹配代替完全协变量匹配通常会有代价。无论某协变量是否出现在倾向评分中,我们可以通过匹配可以解释结果的该协变量来获得较低的渐近标准误差。无论是否了解倾向评分,我们都(可以)从Hahn(1998)对CIA下处理效应估计值的最大精确度的研究中认识到这一点。例如,在Angrist(1998)中,即使在军队服役的概率与出生年份无关,但因为收入与出生年份有关,匹配出生年份也会带来有效性的提升。这一观点的回归模拟值结果是,即使在没有OVB的情况下,每当遗漏变量对结果有一定的预测能力,长回归都会对短回归中包含的变量的系数产生更精确的估计值(参见第3.1.3节) 。 Hahn(1998)的研究结果提出了一个问题:为什么我们应费心于使用倾向评分进行估计。一个哲学上的观点是,当倾向评分正确地将研究人员的注意力集中在处理分配的模型,而不是通常更复杂和神秘的决定结果的过程时,我们(反而)可能有相当好的信息。当处理分配是社会机构或政府监管的产物,而决定结果的过程是以更隐匿的方式完成(例如市场)时,这种观点似乎尤其富有吸引力。例如,在对货币政策因果效应的时间序列评估中,Angrist和Kuersteiner(2004)认为,我们对美联储如何设定利率的了解比对决定GDP的过程的了解更多。本着同样的精神,验证处理分配模型可能比验证结果模型更容易(作为该观点的一个描述,参见:Rosenbaum和Rubin,1985)。 尽管纯粹(基于)统计学但更为精确的使用倾向评分的讨论由Angrist和Hahn(2004)提出。这篇论文表明,即使使用基于倾向评分的估计量不会取得渐近有效性,但在有限样本中,通常会在精度有所提高。因为所有真实数据集都是有限的,所以这个结果在经验研究中是很有意义的。直觉上,如果倾向评分中忽略的协变量几乎不能解释结果的变化(在纯粹的统计学意义上),那么忽略它们可能比承担由于需要估计其影响而带来的统计负担更好。这在使用NLSY等数据集的研究中很容易理解,在NLSY中有数百个协变量可以预测结果。在实践中,我们只关注所有可能的协变量的一小部分。这一子集的选择通常着眼于是什么预测了处理的分配。 最后,Hirano、Imbens和Ridder(2003)提供了Hahn(1998)定理产生的“倾向评分悖论”的另一种渐近解决方案。他们表明,即使基于已知倾向评分的处理效应估计值不是有效的,但对于具有连续协变量的模型,当加权方案使用评分的非参数估计时,Horvitz-Thompson型加权估计量还是有效的。倾向评分是估计出来的,而且是以非参数的形式估计出来的,这两个事实对于Hirano、Imbens和Ridder的结论都很关键。 Hirano、Imbens和Ridder(2003)的研究结果是否解决了倾向评分悖论呢?目前,我们偏爱于Angrist和Hahn(2004)给出的有限样本解决方案。后者的结论强调了一个事实,即研究人员愿意对评分施加限制,这使得基于倾向评分的推断具有概念和统计上的力量。例如,在Angrist(1998)中,一个具有高维离散协变量的应用中,评分的无限制非参数估计量正好是每个协变量分组中处理的经验概率。在 中插入此非参数估值量后,可以直接证明(3.3.11)和(3.3.12)的样本类似物在代数上等同于相应的全协变量匹配估值量。因此,基于评分的估计结果是有效的,这并不奇怪,因为全协变量匹配是渐近有效的基准。倾向评分法的一个基本要素是使用先验知识进行降维。统计上的回报是有限样本表现上的改进。如果你不准备平滑、限制或以其他方式降低匹配问题的维度,从而产生真正的经验结果,那么你最好选择全协变量匹配或饱和回归进行控制。 3.3.3 倾向评分方法与回归 倾向评分方法将注意力从对 的估计转到了对倾向评分 的估计上。后者因更容易建模或推导在应用中很有吸引力。例如,Ashenfelter(1978)指出,政府资助培训项目的参与者通常在培训前存在着收入显著下降现象,这一范例在后来的许多研究中都有发现。如果这种下降是唯一让受训者与众不同的因素,那么我们可以通过控制过去的收入动态来估计培训对收入的因果影响。然而,在实践中,很难在收入动态上进行匹配,因为收入历史既连续又多维。Dehejia和Wahba(1999)认为,在这种情况下,通过以倾向评分为条件,而不是以收入历史本身为条件,可以更好地估计培训项目的因果效应。 Dehejia和Wahba报告的倾向评分估计值与构成其基准的随机试验的估计值非常接近。尽管如此,我们仍相信回归应该是大多数实证项目的起点。这还不是一个定理;毫无疑问,在某些情况下,倾向评分匹配可以提供更可靠的平均因果效应估计。我们发现自己没有加入倾向评分时尚大潮的第一个原因来自实证环节,即:在实施倾向评分匹配时,有许多细节需要推敲,例如如何对评分进行建模以及如何进行推理;这些细节尚未标准化。因此,不同的研究人员可能会得出非常不同的结论,即使使用相同的数据和协变量,亦是如此。此外,正如我们在Horvitz-Thompson被估量中看到的,回归和倾向评分加权之间的理论界限并不是那么泾渭分明。如果协变量的回归模型相当灵活,比如接近饱和,那么回归可以被视为一种倾向评分加权,因此差异主要在于实施过程。在实践中,你可能远远没有达到饱和模型的程度,但有了正确的协变量,这应该无关紧要。 在这里,以Dehejia和Wahba(1999)使用的同一个国家支持工作示范项目(NSW)样本为特色进行回归和倾向评分匹配之间的对比。[8] NSW是一个1970年代中期的项目,为身为弱势短期零工的接受者提供工作经验。NSW是在一项随机试验中做出的评估,这在当时颇不寻常。Lalonde(1986)的开创性分析将NSW随机试验研究的结果与来自PSID和CPS的非实验对照组的计量经济学结果进行了比较。因为看似合理的非实验方法产生了泛泛的结果,而且其中许多结果与实验估计值相去甚远,他颇为悲观地放弃了这个研究。此外,Lalonde认为,一名对于随机试验结果所知不多的客观的研究者,不太可能选到最佳的计量经济学设定和观测对照组。 Dehejia和Wahba(1999)对Lalonde(1986)的发现进行了引人注目的二次研究,他们发现,通过将NSW处理组与使用倾向评分选择的观测对照组相匹配,他们的结论是接近NSW的实验结果的。他们用不同的对照组证明了这一点。继Dehejia和Wahba(1999)之后,我们再次考察了两个CPS对照组,第一个是基本上未经选择的样本(CPS-1),再一个是从最近失业的人群中选择的一个更窄的对照组(CPS-3)。 表 3.3.2(第 1-4 列是对 Dehejia 和 Wahba(1999) 中表 1 的复制)报告了 NSW 处理组、随机选择的 NSW 对照组和我们的两个观测对照组的描述性统计数据。与 CPS-1 样本所代表的一般总体相比,NSW处理组和随机选择的NSW对照组更年轻、受教育程度更低、更有可能是非白人,并且收入要低得多。CPS-3 样本与NSW处理组更接近,但仍显示出一些差异,特别是在种族和培训前收入方面。 表3.3.2 NSW中的协变量均值和观测对照样本组注:改编自Dehejia 和 Wahba(1999)中的表1。前四列中的样本如Dehejia 和 Wahba(1999)所描述。最后两列中的样本仅限于倾向评分在0.1到0.9之间的对照组观测值。倾向评分估计值使用了表中列出的所有协变量。
表3.3.3报告了NSW处理效应的估计值。因变量是1978年的年收入,即处理(培训)后的一两年。表中的行显示了可选控制变量集的结果:无控制变量;表3.3.2给出的所有人口统计学变量;滞后(1975年)收入;人口统计数据加上滞后的收入;人口统计和滞后两期的收入。所有估计值均来自1978年的收入对处理虚拟变量加上控制变量的回归(初始的处理-控制组差异显示在第一行)。 第1列中报告的利用实验对照组得到的估计值约为1600-1800美元。毫不奇怪,这些估计值在不同的设定中几乎没有差异。相比之下,NSW参与者和CPS-1样本(参见第2列)之间的原初收入差距约为-8500美元,这表明此类比较受到选择性偏差的严重影响。 表3.3.3 使用不同控制变量的NSW培训效果的回归估计值注:该表使用Dehejia-Wahba(1999)数据和其他控制变量集报告了培训效果的回归估计值。人口统计控制因素包括年龄、受教育年限、黑人、西班牙裔、高中辍学者和是否已婚。标准误报告在圆括号内。观察计数报告在方括号内[处理/对照组]。在区间[0.1,0 .9]只使用1975年的收入作为CPS-1数据的协变量,没有具有所估计的倾向评分的观测值。
人口统计学控制变量和滞后收入项的加入,大大缩小了这一差距;最后一行估计出的处理效应达到(正)800美元。第3列的结果甚至更好,它使用了更窄的CPS-3对照组。这一群体的特征与NSW参与者的特征更接近;与此相一致的是,原初收入差异只有- 635美元。最后一行报告的控制所有协变量的估计值,该值接近1400美元,离实验处理效应不远。 从CPS-1到CPS-3这一过程的缺点是,用于构建更小、更仔细选择的CPS-3比较组的规则显得特意化。CPS-3的选择标准可以由NSW项目规则推导出,该规则偏向于低收入者和弱势短期零工,但在实践中,有许多方法可以解决这一问题。因此,我们希望有一个更系统的方法来进行前期筛选。在最近的一篇论文中,Crump、Hotz、Imbens和Mitnik(2009)建议将倾向评分用于系统样本选择,作为回归估计的前导。这与我们之前讨论的倾向评分作为估计的基础形成了对比。 我们实施了Crump等人(2009)的建议,首先估计混同了NSW-处理和观测-比较的样本进行倾向评分,然后只选取那些 的观测值。换句话说,这一估计样本仅限于处理预测概率至少等于10%但不超过90%的观测值。这确保了回归在一个仅包括至少同时有若干处理组观测值和控制组观测值的协变量分组的样本中估计。因此,使用筛选样本所作的估计不需要外推到没有“共同支撑”的分组——换句话说,也不需要外推到处理组和对照组之间协变量分布不存在重叠的分组。表3.3.2的最后两列显示了对评分筛选样本的描述性统计(使用表中列出的整组协变量进行估计)。已筛选的CPS-1和CPS-3样本的协变量均值比未筛选样本的协变量均值更接近第一列中的NSW均值。 我们使用可选的协变量集进一步探究了共同支撑筛选器(common support screener),但在每次迭代中都使用相同的协变量进行筛选和估计处理效应。所得出的估计值显示在表3.3.3的最后两列。单独控制人口统计变量或滞后收入项,这些结果与列2和列3的差异不大。然而,在人口统计变量和收入滞后项作为对照的情况下,经过筛选的CPS-1估计值比未经筛选的结果更接近于实验估计值。经过筛选的CPS-1中有滞后两期收入项的估计值也接近实验基准。另一方面,共同支撑筛选器单独加入滞后一期收入项后对CPS-3结果略微改善,而加入滞后两期收入项结果反而倒退。 这番探究增强了我们对回归(已经很强)的信心。尽管在CPS-1样本中存在巨大的基线差距(baseline gap),但对选择了正确协变量的回归控制在消除选择性偏差方面做得相当好。利用我们对该培训项目录取标准的了解来限制样本,使用CPS-3可以产生更好的回归估计值,几乎与Dehejia和Wahba(1999)具有两期收入滞后项的倾向评分匹配结果一样好。CPS-1是一个较大的粗选的初始样本,加强共同支撑的系统性预筛选,似乎是一个对CPS-1回归估计的有用的辅助。经过筛选的CPS-1和未经过筛选的CPS-3中的估计值一样好。然而,我们注意到,使用倾向评分筛选样本所得估计值的标准误差并未被调整,以反映我们在评分估计值中的抽样方差。如同从CPS-1到CPS-3的步骤一样,利用先验的信息进行预筛选的一个优点就是不需要作这种调整。 注释
[1] 这种匹配估计量被Rubin(1977)讨论过,也被Card和Sullivan(1988)用来估计培训补贴对就业的影响。
[2] 毫不奇怪,回归给予 的分组最大的权重,因为回归对于同方差常数效应线性模型是有效的。我们应该期望一个有效的估计值给那些共同的处理效应估计得最准确得分组赋予最大的权重。对于同方差残差,最精确的处理效应来自于处理概率等于0.5的分组。
[3] 随机变量的支撑是一组以正概率出现的实现值。参见Heckman、Ichimura、Smith和Todd(1998)以及Smith和Todd(2001)关于匹配中的共同支撑的讨论。
[4] 涉及精确分布的X变量的匹配问题,通常通过聚集值来进行粗略的分组,或者通过对具有相似(尽管不一定相同)值的观测值进行配对来解决。参见Cochran(1965)、Rubin(1973)或Rosenbaum(1995,第3章)对这种方法的讨论。在具有连续分布协变量的情况下,匹配估计量是有偏的,因为匹配是不完美的。Abadie和Imbens(2008)最近表明,基于回归的偏差校正可以消除不完美匹配中的(渐近)偏差。
[5] 按照这种精神给出的其他专门的结论,见于Yitzhaki(1996)和Ruud(1986),他们考虑了有限因变量模型的无分布估计。
[6] 倾向评分方法可以经过改编以适用于多值处理变量的情况,尽管这种作法尚未流行开来。有关这方面的工作,可以参看Imbens(2000)。
[7] Andrea Ichino和Sascha Beckeru给出了执行各种匹配估计量的Stata程序;参见:Becker和Ichino(2002)。
[8] 在Smith和Todd(2005)以及Dehejia(2005)之间的交锋中出现了更广泛的与倾向得分的对比。
李井奎,1978年1月生,浙江工商大学经济学院教授、博士生导师,哈佛大学访问学者,以教书育人和传播学问为己任,曾获浙江省“高校优秀教师”称号。除学术论文写作之外,还著有《大侦探经济学:现代经济学的因果推断革命》等科普著作。