基本无害的计量经济学
——实证研究者指南
(重译本)
正文共3895个字,预计阅读时间10分钟。感谢阅读!
原文:3.3.2
温馨提示:左右滑动可查看完整公式!
回归理论中最重要的成果就是OVB公式,它告诉我们,当遗漏的变量与所包含的变量不相关时,所包含变量的系数不受遗漏变量的影响。Rosenbaum和Rubin(1983)提出的倾向评分定理将这一观点扩展到依赖匹配而非回归的估计策略上来,其中感兴趣的因果变量是虚拟处理变量。[1]倾向评分定理指出,如果潜在结果独立于以多元协变量向量为条件的处理状态,那么潜在结果就独立于以协变量标量函数(即倾向评分)为条件的处理状态,倾向评分定义为。形式上,我们有以下定理:
就像OVB回归公式一样,倾向评分定理告诉我们,你只需要控制影响处理概率的协变量。但它还告诉了我们更多:你唯一需要控制的协变量是处理概率本身。在实践中,倾向评分定理通常经两个步骤进行估计:首先,使用诸如logit或probit的某种参数模型估计。然后,通过匹配第一步的估计评分或使用下面描述的加权方案计算处理效应的估计值(参见Imbens(2004)的综述)。除了在评分上进行匹配,而不是直接在协变量上进行匹配这一点之外,直接倾向评分匹配与协变量匹配的工作方式相同。根据倾向评分定理和CIA,
从而,可以通过对的估计值进行分层,并用条件样本平均值代替期望值,或通过将每个处理观测值与具有相似倾向评分值的对照组进行匹配(Dehejia和Wahba(1999)使用过这两种方法),来获得对受试者处理效应的估计值。或者,可以用基于模型的或非参数的的估计值代替这些条件平均函数,用求和算子代替外部期望算子(如Heckman、Ichimura和Todd(1998)所做的那样)。倾向评分估计的一个略显巧妙的加权方法是通过运用隐含着和事实的CIA条件来规避繁琐的匹配步骤。因此,给定一个估计的方案,我们可以从样本对应物中构建平均处理效应的估计值:
最后一个表达式是Newey(1990)以及Robins、Mark和Newey(1992)提出的那种形式的被估量。我们可以类似地从样本模拟值中计算出处理组的处理效应如下:
通过加权所选择概率的倒数以纠正非随机抽样的想法可以追溯到Horvitz和Thompson(1952)。当然,为了使这种方法可行,并且为了得到一致的估计值,我们需要的一致估计量。Horvitz-Thompson描述的倾向评分法很有吸引力,因为估计量基本上是自动给出的,不需要繁琐的匹配。Horvitz-Thompson方法还标明了倾向评分匹配和回归之间的密切联系,正如第3.3.1节中讨论的协变量匹配情况那样。我们再来看回归被估量,它是对的总体回归,并且是控制了协变量的饱和模型。这个被估量可以写为:(3.3.11)和(3.3.12)这两个Horvitz-Thompson匹配被估量以及回归被估量都属于Hirano、Imbens和Ridder(2003)考虑的那一类加权平均被估量:
其中是一个已知的加权函数(要从被估量换为估计量,用一致估计量替换,用求和算子替换期望算子)。由平均处理效应,设;由处理组的处理效应,设;由回归,设
这种相似性再次突显了一个事实,即回归和匹配(包括倾向评分匹配)并不是真正不同的家伙儿,至少在我们为倾向评分指定模型之前是如此。
这里的一大问题是如何最好地建模和估计,或者在估计时选择多大程度的平滑或分层,特别是如果协变量是连续的,那么这个问题的回归模拟值是如何参数化控制变量的(例如如果协变量是离散的,就是给出多项式或主效应项和交互项)。这个问题的答案本质上是特定于应用的。越来越多的实证文献表明,在连续协变量中,带有几个多项式的倾向评分logit模型在实践中效果良好,尽管这不是一个定理,而且不可避免地需要对之作一些实验的检验(参见:Dehejia和Wahba,1999)。[2]不断发展的理论文献已经产生了一些关于有效利用倾向评分的发人深省的定理。首先,从渐近有效性的角度来看,用倾向评分匹配代替完全协变量匹配通常会有代价。无论某协变量是否出现在倾向评分中,我们可以通过匹配可以解释结果的该协变量来获得较低的渐近标准误差。无论是否了解倾向评分,我们都(可以)从Hahn(1998)对CIA下处理效应估计值的最大精确度的研究中认识到这一点。例如,在Angrist(1998)中,即使在军队服役的概率与出生年份无关,但因为收入与出生年份有关,匹配出生年份也会带来有效性的提升。这一观点的回归模拟值结果是,即使在没有OVB的情况下,每当遗漏变量对结果有一定的预测能力,长回归都会对短回归中包含的变量的系数产生更精确的估计值(参见第3.1.3节)。Hahn(1998)的研究结果提出了一个问题:为什么我们应费心于使用倾向评分进行估计。一个哲学上的观点是,当倾向评分正确地将研究人员的注意力集中在处理分配的模型,而不是通常更复杂和神秘的决定结果的过程时,我们(反而)可能有相当好的信息。当处理分配是社会机构或政府监管的产物,而决定结果的过程是以更隐匿的方式完成(例如市场)时,这种观点似乎尤其富有吸引力。例如,在对货币政策因果效应的时间序列评估中,Angrist和Kuersteiner(2004)认为,我们对美联储如何设定利率的了解比对决定GDP的过程的了解更多。本着同样的精神,验证处理分配模型可能比验证结果模型更容易(作为该观点的一个描述,参见:Rosenbaum和Rubin,1985)。尽管纯粹(基于)统计学但更为精确的使用倾向评分的讨论由Angrist和Hahn(2004)提出。这篇论文表明,即使使用基于倾向评分的估计量不会取得渐近有效性,但在有限样本中,通常会在精度有所提高。因为所有真实数据集都是有限的,所以这个结果在经验研究中是很有意义的。直觉上,如果倾向评分中忽略的协变量几乎不能解释结果的变化(在纯粹的统计学意义上),那么忽略它们可能比承担由于需要估计其影响而带来的统计负担更好。这在使用NLSY等数据集的研究中很容易理解,在NLSY中有数百个协变量可以预测结果。在实践中,我们只关注所有可能的协变量的一小部分。这一子集的选择通常着眼于是什么预测了处理的分配。最后,Hirano、Imbens和Ridder(2003)提供了Hahn(1998)定理产生的“倾向评分悖论”的另一种渐近解决方案。他们表明,即使基于已知倾向评分的处理效应估计值不是有效的,但对于具有连续协变量的模型,当加权方案使用评分的非参数估计时,Horvitz-Thompson型加权估计量还是有效的。倾向评分是估计出来的,而且是以非参数的形式估计出来的,这两个事实对于Hirano、Imbens和Ridder的结论都很关键。Hirano、Imbens和Ridder(2003)的研究结果是否解决了倾向评分悖论呢?目前,我们偏爱于Angrist和Hahn(2004)给出的有限样本解决方案。后者的结论强调了一个事实,即研究人员愿意对评分施加限制,这使得基于倾向评分的推断具有概念和统计上的力量。例如,在Angrist(1998)中,一个具有高维离散协变量的应用中,评分的无限制非参数估计量正好是每个协变量分组中处理的经验概率。在中插入此非参数估值量后,可以直接证明(3.3.11)和(3.3.12)的样本类似物在代数上等同于相应的全协变量匹配估值量。因此,基于评分的估计结果是有效的,这并不奇怪,因为全协变量匹配是渐近有效的基准。倾向评分法的一个基本要素是使用先验知识进行降维。统计上的回报是有限样本表现上的改进。如果你不准备平滑、限制或以其他方式降低匹配问题的维度,从而产生真正的经验结果,那么你最好选择全协变量匹配或饱和回归进行控制。
注释:
[1] 倾向评分方法可以经过改编以适用于多值处理变量的情况,尽管这种做法尚未流行开来。有关这方面的工作,可以参看Imbens(2000)。
[2] Andrea Ichino和Sascha Beckeru给出了执行各种匹配估计量的Stata程序;参见:Becker和Ichino(2002)。
李井奎,1978年1月生,浙江工商大学经济学院教授、博士生导师,哈佛大学访问学者,以教书育人和传播学问为己任,曾获浙江省“高校优秀教师”称号。除学术论文写作之外,还著有《大侦探经济学:现代经济学的因果推断革命》等科普著作。
星标⭐我们不迷路!想要文章及时到,文末“在看”少不了!