基本无害 | 第四章第一节(全)— 工具变量和因果关系
基本无害的计量经济学
——实证研究者指南
(重译本)
第四章 管用的工具变量:有时你就是可以得你所需第一节 工具变量和因果关系
正文共16024个字,预计阅读时间41分钟。感谢阅读!
原文:4.1
温馨提示:左右滑动可查看完整公式!
第四章
管用的工具变量:有时你就是可以得你所需
有两件事将计量经济学与统计学这一“姊妹”领域区分开来。一是计量经济学对因果关系毫不讳言。因果推断一直是应用计量经济学中这场游戏的名称。统计学家Paul Holland(1986)提醒说,“没有操纵就没有因果关系(no causation without manipulation)”,这一格言似乎排除了从非实验数据进行因果推断的可能性。浅尝辄止的观察人士则满口是“相关关系不等于因果关系”这一老生常谈。与大多数以数据为生的人一样,我们相信相关性有时可以为因果关系提供很好的证据,即使研究人员或实验者没有操纵相关变量。[1]我们区别于大多数统计学家——实际上也区别于大多数其他社会科学家——的第二点是我们拥有的统计工具库,这些工具来自于对如何估计线性联立方程组中的参数问题的早期计量经济学研究。其中最有力的武器,莫过于工具变量法(IV),这也是本章的主题。事实证明,IV方法不仅能让我们一致地估计联立方程组中的参数,还可以让我们做到更多。在20世纪20年代研究农业市场时,菲利普·赖特(Phillip Wright)和休厄尔·赖特(Sewall Wright)这对父子研究团队对这样一个具有挑战性的因果推断问题很感兴趣:当观察到的价格和数量数据由供需两条曲线的交点决定时,如何估计供给和需求曲线的斜率。换句话说,均衡价格和数量——这是我们唯一能观察到的——同时求解两个随机方程(而得)。那么,观察到的价格和数量的散点图位于哪条曲线上呢?在一组联立方程中,总体回归系数估不出任何一个方程的斜率这一事实,菲利普·赖特(Phillip Wright)已经有所了解。在赖特(1928)中首次提出的IV方法,通过使用出现在一个方程中的变量来移动这个方程并追踪另一个方程,求解了这些统计联立方程问题。产生这种变化的变量被称为工具变量(Reiersol, 1941)。在另一个独立的研究中,IV方法被首创来解决回归模型中测量误差的偏差问题。[2]线性模型的统计理论中最重要的结果之一是,当感兴趣的回归变量用随机误差测量时,回归系数会偏向于零(要想知道为什么,可以想象回归变量只包含随机误差;那么它与因变量不相关,因此 对该变量的回归将为零)。工具变量方法可以用来消除这种偏差。联立方程模型(SEMs)在计量经济思想史上有着极其重要的地位。但同时,今天最有影响力的应用论文很少依赖于正统的SEM框架,尽管用于讨论IV方法的术语仍然来自这个框架。今天,我们更可能发现IV方法用于解决测量误差问题,而不是用于估计SEM的参数。然而,毫无疑问,当代IV方法最重要的应用是解决遗漏变量偏差(OVB)的问题。IV方法解决了控制变量缺失或未知的问题,就像随机试验消除了回归中的超量控制变量一样。[3]该发生的,总会发生。
该在发生时引起其他事情发生的,总会在发生时引起其他事情发生。
该在发生时引起本身再次发生的,总会再次发生。
然而,时间上不必总是遵循前后顺序。
——道格拉斯·亚当斯 《基本无害》
4.1 工具变量和因果关系
我们喜欢以两步迭代方式讲述IV的故事,首先是在一个不变效应的受限模型中讲述,然后是在一个不受限制的异质潜在结果的框架中讲述,在这种情况下,因果效应也必须是异质的。在不改变我们在实践中最有可能使用的核心统计方法(通常是两阶段最小二乘或2SLS)的机制的情况下,异质性效应的引入丰富了对IV估计的解释。先对不变效应加以关注,可以使我们能够以最小的混乱解释IV的机制。我们给出一个不变效应架构,作为学校教育和工资之间因果关系的框架,假设如前文3.2节中讨论回归和因果性时一样,我们可以写出潜在结果:
以及:同样地,就像在之前的讨论中,我们假设存在一个控制变量向量 ,即所谓的“能力”,它能够提供一个基于可观测变量选择的表示:其中 仍是总体回归系数的一个向量,因此 和 根据构造是不相关的。目前假设,变量 是 和 相关的唯一原因,所以:换句话说,如果 可以被观测到,那么我们将乐于把它纳入到工资对学校教育的回归中;因此产生了一个下面这样的长回归:等式(4.1.2)是线性因果模型(3.2.9)的一个变体。这个方程中的误差项是对 进行控制后剩下的潜在结果 的随机部分。根据假设这个误差项与学校教育无关。如果这个假设被证明是正确的,那么 对 和 的总体回归就产生了(4.1.2)的系数。我们最初想解决的问题是,当 不能被观测到时,如何估计长回归系数 。工具变量方法可以用于实现这一点,当研究者可以得到一个变量(即“工具”,我们将其记为 ),该变量与感兴趣的因果变量 相关,但与因变量的任何其他决定因素不相关。这里,所谓“与因变量的任何其他决定因素不相关”,就是在说 ,或者也可以这样说, 与 和 都不相关。这种说法被称为排他性约束(exclusion restriction),因为 可以说成是被排除在感兴趣的因果模型之外的。给定排他性约束,由(4.1.2)可得:
(4.1.3)中的第二个等式是很有用的,因为它通常更容易用回归系数而不是用协方差来思考。相关系数 是 在 上的总体回归(称为简化形式(reduced form))与 在 上的总体回归(称为第一阶段)之比。IV估计量是表达式(4.1.3)的样本对应物。注意,IV估计量基于的是第一阶段不为零的概念,而这是可以通过检查数据得出来的。一般来说,如果第一阶段与零值仅略有显著差异,那么所得到的IV估计就不太可能提供信息,这一点我们稍后再讨论。为了使(4.1.3)中的协方差之比等于因果效应 ,有必要重述一下这些假设。首先,工具变量必须对 有明显的影响。这是第一阶段。第二, 和 之间存在关系的唯一原因源自第一阶段。目前,我们称这第二个假设为排他性约束,不过我们将在讨论具有异质效应的模型时会看到,这个假设实际上有两个部分:第一个部分是,工具变量是随机分配的(即以协变量为条件而独立于潜在结果,如第3章的CIA条件),第二个部分是,除非通过第一阶段的渠道,工具变量对结果没有影响。那么,在哪里可以找到一个工具变量呢?好的工具变量来自于在确定感兴趣变量的过程中对制度知识和思想的结合。例如,教育的经济模型表明,接受学校教育的决定是基于替代性选择的成本和收益做出的。因此,接受学校教育的工具变量的一个可能来源,是由于贷款政策或其他补贴造成的费用差异,这些差异与能力或收入潜力无关。学校教育接受差异的第二个来源是制度约束。义务教育法是一套与学校教育相关的制度约束。Angrist和Krueger(1991)在一篇论文中即利用义务教育引起的变化,有代表性地使用“自然实验”来消除OVB。Angrist和Krueger(1991)的出生季度识别策略的出发点,是观察到大多数州要求学生在他们满6岁的公历年入学。因此,入学年龄是出生日期的函数。具体来说,年尾出生的孩子在他们的年级里比较小。在12月31日为生日截止日期的州,第四季度出生的孩子在6岁之前一段时间就已入学,而第一季度出生的孩子在6岁半左右才入学。此外,由于义务教育法通常要求学生必须在学校待到16岁生日,所以当这些学生群体达到法定的辍学年龄时,他们将会处于不同的年级,或在同一年级但上的时间长短不同。学校的入学年龄政策和义务教育法的结合创造了一个自然的实验,在这个实验中,孩子们被迫根据他们的生日去接受不同时间的学校教育。Angrist和Krueger利用美国人口普查数据研究了受教育程度和出生季度之间的关系。图4.1.1的A(改编自Angrist和Krueger(1991))显示了1980年人口普查中出生在20世纪30年代的男性不同出生季度下的受教育情况。这一数据清楚地表明,在公历年中出生较早的男性,其平均教育水平往往较低。图4.1.1中的A是第一阶段的图形描述。一般IV框架中的第一阶段是因果关系变量对协变量和工具变量的回归。这张图总结了这一回归,因为按出生年份和出生季度计算的平均受教育程度是对出生年份虚拟变量(协变量)和出生季度虚拟变量(工具变量)进行受教育程度回归后得到的拟合值。图4.1.1中的B显示了用于构造A图的相同样本按出生季度给出的平均收入。图B说明了工具变量和因变量之间简化形式下的关系。简化形式是因变量对模型中的协变量和工具变量的回归。图B显示,年长组往往收入更高,因为收入会随着工作经验的增加而增加。该数据还表明,出生在较早季度的男性平均收入几乎总是低于出生在较晚季度的男性,即使在调整出生年份(Angrist和Krueger(1991)架构中的协变量)后也是如此。重要的是,这种简化形式的关系与学校教育中出生季度的模式相似,表明这两种模式密切相关。因为一个人的出生日期很可能与他或她的先天能力、动机或家庭关系无关,所以似乎可以可信地断言,收入上下波动的唯一原因是受教育程度的上下波动。这是出生季度这一IV故事的关键假设。[4]图4.1.1:第一阶段的图形描述和IV的简化形式,使用出生季度工具变量来估计学校教育的经济回报(录自:Angrist和Krueger, 1991)。
图4.1.1所讲述的故事的数学表示来自第一阶段和简化形式的回归方程,具体如下:
方程(4.1.4a)中的参数 给出了在对协变量 进行了调整的情况下 对 的第一阶段效应。方程(4.1.4b)中的参数 给出了在对协变量 进行了调整的情况下 对 的简化形式效应。在Angrist and Krueger(1991)中,工具变量 是出生季度(或表示出生季度的虚拟变量),协变量是出生年份和出生地情况的虚拟变量。用SEM的语言来说,这两个方程中的因变量被称为内生变量(在系统内部共同确定),而右边的变量被称为外生变量(在系统外部确定)。工具变量 是外生变量的子集。不是工具变量的外生变量被称为外生协变量。虽然在这种情况下,我们并不是在评估传统的供需方程组,但这些SEM变量称谓仍然在实证实践中广泛使用。协变量调整的IV估计量是比率 的样本对应物。要看到这一点,请注意简化形式和第一阶段系数的分母是相同的。因此,它们的比率为:式中 为 对外生协变量 的回归残差。因此,等式(4.1.5)右边的 就替换成了等式(4.1.3)中的 。计量经济学家将方程(4.1.5)的样本对应物称为带有协变量的因果模型中 的间接最小二乘(ILS)估计量,其中 为复合误差项 。用等式(4.1.6)很容易直接证得 因为根据构造 与 无关,而根据假设它也与 无关。4.1.1 两阶段最小二乘
我们将第一阶段方程(4.1.4a)代入感兴趣的因果关系(4.1.6),可得到简化方程(4.1.4b),在联立方程语言中也称为“结构方程”。我们有:
其中在方程(4.1.4b)中有 和 。公式(4.1.7)再次说明了为什么 的原因。还要注意的是,对(4.1.7)稍加重整即可给出:其中 为 对 和 的第一阶段回归的总体拟合值。这是因为 和 与简化形式误差 ( 对 的总体回归中 的回归系数)不相关,而且 等于 。当然,在实践中,我们几乎总是使用来自样本的数据。给定一个随机样本,第一阶段拟合值的一致性估计由下式给出:其中 和 为方程(4.1.4a)的OLS估计值。在 对 和 的回归中, 的系数 被称为两阶段最小二乘(2SLS)估计值。也就是说,2SLS估计值可以通过下面这个“第二阶段方程”的OLS估计来构建:之所以被称为2SLS,是因为它可以分两步完成,第一步使用方程(4.1.4a)估计 ,第二步使用方程(4.1.9)来估计。由于协变量和第一阶段拟合值与 和 都不相关,由此得到的 的估计量是一致性估计。2SLS名虽“两步”,但我们通常不会用两步来构建2SLS估计值。首因是产生的标准误差是错误的,这一点我们稍后会讨论。通常,我们让专门的软件程序(如SAS或Stata中可用的)为我们进行计算。这可以得到正确的标准误差,并有助于避免犯其他错误(参见4.6.1节)。只不过,2SLS估计量可以通过一系列OLS回归来计算,这一事实仍不失为是记住2SLS为什么有效的一种方法。直观上,在协变量的条件下,2SLS只保留了准实验变化所产生的 变化,即工具变量 产生的 变化。2SLS是一个非常棒的工具。其一,它是一个IV估计量:(4.1.9)中 的2SLS估计值是 的样本对应物,其中 是 对 回归的残差。这源于多元回归解析式(3.1.3)和 这一事实。也很容易证明,在一个单内生变量和单工具变量的模型中,2SLS估计量与相应的ILS估计量是相同的。[5]在多工具变量(multi-instrument)的情况下,2SLS和IV之间的联系需要进一步阐述。假设每个工具变量捕捉到了相同的因果效应(这是一个强有力的假设,我们下面会放松它),我们可能想要把这些备选IV的估计值合并成一个更精确的估计值。在多工具变量模型中,2SLS通过将多个工具变量合并成一个工具变量来实现这一点。例如,假设我们有三个工具变量,, 和 。在Angrist和Krueger(1991)的应用中,这些是第一季度、第二季度和第三季度出生与否的虚拟变量。那么,第一阶段方程就变成:2SLS第二阶段与(4.1.9)相同,只是拟合值由(4.1.4a)改为(4.1.10a)。这个2SLS估计量的IV解释与之前一样:工具变量是第一阶段拟合值对外生协变量回归的残差。这种情况下的排除性约束要求,(4.1.10a)中的出生季度虚拟变量与公式(4.1.6)中的 不相关。表4.1.1显示了使用出生季度虚拟变量作为工具变量对接受学校教育的经济回报进行2SLS估计的结果,该表报告了与Angrist和Krueger(1991)估计的模型相似的OLS和2SLS估计值。表中的每一列都包含了由(4.1.6)这样的方程估计的 的OLS和2SLS估计值,只是使用了不同的工具变量和控制变量组合。列1中的OLS估计值来自无控制变量的对数工资回归,而列2中的OLS估计值来自添加了出生年份和出生地所在州的虚拟变量作为控制变量的模型。在这两种情况下,估计出来的学校教育回报率都在0.075左右。第3列和第4列报告的第一对IV估计值来自没有外生协变量的模型。用于构建第3列估计的工具变量是第一季度出生的单个虚拟变量,而用于构建第4列估计的工具变量是表示第一、第二和第三季度出生的三个虚拟变量。这些估计值的范围从0.10到0.11。包括出生年份和出生所在州虚拟变量作为外生协变量(在第5和第6列中报告)的模型的结果是相似的,这并不奇怪,因为出生季度与这些控制变量都没有密切联系。总的来说,2SLS估计值大多比相应的OLS估计值要大一些。这表明,所观察到的受教育程度和收入之间的关联并非由能力和家庭背景等被忽略的变量所驱动。表4.1.1学校教育经济回报的2SLS估计值
注:该表使用Angrist和Krueger(1991) 1980年人口普查样本报告了OLS和2SLS对学校教育回报的估计值。该样本包括出生于1930-39年的本地男性,包含正的收入变量以及关键变量的未分配值(nonallocated values)。样本容量为329509。稳健的标准误差报告在括号中。QOB表示出生季度。
表4.1.1第7列为工具变量列表中添加交互项的结果。特别地,该回归设定增加了3个出生季度的虚拟变量与9个出生年份的虚拟变量的交互项(样本包括1930-1939年出生的组),不含其他变量总共30个工具变量。第一阶段方程变成下式:
其中 是一个虚拟变量,如果个体 出生在 年, 属于1931-1939年这些年份,那么该虚拟变量等于1。 是相应的季度和年度的交互项系数。添加这些交互项的理由是可以提高第一阶段的 ,来提高精度, 的上升是因为在不同的样本组中受教育的出生季度方式是不同的。在本例中,将交互项添加到了工具变量列表中可以适度提高精度;当我们从第6列相比第7列时,[6]标准误差从0.019下降到0.016(图4.1.1中绘制的第一阶段和简化形式效应来自这个完全交互的回归设定)。表4.1.1报告的最后一个2SLS模型在外生协变量列表中添加了年龄的线性和二次项的控制变量。也就是说,1930年第1季度出生的人在人口普查日(1980年4月1日)被记录为50岁,而第4季度出生的人被记录为49.25岁。这个精心编码的年龄变量提供了一个部分受控的事实,即年龄的微小差异可能是一个被忽略的变量,从而搞乱了出生季度工具变量的识别策略。只要年龄的影响是相当平滑的,季度年龄的二次项模型就能把它们剔除出来。表4.1.1中的第7列和第8列说明了识别和估计之间的相互作用。(在传统的SEM理论中,如果我们能从简化形式中找出一个参数,那么它就被认为是可识别的。)要使2SLS流程得以运转,在第一阶段拟合值中就必须有一些变异性,这些变异性是包含在模型的外生协变量为条件的。如果第一阶段拟合值是所包含协变量的一个线性组合,那么2SLS估计值根本就不会存在。在式(4.1.9)中,这由完全多重共线性表示(即 和 之间线性独立)。当协变量包括像年龄的二次项(它们与工具变量(出生季度)密切相联)时,这类含有年龄二次项作为控制变量的2SLS估计值是存在的,但它“留在”第一阶段拟合值上的可变性下降了。由于这种可变性是2SLS标准误差的主要决定因素,所以列8中的估计值明显不如列7中的精确,尽管它仍然接近相应的OLS估计值。对IV和2SLS术语所作的回顾
正如我们所看到的,内生变量是因变量或需要被工具化的自变量;在联立方程模型中,内生变量是通过求解随机线性方程组来确定的。将自变量视为内生变量是把它工具化,换句话说,就是在2SLS程序的第二阶段用拟合值替换它。在Angrist and Krueger(1991)的研究中,学校教育是独立的内生变量。外生变量包括未被工具化的外生协变量和工具变量本身。在联立方程模型中,外生变量在系统外部确定。在Angrist和Krueger(1991)的研究中,外生协变量是出生年份和出生州(地)的虚拟变量。我们视外生协变量为控制变量。2SLS的爱好者生活在一个贴满互斥标签的世界里:在任何涉及IV的实证研究中,要研究的随机变量要么是因变量,要么是独立内生变量,要么是工具变量,要么是外生协变量。有时我们将其简称为因变量和内生变量、工具和协变量(而把因变量在传统SEM中也是内生的事实给搪塞了过去)。4.1.2 瓦尔德估计量
最简单的IV估计量应该是使用一个虚拟工具变量来估计一个只有一个内生回归变量且没有协变量的模型。由于没有协变量,所以这个因果回归模型为:其中 和 可能是相关的。如果进一步简化,令 是一个虚拟变量,以 的概率等于1,那么我们可以很容易地证明: 也可有一个类似的公式。由此可以得到:得到这一结果的直接办法是利用(4.1.11)以及 这一事实,因此我们有:解这个关于 的方程可以得到(4.1.12)。对于具有测量误差回归元的双变量回归,方程(4.1.12)是著名的瓦尔德估计量(Wald estimator)的总体对应物。[7]在我们文中,瓦尔德公式为消除OVB的IV策略提供了一个引人注目的、明确的实施路径。引发IV因果效应估计的主要理由是,因变量和工具变量之间存在任何关系的唯一原因是工具变量对所关心的因果变量的效应。因此,在虚拟工具变量的情境中,用相应的第一阶段的均值差来除(或重新缩放(rescale))简化式的均值差,似乎是很自然的。Angrist和Krueger(1991)利用出生季度来估计学校教育的经济回报的研究表明,瓦尔德估计量是管用的。表4.1.2显示了使用1980年人口普查构建的瓦尔德估计值背后的那些信息。在一年的第一季度和第四季度出生的男性的收入差距是-0.0135,而受教育程度的相应差异为- 0.151。这两种差异的比例是对学校教育年经济价值的瓦尔德估计值。这个结果是0.089。毫不奇怪,这个估计值与表4.1.1中的2SLS估计值相差不大。我们预料,瓦尔德估计值和2SLS估计值相似的原因是,两者都是由相同的信息构建的,即都是根据不同出生季节的收入差异构建的。Angrist(1990)关于越战时期服役对退伍军人收入影响的研究也显示了瓦尔德估计量的作用。在20世纪60年代和70年代初,年轻的美国男性面临着被征召入伍的可能。对美国征兵政策公平性的担忧导致了1970年的征兵抽签制度,该制度被用来确定征兵的先后次序。因此,关于军人身份的一个值得看好的工具变量就是应征资格,因为这是由生日来抽签决定的。具体来说,从1970年到1972年,给19岁的青年群组中的每个出生日期随机分配随机序列号(RSNs)。抽签号码低于临界值的男性有资格应征入伍,而抽签号码高于临界值的男性则不能应征入伍。在实践中,许多符合征兵条件的男子仍然因为健康或其他原因而被免除兵役,而许多被免除兵役的男子却自愿参军。因此,军人身份并不完全由随机的应征资格决定,但应征资格提供了一个与军人身份高度相关的虚拟工具变量。表4.1.2 使用出生季度工具变量的学校教育回报的瓦尔德估计值
在那些有可能在1970年抽签中被选中的白人男性中,其应征资格显然与抽签后几年的较低收入有关。表4.1.3记录了这一点,它报告了随机应征资格状态对社会保障应纳税收入的影响。第一列显示的是平均年收入,以便比较。对于1950年出生的男性来说,应征资格对1971年的收入有显著的负面影响,当时这些男性大多刚刚开始服兵役,也许更令人惊讶的负面影响来自所给出的在十年后的1981年的比较。相比之下,没有证据表明在1969年的应征资格和收入之间存在关联。1969年是对1950年出生的男性进行抽签,但在1950年出生的人尚未真正应征的年份。注:摘自Angrist和Imbens(1995)。该样本包括1980年5%人口普查数据中1930-39年出生群组中收入为正的本地出生男性。样本量为162,515。
表4.1.3服兵役对1950年出生的白人男性收入影响的瓦尔德估计值
因为应征资格是随机分配的,所以第二列的估计值代表了应征资格对收入的因果效应的说法似乎是没有争议的。从应征资格效应到军人身份效应所需的信息是瓦尔德估计量的分母,也即应征资格对在军队服役概率的影响。表4.1.3第4列报告了这一信息,其显示了符合应征资格的男性在越战时期服役的可能性要高出近16个百分点。第四列给出了1981年服役对收入影响的瓦尔德估计值,约占平均值的15%。1971年的效应更大(按百分比计算),当时受影响的士兵仍在军队中服役。瓦尔德/IV估计量的一个重要特征是,这些识别假设很容易评估和解释。“”表示军人身份,“”表示有无应征资格。证明我们对瓦尔德估计量解释为体现 的因果效应的基本主张是, 随 变化而变化的唯一原因是 的变化。对这一点的一个简单检查是寻找 和个人特征之间的关联,而这些特征不应该受到 的影响,例如种族、性别或任何其他在 被确定之前就已经确定的特征。另一个有用的检查是在没有 和 之间关系的样本中寻找工具变量和结果之间的联系。如果应征资格对收入影响的唯一原因是军人身份,那么在应征资格与军人身份无关的样本中,应征资格对收入的影响应该为零。这一观点在Angrist(1990)通过观察1969年的收入(在表4.1.3的最后一行重复的一项估计值)对抽签结果的研究中得到了阐述。令人欣慰的是,应征资格对1969年收入的影响是零,因为1969年的收入早于1970年的应征抽签。这个观点的第二个检验变式研究了1953年出生的男性群体。虽然在1972年2月的抽签中,1953年出生的人被分配了RSNs,但1953年出生的人实际上并没有被征召(征召正式结束于1973年7月)。因此,1953年出生的男性(使用1952年的95分抽签临界值)应征资格和军人身份之间的第一阶段关系显示,根据应征资格身份服役的概率很小。对于1953年出生的男性来说,收入和应征资格之间也没有显著的关系,这一结果支持了服兵役是应征资格效应唯一原因的主张。我们用一组关于家庭规模对母亲就业和工作的影响的IV估计值来结束对瓦尔德估计量的讨论。像对学校教育和服兵役研究一样,这些估计值在本书的其他地方也会用作阐释说明。生育和劳动力供应之间的关系一直是劳动经济学家感兴趣的问题,在这个问题中出现遗漏变量偏差的情况是很明显的:劳动力弱参与或收入潜力低的母亲可能比劳动力强参与或收入潜力高的母亲更有可能生孩子。这使得所观察到的家庭规模和就业之间的关联难以解释,因为有着大家庭的母亲相当可能工作得更少。Angrist和Evans(1998)使用两个工具变量解决了这个遗漏变量的问题,这两个工具变量都借助了瓦尔德型估计策略。第一个瓦尔德估计量使用的是多胎生育,这是一种由Rosenzweig和Wolpin(1980)首创的家庭规模效应的识别策略。Angrist和Evans(1998)的双胞胎工具变量是多胎生育的一个虚拟变量,样本中的母亲都至少有两个孩子。双胞胎工具变量回归中第一阶段的估计值是0.625,表4.1.4第3列报告这个估计值。这意味着,有两个或两个以上孩子的母亲中,37.5%无论如何都会生第三胎;多胎生育会使这一比例增加到1。双胞胎工具变量乃是基于这样一种观点,即多胞胎的发生基本上是随机的,与潜在的结果或家庭背景无关。表4.1.4中的第二个瓦尔德估计量使用了兄弟姐妹性别构成,使用这一工具变量的动机是,已有两个孩子的美国父母,如果两个孩子是同性别而不是异性别,则更有可能有第三个孩子。这在表4.1.4的第5列中得到了说明,该列显示,有同性兄弟姐妹的父母生第三胎的可能性要高出6.7个百分点(有异性兄弟姐妹的父母生第三胎的可能性是0.38)。同性别工具变量的依据是,兄弟姐妹的性别构成基本上是随机的,仅通过增加生育率来影响家庭劳动力供应。双胞胎和性别构成工具变量都表明,第三个孩子的出生对就业率、工作周数和工作小时数有很大影响。使用双胞胎工具变量给出的瓦尔德估计值更为精确地估计出就业人数减少了约0.08人,而每周工作时间减少了3.8周,每周工作时间减少了3.4小时。这些结果在表4.1.4第4列给出,其绝对值比第2列报告的相应OLS估计值要小。这表明后者被选择性偏误夸大了。有趣的是,第6列报道的用同性别虚拟工具变量构建的沃尔德估计值比双胞胎工具变量那里的估计值要大(例如,就业减少了0.135)。表4.1.4中双胞胎和性别构成工具变量表明,即使两者都有效,不同的工具变量也不一定会产生类似的因果效应估计值。我们将在第4.4节详细讨论这一重要问题。不过,现在我们还是坚持使用常数因果效应框架。注:改编自Angrist(1990)中的表2和3。标准误差显示在括号中。收入数据来自社会保障官方记录。这些数字是以名义美元计算的。军人身份数据来自收入和项目参与的调查。样本大约有13500人。
表4.1.4家庭规模对劳动力供应影响的瓦尔德估计值
注:该表报告了使用双胞胎和性别构成工具变量对家庭生育第三胎的影响,以及由此产生的对劳动力供应效应的OLS和瓦尔德估计值。数据来自Angris和Evans(1998),包括1980年人口普查中年龄在21-35岁、至少有两个孩子的已婚妇女。OLS模型包括对母亲年龄的控制变量,生第一胎时年龄的控制变量,第一胎和第二胎性别的虚拟变量,以及种族虚拟变量。第一阶段对所有因变量都是一样的。
4.1.3 分组数据与2SLS
瓦尔德估计量可谓所有IV估计量之母,因为更复杂的2SLS估计量通常可以从瓦尔德估计量的基础集合中构建出来。瓦尔德和2SLS之间的联系是分组数据:使用虚拟工具变量的2SLS等同于基于一系列分组均值的GLS。换句话说,GLS可以理解为所有瓦尔德估计量的线性组合,这些瓦尔德估计量可以由均值组(pairs of means)构造而成。这种联系的普遍性似乎受到一种假设的限制,即所用的工具变量须是虚拟变量。并不是所有的工具变量都是虚拟变量,甚或是离散变量,但这实际上并不重要。首先,许多工具变量可以被认为是在定义类别,例如出生季度。此外,看起来更连续的工具变量(如抽签号,从1到365)通常可以被分成不同的组,也不会损失太多信息(例如,应征资格身份可以是一个单一的虚拟变量,也可以是25个抽签号为一组的虚拟变量)。[8]为了更全面地解释瓦尔德-分组-2SLS之间的联系,我们还是深耕抽签决定应征资格的那个研究。前面我们提到,应征资格是判断军人身份的一个值得关注的工具变量。1950年出生的男性应征资格上限为RSN 195,1951年出生的男性应征资格上限为RSN 125,1952年出生的男性应征资格上限为RSN 95。然而,实际上,抽签号(我们称之为 ,即RSN的缩写)和军人身份()之间的联系比应征资格身份本身更丰富多样。虽然抽签值超过资格上限的男性并未征召,但上限是多少事先是未知的。因此,有些人自愿参军,以期在更好的条件下服役,并获得对服役时间的一些控制权。对于抽签号码较低的男性来说,因自愿应召的驱动力很大,但对于抽签号码较高的男性来说,这种驱动力是很小的。因此,即使值严格高于或低于征召资格临界点, 也会有所变化。例如,1950年出生、抽签号码为200-225的男性比抽签号码为226-250的男性更有可能参军,尽管最终两组都没有人受到征召。瓦尔德估计量将征召资格作为1950年出生男性的一个工具变量,对 的男性的收入与 的男性的收入进行比较。但是前面的讨论表明了更多可能的比较,例如 的男性与 的男性相比, 的男性与 的男性相比,等等,直到这些25个数字的间隔被比较结束。我们也可以让间隔更细一些,比如说,用5或个位数的间隔来比较男性,而不是25个数的间隔。这种扩大比较的结果是得到一组瓦尔德估计量。这些集合是完全的,因为这些间隔划分了基础工具变量的支撑集合,而单个瓦尔德估计量之间是线性独立的,因为它们的分子是线性独立的。最后,只要 独立于潜在结果,并与军人身份相关(即瓦尔德估计量的分母不为零),那么,这些瓦尔德估计量中的每一个都一致地估计了相同的因果效应,这里假设它为常数。为相同的因果效应构建多个瓦尔德估计量的可能性,自然会引发如何处理所有这些估计量的问题。我们会想要给出一个单一的估计值,从而以某种方式有效地结合各个瓦尔德估计值中的信息。事实证明,一组线性无关的瓦尔德估计值的最有效的线性组合,是通过构建这些估计值的组平均值拟合一条直线产生的。分组数据估计量可以被直接引出如下。一如(4.1.11)中那样,我们使用二元常量因果效应模型,在这种情况下可以写成:其中 为我们感兴趣的因果效应,。由于 是随机分配的,而且假定抽签号除了通过军人身份之外对收入的影响别无它途,因此 。进一步可以推断:这是因为,。换句话说,将给定抽签号码时的平均收入与按抽签号码服兵役的平均概率联系起来的直线的斜率,等于服兵役所产生的影响 。而 对 的回归结果——在这种情况下,军人身份的对收入平均值的差异——几乎肯定异于 的事实,乃是因为 和 很可能相关所致。公式(4.1.15)表明,我们通过拟合 和 的样本对应物为一条直线来估计 。假设 的值为 。原则上, 可能从1取到365,但在Angrist(1990)中,抽签号码信息被聚合到69个5个数字的间隔中,加上数字间隔346-365一共70个间隔。因此,我们可以认为 从1到70。令 和 表示 和 的估计值,而 表示(4.1.14)中的平均误差。由于样本矩收敛于总体矩,因此可以得出分组方程中 的OLS估计值是一致的。然而,在实践中,广义最小二乘(GLS)可能是更可取的,因为分组方程具有已知方差结构的异方差性。对于常量因果效应线性模型中的分组数据,有效的GLS估计量是通过权重为 的方差的WLS估计而得(例如,可参见:Prais和Aitchison, 1954;或Wooldridge, 2006)。假设微观数据残差具有方差为 的同方差性,则这个方差权重为 ,其中 为组的大小。因此,我们应该按组大小来衡量权重,这在3.4.1节的各部分中讨论过。方程(4.1.16)中的 的GLS(或WLS)估计量特别重要,原因有二。首先,由 组观测值构造的GLS斜率估计值是任意 个线性无关瓦尔德估计量的全集的渐近有效线性组合(Angrist, 1991)。这一点不需要任何数学运算就可以看出:GLS和瓦尔德估计量的任何线性组合都是分组因变量的线性组合。此外,对于分组数据,GLS是渐近有效的线性估计量。因此,我们可以得出结论,没有比GLS更好的(即更渐近有效的)瓦尔德估计量的线性组合(同样,这里也需要假设 是常数)。由线性无关瓦尔德估计量的全集构造出GLS估计量的公式,可见于Angrist(1988)。其次,正如每个瓦尔德估计量也是一个IV估计量一样,方程(4.1.16)的GLS估计量也是2SLS的。在这种情况下,工具变量是标示每个抽签号码组别的虚拟变量的全集。要了解何以如此,我们来定义一组虚拟工具变量 ,其中 表示用于构造虚拟变量的指示函数。现在考虑 对 加一个常数的第一阶段回归。由于这第一阶段是饱和回归,拟合值应该是样本条件均值 ,对每个 重复 次。因此,第二阶段斜率估计值与分组方程(4.1.16)的WLS估计(其权重由组别大小 给出)所得的斜率相同。分组数据和2SLS之间的联系,在概念和实践上都具有重要意义。在概念上,任何使用一组虚拟工具变量的2SLS估计量都可以理解为使用这些工具变量产生的所有瓦尔德估计量的一个线性组合。瓦尔德估计量进而提供了一个简单的框架,可以在本章后面的章节中用来解释更现实的异质潜在结果世界中的IV估计值。虽然不是所有的工具变量本质上都是离散的,从而可以立即进行瓦尔德或分组数据解释,但很多工具变量都可以这样做。其中的例子包括征兵抽签号、出生季度、双胞胎,以及兄弟姐妹性别构成这些工具变量,这些我们已经讨论过。(也可以参见Bennedsen等人(2007年)和Ananat与Michaels(2008年)的最新研究,这两项研究都使用第一胎是否男孩作为虚拟变量的工具变量。)此外,具有连续意味的工具变量通常相当多都可以转化为离散变量。例如,Angrist、Graddy和Imbens(2000)将基于天气的连续工具变量重新编码为三个虚拟变量(暴风雨天气、晴朗天气和时阴时晴),然后他们用这些变量来估计对鱼类的需求。将这个虚拟变量的参数化,似乎可以捕捉天气条件和鱼类价格之间关系的主要特征。[9]在实践方面,2SLS的分组数据等价关系为我们提供了一个简单的工具,可以用来解释和评估任何IV策略。例如,在应征抽签的那种情况下,分组模型体现了这样一个假设:平均收入随抽签号码的变化而变化的唯一原因是不同抽签号码组服兵役的概率的变化。如果潜在的因果关系是线性的,且是常量因果效应,那么方程(4.1.16)应能很好地拟合组平均值,这是我们可以通过检验来评估的,在下一节,我们还会讨论如何使用正式的统计推断机制来加以评估。有时劳动经济学家将离散工具变量的分组数据图,称为可视化工具变量(VIV)。[10]Angrist(1990)就有这样一个例子,如图4.1.2所重制。这张图显示了出生在1950-53年的白人男性1981-1984年收入中,5个RSN数为间隔的组别平均收入与这些组别中服兵役的概率之间的关系。通过这些点的直线斜率是对因服兵役而造成的收入损失的IV估计值,在此例中约为2400美元,与之前讨论的瓦尔德估计值相差不大,但标准误差更低(在此例中约为800美元)。注释
[1] 近年来,统计学家越来越愿意在一个明确的因果框架中讨论观测数据的统计模型;例如,参见Freedman(2005)的评论。
[2] 这里的重要历史参考文献是Wald(1940)和Durbin(1954),这两篇文章都在本章后面进行了讨论。
[3] 参见Angrist和Krueger(2001)对IV的历史和使用的简要阐述,Stock和Trebbi(2003)对IV诞生的详细描述,以及Morgan(1990)对计量经济学思想的扩展性历史的讨论,其中就包括了对联立方程模型的讨论。
[4] 其他的解释也是可能的,最有可能的是与出生季节相关的某种家庭背景效应(见Bound, Jaeger和Baker, 1995)。与忽略家庭背景影响的可能性进行权衡的事实是,在受义务教育法影响最大的教育水平上,在平均受教育水平上出生季度模式最为明显。
[5] 注意 ,其中 是 对 的回归的残差,因此2SLS估计量是 的样本对应物。 分子的样本对应物是 的简化形式(4.1.4b)的OLS估计值,而 是(4.1.4a)中第一阶段效应 的OLS估计值。因此,一元工具变量的2SLS是ILS,即工具变量的简化形式效应与对应的第一阶段效应之比,其中第一阶段方程和简化形式方程都包含协变量。
[6] 这种估计精度上的提高可能是得不偿失的,因为过多地使用工具变量会提高估计偏误的可能性,这一点我们在4.6.4节详细讨论。
[7] 正如在本章的引言部分中所指出的,回归量中的测量误差倾向于使回归系数趋近于零。为了消除这种偏差,Wald(1940)建议以一种独立于测量误差的方式划分数据,并将感兴趣的系数估计为平均值差异的比率,如(4.1.12)。Durbin(1954)表明瓦尔德的拟合直线的方法是一个IV估计量,其中的工具变量是一个标记瓦尔德对数据划分的虚拟变量。Hausman(2001)给出了一个处理测量误差的计量经济学策略的概述。
[8] 一个例外是经典的测量误差模型,其中要工具化的变量和工具变量都假定是连续的。在这里,我们想到了涉及OVB的那些IV场景。
[9] 被编码为虚拟变量的连续工具变量可以被视为为潜在的第一阶段关系 提供了一个精简的非参数模型。在常系数同方差模型中, 是渐近有效工具变量(Newey, 1990)。
[10] 例如,参见Borjas(2005)的序言。
本专栏主理人简介
企研数据学术顾问 · 李井奎
李井奎,1978年1月生,浙江工商大学经济学院教授、博士生导师,哈佛大学访问学者,以教书育人和传播学问为己任,曾获浙江省“高校优秀教师”称号。除学术论文写作之外,还著有《大侦探经济学:现代经济学的因果推断革命》等科普著作。
星标⭐我们不迷路!想要文章及时到,文末“在看”少不了!
点击搜索你感兴趣的内容吧
往期推荐
数据Seminar
这里是大数据、分析技术与学术研究的三叉路口
文 | 《基本无害的计量经济学——实证研究者指南(重译本)》
翻译 | 李井奎
校对 | 陈泽 王锐
排版 | 彭绮荣
欢迎扫描👇二维码添加关注