查看原文
其他

基本无害 | 管用的工具变量——工具变量和因果关系(二)

基本无害的 数据Seminar 2022-12-31

基本无害的计量经济学

——实证研究者指南

(重译本)

李井奎 译


第四章 管用的工具变量:有时候你就是可以得你所需
第一节 工具变量和因果关系



正文共4428个字,预计阅读时间12分钟。感谢阅读!

原文:4.1.2

温馨提示:左右滑动可查看完整公式!



前文回顾:4.1.1 两阶段最小二乘

4.1.2 瓦尔德估计量

最简单的IV估计量应该是使用一个虚拟工具变量来估计一个只有一个内生回归变量且没有协变量的模型。由于没有协变量,所以这个因果回归模型为:

其中 可能是相关的。如果进一步简化,令 是一个虚拟变量,以 的概率等于1,那么我们可以很容易地证明:
也可有一个类似的公式。由此可以得到:
得到这一结果的直接办法是利用(4.1.11)以及 这一事实,因此我们有:
解这个关于 的方程可以得到(4.1.12)。对于具有测量误差回归元的双变量回归,方程(4.1.12)是著名的瓦尔德估计量(Wald estimator)的总体对应物。[1] 在我们文中,瓦尔德公式为消除OVB的IV策略提供了一个引人注目的、明确的实施路径。引发IV因果效应估计的主要理由是,因变量和工具变量之间存在任何关系的唯一原因是工具变量对所关心的因果变量的效应。因此,在虚拟工具变量的情境中,用相应的第一阶段的均值差来除(或重新缩放(rescale))简化式的均值差,似乎是很自然的。Angrist和Krueger(1991)利用出生季度来估计学校教育的经济回报的研究表明,瓦尔德估计量是管用的。表4.1.2显示了使用1980年人口普查构建的瓦尔德估计值背后的那些信息。在一年的第一季度和第四季度出生的男性的收入差距是-0.0135,而受教育程度的相应差异为- 0.151。这两种差异的比例是对学校教育年经济价值的瓦尔德估计值。这个结果是0.089。毫不奇怪,这个估计值与表4.1.1中的2SLS估计值相差不大。我们预料,瓦尔德估计值和2SLS估计值相似的原因是,两者都是由相同的信息构建的,即都是根据不同出生季节的收入差异构建的。Angrist(1990)关于越战时期服役对退伍军人收入影响的研究也显示了瓦尔德估计量的作用。在20世纪60年代和70年代初,年轻的美国男性面临着被征召入伍的可能。对美国征兵政策公平性的担忧导致了1970年的征兵抽签制度,该制度被用来确定征兵的先后次序。因此,关于军人身份的一个值得看好的工具变量就是应征资格,因为这是由生日来抽签决定的。具体来说,从1970年到1972年,给19岁的青年群组中的每个出生日期随机分配随机序列号(RSNs)。抽签号码低于临界值的男性有资格应征入伍,而抽签号码高于临界值的男性则不能应征入伍。在实践中,许多符合征兵条件的男子仍然因为健康或其他原因而被免除兵役,而许多被免除兵役的男子却自愿参军。因此,军人身份并不完全由随机的应征资格决定,但应征资格提供了一个与军人身份高度相关的虚拟工具变量。

表4.1.2  使用出生季度工具变量的学校教育回报的瓦尔德估计值

注:摘自Angrist和Imbens(1995)。该样本包括1980年5%人口普查数据中1930-39年出生群组中收入为正的本地出生男性。样本量为162,515。

在那些有可能在1970年抽签中被选中的白人男性中,其应征资格显然与抽签后几年的较低收入有关。表4.1.3记录了这一点,它报告了随机应征资格状态对社会保障应纳税收入的影响。第一列显示的是平均年收入,以便比较。对于1950年出生的男性来说,应征资格对1971年的收入有显著的负面影响,当时这些男性大多刚刚开始服兵役,也许更令人惊讶的负面影响来自所给出的在十年后的1981年的比较。相比之下,没有证据表明在1969年的应征资格和收入之间存在关联。1969年是对1950年出生的男性进行抽签,但在1950年出生的人尚未真正应征的年份。

表4.1.3  服兵役对1950年出生的白人男性收入影响的瓦尔德估计值

注:改编自Angrist(1990)中的表2和3。标准误差显示在括号中。收入数据来自社会保障官方记录。这些数字是以名义美元计算的。军人身份数据来自收入和项目参与的调查。样本大约有13500人。

因为应征资格是随机分配的,所以第二列的估计值代表了应征资格对收入的因果效应的说法似乎是没有争议的。从应征资格效应到军人身份效应所需的信息是瓦尔德估计量的分母,也即应征资格对在军队服役概率的影响。表4.1.3第4列报告了这一信息,其显示了符合应征资格的男性在越战时期服役的可能性要高出近16个百分点。第四列给出了1981年服役对收入影响的瓦尔德估计值,约占平均值的15%。1971年的效应更大(按百分比计算),当时受影响的士兵仍在军队中服役。瓦尔德/IV估计量的一个重要特征是,这些识别假设很容易评估和解释。“”表示军人身份,“”表示有无应征资格。证明我们对瓦尔德估计量解释为体现 的因果效应的基本主张是, 变化而变化的唯一原因是 的变化。对这一点的一个简单检查是寻找 和个人特征之间的关联,而这些特征不应该受到 的影响,例如种族、性别或任何其他在 被确定之前就已经确定的特征。另一个有用的检查是在没有 之间关系的样本中寻找工具变量和结果之间的联系。如果应征资格对收入影响的唯一原因是军人身份,那么在应征资格与军人身份无关的样本中,应征资格对收入的影响应该为零。这一观点在Angrist(1990)通过观察1969年的收入(在表4.1.3的最后一行重复的一项估计值)对抽签结果的研究中得到了阐述。令人欣慰的是,应征资格对1969年收入的影响是零,因为1969年的收入早于1970年的应征抽签。这个观点的第二个检验变式研究了1953年出生的男性群体。虽然在1972年2月的抽签中,1953年出生的人被分配了RSNs,但1953年出生的人实际上并没有被征召(征召正式结束于1973年7月)。因此,1953年出生的男性(使用1952年的95分抽签临界值)应征资格和军人身份之间的第一阶段关系显示,根据应征资格身份服役的概率很小。对于1953年出生的男性来说,收入和应征资格之间也没有显著的关系,这一结果支持了服兵役是应征资格效应唯一原因的主张。我们用一组关于家庭规模对母亲就业和工作的影响的IV估计值来结束对瓦尔德估计量的讨论。像对学校教育和服兵役研究一样,这些估计值在本书的其他地方也会用作阐释说明。生育和劳动力供应之间的关系一直是劳动经济学家感兴趣的问题,在这个问题中出现遗漏变量偏差的情况是很明显的:劳动力弱参与或收入潜力低的母亲可能比劳动力强参与或收入潜力高的母亲更有可能生孩子。这使得所观察到的家庭规模和就业之间的关联难以解释,因为有着大家庭的母亲相当可能工作得更少。Angrist和Evans(1998)使用两个工具变量解决了这个遗漏变量的问题,这两个工具变量都借助了瓦尔德型估计策略。第一个瓦尔德估计量使用的是多胎生育,这是一种由Rosenzweig和Wolpin(1980)首创的家庭规模效应的识别策略。Angrist和Evans(1998)的双胞胎工具变量是多胎生育的一个虚拟变量,样本中的母亲都至少有两个孩子。双胞胎工具变量回归中第一阶段的估计值是0.625,表4.1.4第3列报告这个估计值。这意味着,有两个或两个以上孩子的母亲中,37.5%无论如何都会生第三胎;多胎生育会使这一比例增加到1。双胞胎工具变量乃是基于这样一种观点,即多胞胎的发生基本上是随机的,与潜在的结果或家庭背景无关。表4.1.4中的第二个瓦尔德估计量使用了兄弟姐妹性别构成,使用这一工具变量的动机是,已有两个孩子的美国父母,如果两个孩子是同性别而不是异性别,则更有可能有第三个孩子。这在表4.1.4的第5列中得到了说明,该列显示,有同性兄弟姐妹的父母生第三胎的可能性要高出6.7个百分点(有异性兄弟姐妹的父母生第三胎的可能性是0.38)。同性别工具变量的依据是,兄弟姐妹的性别构成基本上是随机的,仅通过增加生育率来影响家庭劳动力供应。双胞胎和性别构成工具变量都表明,第三个孩子的出生对就业率、工作周数和工作小时数有很大影响。使用双胞胎工具变量给出的瓦尔德估计值更为精确地估计出就业人数减少了约0.08人,而每周工作时间减少了3.8周,每周工作时间减少了3.4小时。这些结果在表4.1.4第4列给出,其绝对值比第2列报告的相应OLS估计值要小。这表明后者被选择性偏误夸大了。有趣的是,第6列报道的用同性别虚拟工具变量构建的沃尔德估计值比双胞胎工具变量那里的估计值要大(例如,就业减少了0.135)。表4.1.4中双胞胎和性别构成工具变量表明,即使两者都有效,不同的工具变量也不一定会产生类似的因果效应估计值。我们将在第4.4节详细讨论这一重要问题。不过,现在我们还是坚持使用常数因果效应框架。

表4.1.4  家庭规模对劳动力供应影响的瓦尔德估计值

注:该表报告了使用双胞胎和性别构成工具变量对家庭生育第三胎的影响,以及由此产生的对劳动力供应效应的OLS和瓦尔德估计值。数据来自Angris和Evans(1998),包括1980年人口普查中年龄在21-35岁、至少有两个孩子的已婚妇女。OLS模型包括对母亲年龄的控制变量,生第一胎时年龄的控制变量,第一胎和第二胎性别的虚拟变量,以及种族虚拟变量。第一阶段对所有因变量都是一样的。


注释

[1] 正如在本章的引言部分中所指出的,回归量中的测量误差倾向于使回归系数趋近于零。为了消除这种偏差,Wald(1940)建议以一种独立于测量误差的方式划分数据,并将感兴趣的系数估计为平均值差异的比率,如(4.1.12)。Durbin(1954)表明瓦尔德的拟合直线的方法是一个IV估计量,其中的工具变量是一个标记瓦尔德对数据划分的虚拟变量。Hausman(2001)给出了一个处理测量误差的计量经济学策略的概述。




本专栏主理人简介

企研数据学术顾问 · 李井奎


李井奎,1978年1月生,浙江工商大学经济学院教授、博士生导师,哈佛大学访问学者,以教书育人和传播学问为己任,曾获浙江省“高校优秀教师”称号。除学术论文写作之外,还著有《大侦探经济学:现代经济学的因果推断革命》等科普著作。




星标⭐我们不迷路!想要文章及时到,文末“在看”少不了!

点击搜索你感兴趣的内容吧

往期推荐


数据治理 | 科研团队协同工作新神器!Git远程仓库的使用

数据可视化 | 太酷了!用 Python 绘制3D地理分布图

基本无害 | 管用的工具变量——工具变量和因果关系(一)

基本无害 | 管用的工具变量——工具变量和因果关系

基本无害 | 使回归有意义 —— 附录:平均倒数加权函数的推导




数据Seminar




这里是大数据、分析技术与学术研究的三叉路口


文 | 《基本无害的计量经济学——实证研究者指南(重译本)》

翻译 | 李井奎

校对 | 陈泽 王锐

排版 | 彭绮荣


    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存