基本无害 | 管用的工具变量——工具变量和因果关系(一)
基本无害的计量经济学
——实证研究者指南
(重译本)
第四章 使管用的工具变量:有时你就是可以得你所需第一节 工具变量和因果关系
正文共3951个字,预计阅读时间10分钟。感谢阅读!
原文:4.1.1
温馨提示:左右滑动可查看完整公式!
4.1 工具变量和因果关系
4.1.1 两阶段最小二乘
我们将第一阶段方程(4.1.4a)代入感兴趣的因果关系(4.1.6),可得到简化方程(4.1.4b),在联立方程语言中也称为“结构方程”。我们有:
其中在方程(4.1.4b)中有 和 。公式(4.1.7)再次说明了为什么 的原因。还要注意的是,对(4.1.7)稍加重整即可给出:其中 为 对 和 的第一阶段回归的总体拟合值。这是因为 和 与简化形式误差 ( 对 的总体回归中 的回归系数)不相关,而且 等于 。当然,在实践中,我们几乎总是使用来自样本的数据。给定一个随机样本,第一阶段拟合值的一致性估计由下式给出:
其中 和 为方程(4.1.4a)的OLS估计值。在 对 和 的回归中, 的系数 被称为两阶段最小二乘(2SLS)估计值。也就是说,2SLS估计值可以通过下面这个“第二阶段方程”的OLS估计来构建:之所以被称为2SLS,是因为它可以分两步完成,第一步使用方程(4.1.4a)估计 ,第二步使用方程(4.1.9)来估计。由于协变量和第一阶段拟合值与 和 都不相关,由此得到的 的估计量是一致性估计。2SLS名虽“两步”,但我们通常不会用两步来构建2SLS估计值。首因是产生的标准误差是错误的,这一点我们稍后会讨论。通常,我们让专门的软件程序(如SAS或Stata中可用的)为我们进行计算。这可以得到正确的标准误差,并有助于避免犯其他错误(参见4.6.1节)。只不过,2SLS估计量可以通过一系列OLS回归来计算,这一事实仍不失为是记住2SLS为什么有效的一种方法。直观上,在协变量的条件下,2SLS只保留了准实验变化所产生的 变化,即工具变量 产生的 变化。2SLS是一个非常棒的工具。其一,它是一个IV估计量:(4.1.9)中 的2SLS估计值是 的样本对应物,其中 是 对 回归的残差。这源于多元回归解析式(3.1.3)和 这一事实。也很容易证明,在一个单内生变量和单工具变量的模型中,2SLS估计量与相应的ILS估计量是相同的。[1]在多工具变量(multi-instrument)的情况下,2SLS和IV之间的联系需要进一步阐述。假设每个工具变量捕捉到了相同的因果效应(这是一个强有力的假设,我们下面会放松它),我们可能想要把这些备选IV的估计值合并成一个更精确的估计值。在多工具变量模型中,2SLS通过将多个工具变量合并成一个工具变量来实现这一点。例如,假设我们有三个工具变量,, 和 。在Angrist和Krueger(1991)的应用中,这些是第一季度、第二季度和第三季度出生与否的虚拟变量。那么,第一阶段方程就变成:2SLS第二阶段与(4.1.9)相同,只是拟合值由(4.1.4a)改为(4.1.10a)。这个2SLS估计量的IV解释与之前一样:工具变量是第一阶段拟合值对外生协变量回归的残差。这种情况下的排除性约束要求,(4.1.10a)中的出生季度虚拟变量与公式(4.1.6)中的 不相关。表4.1.1显示了使用出生季度虚拟变量作为工具变量对接受学校教育的经济回报进行2SLS估计的结果,该表报告了与Angrist和Krueger(1991)估计的模型相似的OLS和2SLS估计值。表中的每一列都包含了由(4.1.6)这样的方程估计的 的OLS和2SLS估计值,只是使用了不同的工具变量和控制变量组合。列1中的OLS估计值来自无控制变量的对数工资回归,而列2中的OLS估计值来自添加了出生年份和出生地所在州的虚拟变量作为控制变量的模型。在这两种情况下,估计出来的学校教育回报率都在0.075左右。第3列和第4列报告的第一对IV估计值来自没有外生协变量的模型。用于构建第3列估计的工具变量是第一季度出生的单个虚拟变量,而用于构建第4列估计的工具变量是表示第一、第二和第三季度出生的三个虚拟变量。这些估计值的范围从0.10到0.11。包括出生年份和出生所在州虚拟变量作为外生协变量(在第5和第6列中报告)的模型的结果是相似的,这并不奇怪,因为出生季度与这些控制变量都没有密切联系。总的来说,2SLS估计值大多比相应的OLS估计值要大一些。这表明,所观察到的受教育程度和收入之间的关联并非由能力和家庭背景等被忽略的变量所驱动。表4.1.1学校教育经济回报的2SLS估计值
注:该表使用Angrist和Krueger(1991) 1980年人口普查样本报告了OLS和2SLS对学校教育回报的估计值。该样本包括出生于1930-1939年的本地男性,包含正的收入变量以及关键变量的未分配值(nonallocated values)。样本容量为329509。稳健的标准误差报告在括号中。QOB表示出生季度。
表4.1.1第7列为工具变量列表中添加交互项的结果。特别地,该回归设定增加了3个出生季度的虚拟变量与9个出生年份的虚拟变量的交互项(样本包括1930-1939年出生的组),不含其他变量总共30个工具变量。第一阶段方程变成下式:
其中 是一个虚拟变量,如果个体 出生在 年, 属于1931-1939年这些年份,那么该虚拟变量等于1。 是相应的季度和年度的交互项系数。添加这些交互项的理由是可以提高第一阶段的 ,来提高精度, 的上升是因为在不同的样本组中受教育的出生季度方式是不同的。在本例中,将交互项添加到了工具变量列表中可以适度提高精度;当我们从第6列相比第7列时,[2] 标准误差从0.019下降到0.016(图4.1.1中绘制的第一阶段和简化形式效应来自这个完全交互的回归设定)。表4.1.1报告的最后一个2SLS模型在外生协变量列表中添加了年龄的线性和二次项的控制变量。也就是说,1930年第1季度出生的人在人口普查日(1980年4月1日)被记录为50岁,而第4季度出生的人被记录为49.25岁。这个精心编码的年龄变量提供了一个部分受控的事实,即年龄的微小差异可能是一个被忽略的变量,从而搞乱了出生季度工具变量的识别策略。只要年龄的影响是相当平滑的,季度年龄的二次项模型就能把它们剔除出来。表4.1.1中的第7列和第8列说明了识别和估计之间的相互作用。(在传统的SEM理论中,如果我们能从简化形式中找出一个参数,那么它就被认为是可识别的。)要使2SLS流程得以运转,在第一阶段拟合值中就必须有一些变异性,这些变异性是包含在模型的外生协变量为条件的。如果第一阶段拟合值是所包含协变量的一个线性组合,那么2SLS估计值根本就不会存在。在式(4.1.9)中,这由完全多重共线性表示(即 和 之间线性独立)。当协变量包括像年龄的二次项(它们与工具变量(出生季度)密切相联)时,这类含有年龄二次项作为控制变量的2SLS估计值是存在的,但它“留在”第一阶段拟合值上的可变性下降了。由于这种可变性是2SLS标准误差的主要决定因素,所以列8中的估计值明显不如列7中的精确,尽管它仍然接近相应的OLS估计值。对IV和2SLS术语所作的回顾
正如我们所看到的,内生变量是因变量或需要被工具化的自变量;在联立方程模型中,内生变量是通过求解随机线性方程组来确定的。将自变量视为内生变量是把它工具化,换句话说,就是在2SLS程序的第二阶段用拟合值替换它。在Angrist and Krueger(1991)的研究中,学校教育是独立的内生变量。外生变量包括未被工具化的外生协变量和工具变量本身。在联立方程模型中,外生变量在系统外部确定。在Angrist和Krueger(1991)的研究中,外生协变量是出生年份和出生州(地)的虚拟变量。我们视外生协变量为控制变量。2SLS的爱好者生活在一个贴满互斥标签的世界里:在任何涉及IV的实证研究中,要研究的随机变量要么是因变量,要么是独立内生变量,要么是工具变量,要么是外生协变量。有时我们将其简称为因变量和内生变量、工具和协变量(而把因变量在传统SEM中也是内生的事实给搪塞了过去)。注释
[1]注意 ,其中 是 对 的回归的残差,因此2SLS估计量是 的样本对应物。 分子的样本对应物是 的简化形式(4.1.4b)的OLS估计值,而 是(4.1.4a)中第一阶段效应 的OLS估计值。因此,一元工具变量的2SLS是ILS,即工具变量的简化形式效应与对应的第一阶段效应之比,其中第一阶段方程和简化形式方程都包含协变量。
[2]这种估计精度上的提高可能是得不偿失的,因为过多地使用工具变量会提高估计偏误的可能性,这一点我们在4.6.4节详细讨论。
本专栏主理人简介
企研数据学术顾问 · 李井奎
李井奎,1978年1月生,浙江工商大学经济学院教授、博士生导师,哈佛大学访问学者,以教书育人和传播学问为己任,曾获浙江省“高校优秀教师”称号。除学术论文写作之外,还著有《大侦探经济学:现代经济学的因果推断革命》等科普著作。
星标⭐我们不迷路!想要文章及时到,文末“在看”少不了!
点击搜索你感兴趣的内容吧
往期推荐
数据Seminar
这里是大数据、分析技术与学术研究的三叉路口
文 | 《基本无害的计量经济学——实证研究者指南(重译本)》
翻译 | 李井奎
校对 | 陈泽 王锐
排版 | 彭绮荣
欢迎扫描👇二维码添加关注