本公众号已较为系统地介绍了工具变量法,包括2SLS、GMM、弱工具变量、工具变量外生性检验等。但初学者常常不理解,为何在2SLS的第一阶段回归中,应包括所有的外生解释变量。本推文从两个层次对此进行补充说明。首先,可以这么做;其次,应该这么做。
考虑简单的二元线性回归模型:
其中, 为被解释变量, 为内生解释变量(与扰动项 相关),而 为外生解释变量(与扰动项 不相关)。进一步,假设变量 为工具变量(Instrumental Variable,简记IV),满足 “相关性”( 与内生变量 相关)与外生性( 与扰动项 不相关)。此时,不难看出,外生解释变量 也可以作为自身的工具变量。首先, 与 是完全相关的(相关系数为1),故满足相关性(relevance)。其次,既然 为外生解释变量,则根据定义, 与扰动项 不相关,故也满足外生性(exogeneity)。因此, 为有效(valid)工具变量,可以将 放入 2SLS 的第一阶段回归中:记此第一阶段回归的拟合值(fitted value)为:其中, 为第一阶段回归的残差(residual)。2SLS 之所以为一致估计,本质上是因为在上式的第二阶段回归中,解释变量 与 均与新扰动项 不相关。
首先,根据定义,外生变量 与 不相关;而 作为第一阶段回归的拟合值,是工具变量 与外生变量 的线性函数,故也与 不相关。其次,根据 OLS 的正交性,第一阶段回归的残差 与第一阶段回归的解释变量 与 均不相关,故 与 都与 不相关。反之,如果不把 放入第一阶段回归,则无法保证第一阶段回归的残差 与 不相关。而另一方面,作为原模型的一个解释变量, 依然出现在第二阶段回归中,此时就无法保证 与 不相关,故导致 2SLS 不一致。总之,为了保证 2SLS 的一致性,必须把原方程中所有的外生解释变量都放入第一阶段回归。在计量经济学发展的早期,研究者还不太注意避免上述陷阱。比如,Griliches and Mason (1972) 在使用 2SLS 估计教育投资回报率时,就犯了类似的错误,未将所有外生解释变量放入第一阶段回归(比如,遗漏了外生变量年龄 age)。Cardell and Hopkins (1977) 在对该文的评论中,指出了这个错误,并得到了与Griliches and Mason (1972) 很不相同的估计结果。从此,将所有外生解释变量均放入 2SLS 的第一阶段回归,成为计量经济学的共识。
___________________________
Angrist, Joshua D. and Jorn-Steffen Pischke, 2009. Mostly Harmless Econometrics. Princeton University Press, Princeton, New Jersey. Cardell, Nicholas S. and Mark M. Hopkins, 1977. "Education, Income, and Ability: A Comment," Journal of Political Economy, 85, 211-15.Griliches, Zvi, and William M. Mason, 1972. "Education, Income, and Ability," Journal of Political Economy, 80, S74-103. 陈强,《高级计量经济学及Stata应用》,第2版,高等教育出版社,2014年。陈强,《计量经济学及Stata应用》,高等教育出版社,2015年。
►一周热文
数据呈现丨R画树状图:一种轻量级方法
因果推断丨中国学者用双重差分做了哪些工作?
数据呈现丨R语言相关关系可视化函数梳理
数据呈现丨R语言可视化学习笔记之gganimate包
统计计量丨工具变量法(四):GMM
软件应用丨经济学专业学习Python之数据存储篇
软件应用丨38个常用Python库:数值计算、可视化、机器学习等8大领域都有了
这里是大数据、分析技术与学术研究的三叉路口
作者:陈强出处:计量经济学及Stata应用推荐:杨奇明编辑:青酱