内生性简介
一文读懂内生性专题(上)
本文主要为大家汇总出内生性介绍以及计量经济学软件Eviews和 Stata的二阶段最小二乘法操作步骤,增进内生性问题处理。
1、内生性介绍
在面板数据分析,尤其是Arellano-Bond 估计方面作出了贡献。该方法利用面板数据中的时间模式来估计对政策或其他变量变化的经济响应,同时对永久性的未观察到的混淆变量进行控制。
一个典型的线性回归模型:y = β0 + β1x1 + βX + ε (1),这里y为被解释变量,x1为自变量,或者解释变量,也即“因”。大写的 X 为外生控制项向量( 也即一组假定为外生的其他控制变量,例如年龄、性别等等) ,ε则为误差项。如果ε与x1不相关,那么我们可以利用OLS 模型对方程进行无偏估计。
然而,如果一个重要变量x2被模型(1) 遗漏了,且x1和x2也相关,那么对β1的OLS 估计值就必然是有偏的。 此时,x1被称作“内生”的解释变量,这就是 “内生性”问题。遇到“内生性”问题肿木办?有一个方法就是找工具变量Z。
如果存在内生性,则称解释变量为 “内生变量”(endogenous variable);反之,则称为 “外生变量”(exogenous variable)。 内生性的严重后果是使得 OLS估计量不一致(inconsistent),即无论样本容量多大,OLS 估计量也不会收敛至真实的参数值 。
在计量经济学中,把所有与扰动项相关的解释变量都称为“内生变量”。这与一般经济学理论中的定义有所不同。 1。与误差项相关的变量称为内生变量(endogenous variable)。 2。与误差项不相关的变量称为外生变量(exogenous variable)。
2、内生性的来源:
(1)遗漏变量偏差 (2)经典的测量误差问题 (3)联立性(逆向因果)
首先我们来看下反向因果关系的解释,例如根据凯恩斯的消费函数,首先模型的设定为C=a+bY+Ui,其中C为消费,Y为国民收入,Ui为随机误差扰动项。然而国民账户的恒等式又有Y=C+I+G+NX,即Y等于消费投资政府购买和净出口的和,很显然,消费是国民收入的重要组成部门,消费又是误差的函数,这样消费与国民收入的函数之间存在反向因果关系,主要因为消费函数里面的Y与Ui相关,本来应该是X与Ui不相关,扰动项的信息应该全部包括或者表现概括在已经有的X里面了。
遗漏变量主要值得是某些不可观测的解释变量没有纳入到回归模型中,如果北一楼的变量能够同时对因变量和自变量产生影响,那么会出现内生性的问题。一个比较经典的案例例如研究一个人受教育程度与他的收入之间的关系,其中收入作为被解释变量Y,然后样本中的隔热的教育程度作为解释变量,这个模型中例如能力、性别以及其他变量都有可能同时影响该模型变量受教育程度以及收入,例如个人能力比较高的人可能这个收入比较高,而个人能力有可能作为遗漏变量包含在随机误差扰动项中,因此会出现这个内生性的问题。
另外还有一种就是存在的度量误差现象,到时候也是主要表现在内生性的这个与X和Ui不相关,但是却相关了。
工具变量法简介
解决内生性问题的常见方法,主要包括工具变量( instrumental variable,简称IV) 、固定效应模型( fixed effects model,简称FE) 、倾向值匹配( propensity score matching,简称PSM) 、实验以及准实验( experimentsand quasi-experiments) 等等。本文主要介绍工具变量法。
内生性的选择标准
要解决这一内生性问题,我们需要引入更多信息来进行无偏估计。工具变量的方法就是引入一个外生变量Z,且Z 必须满足以下两个条件: 与随机误差扰动项不相关,但与x1(与内生变量)相关。或者说,Z 仅仅通过影响x1来影响y。(总结为:与扰动项无关,与内生变量相关,能够替代或者表达原内生变量的信息)工具变量IV应该尽量是外生的(如历史/自然/气候/地理之类),它应该在理论上对被解释变量(以下称Y)没有直接影响,但应该通过影响被工具的变量(以下称X)而间接影响被解释变量Y。
一个合理的工具变量应该同时主要满足两个条件:
(1)、强度条件,即工具变量应该与内生自变量具有较强的相关性,即该工具变量的应该能够代替或者表达原内生变量的信息,数学表达式为:
COV(Z,X)=/0
(2)、排除限制条件,即工具变量应该与误差项不相关,也就是与因变量Y中不能被已有的自变量x所表达的部分无关(也是与误差项无关)
COV(Z,u)=/0
如果第一个条件不满足,我们认为这个工具变量是若工具变量,如果第二个条件得到不满足,我们认为该工具变量不具备足够的外生性,所谓外生性就是Z与误差项不相关。这样将导致工具变量的估计值出现类似于OLS估计的回归偏误。
二阶段最小二乘法
二阶段最小二乘法的第一阶段就是利用原模型的内生解释变量对工具变量进行OLS,得到解释变量的拟合值;第二步,利用得到解释变量的拟合值对原模型进行最小二乘法,从而得到方程模型的估计值,这样就可以消除内生性的影响。
二阶段最小二乘法Eviews操作介绍
例如本文使用如下1991-2014年Y与I的数据,在Eviews10.0软件中对其分别取对数,记为lny,lni。(案例所用的Eviews文件名称记为二阶段最小二乘法01.wfl
在Eviews软件中对其进行二阶段最小二乘法的操作,相关步骤截图如下: 首先在回归的主菜单的Equation Estimation对话框中的Instrument List选择lny,lni的滞后一期作为工具变量,然后选择的method为TSLS—Two-Stage Least Squares方法,由于常数项本身也是一个合适的工具变量,因此也需要输入,系统默认的,最后确定结果为:
最后的结果为:
可以看出在5%的显著性水平下方程都是显著的。本文主要选取了y以及i的滞后一期作为工具变量,一般解释变量以及被解释变量的滞后期均可以作为工具变量,一般情况下,根据模型的阶条件,为了使结构方程能够识别,工具变量的变量数一定要多余结构方程的自变量个数。
二阶段最小二乘法Stata操作介绍
本文根据Stata提供的ivregress中的数据进行讲解,用到的数据为hsng.dta
首先了解一下二阶段最小二乘法Stata中的命令为ivregress,语法格式为
利用该数据进行二阶段最小二乘法的两种操作,然后进行对比,其中dofile的命令如下:
ivregress2sls rent pcturban (hsngval = faminc i.region)
或者二阶段最小二乘法的原理推导
reg hsngval pcturban faminc i.region
predictyhat
regrent yhat pcturban
首先ivregress 2sls rentpcturban (hsngval = faminc i.region)的结果为:
然后依次进行reg hsngval pcturban faminc i.region
predictyhat
regrent yhat pcturban
得到结果为:
然后将上述模型的结果进行对比,分别用到如下完整的命令:
可以看到模型的2SLS与工具变量的回归系数完全相同,但是标准误并不相同。
本文综合整理自2018大数据与计量经济学发展论坛会议手册,下期本文将为大家介绍内生性相关检验等知识,敬请期待。
转载请注明来源