忽略干扰因素,内生性,遗漏变量偏差及相关问题下的估计
由于因果关系让人难以捉摸,所以评估数据的因果关系是研究人员的努力方向之一。在忽略干扰因素,内生性,遗漏变量或者一个错误模型前,预测值的估计和利益影响就会不一致,因果关系也就变的越加模糊。
控制因果关系的试验就是一种替代选择。然而,进行控制实验可能是不可行的。例如,政策制定者不能随机征税。在试验数据缺失的情况下,一个替代选择就是使用工具变量或控制函数方法。
Stata有许多内置的估计来执行这些潜在的解决方法和工具,也可以创建评估工具以实现内置评估工具覆盖不到的情况。下面就举例说明线性模型的两种可能性,在后续的文章中,再讨论非线性模型。
我们先从两个协变量的线性模型开始,x1和x2。在这个模型中,x1与错误项Ɛ无关; 这是给定条件 E(x1Ɛ)=0,x1是外生变量,x2是错误相关项;给定条件是E(X2Ɛ)≠0,x2是内生变量。模型如下:
事实上X2与不可观测因素Ɛ相关,这意味着采用线性回归拟合模型得到不一致的参数估计。一种选择是使用两阶段最小二乘法估计。两阶段最小二乘法是有效的,需要为x2指定一个正确的模型包括一个变量z1,这对利益结果的不可观测变量X1无关。我们同样需要z1和x1与不可观测结果Ɛ无关,并且x2方程式也是不可观测的。表达式如下:
在(1)的关系中暗示x2可以被分为2个部分,一个是与Ɛ相关,问题的症结所在是V,另一个是与Ɛ不相关,
如果用最小二乘法估计模型参数,将得到
恢复协变量的系数值,x1的是-2,x2也是-2,2是常数。
使用sem结构方程模型也可以恢复模型参数。这里的关键是要指定两个线性方程并且声明两个方程的不可观测部分是相关的。有趣的是,模型并不满意sem估计不可观测的假设联合正态性,因此得到一致的估计,如下面输出表中方程y的系数值所示:
sem语法要求写两个线性方程。使用一个<-建立内变量,并且声明两个内变量为不可观测变量,由相关联的e.y和e.x2表示。使用选项cov(e.y*e.x2)指定相关性。
使用sem得到的系数和标准误差与最小二乘法得到的是完全相同的。这种等式发生在矩估计中,像两阶段最小二乘法与广义矩估计(GMM)中,或当矩条件和分数方程相同时,基于似然估计中。因此,即使假设不同,但是估计的方程是相同的。这些模型的估计方程由(2)提供。
也可以在gmm中使用gmm来拟合这个模型。方法如下:
1. 写出内生变量方程的残差。例子如下:
2. 在系统中使用所有外生变量作为工具,在这个例子中为x1和z1.
使用gmm得到如下:
再来一遍,用ivregress 和gsem.得到相同的参数值,但是标准误差是不同的。原因是gmm计算稳健标准误差是默认的。如果用稳健标准误差计算ivregress,结果又是完全一样的:
另一种方法是使用控制功能方法来得到感兴趣的参数。使用来自工具x1和z1的内生变量x2的回归残差,作为x1和x2回归因子y。使用gmm来实现控制功能的方法如下所示:
正如前面的例子所示,定义残差和工具,gmm使用这两个信息创建矩条件。在以上例子中,模型外生变量的内生变量的回归残差,同时也是残差和工具。因此,我没把它们当作外生工具。相反,在eq3的内生变量回归中,手动给残差建立矩条件。
在前三个例子中,使用控制功能方法再次给出了相同的结果。第一个例子中使用了Stata中已有的估计。后两个例子,使用了估计工具得到了大型的模型估计结果。
写在后面:各位圈友,咱们的计量经济圈社群里面资料和计量咨询都很多,希望大家能够积极加入咱们这个大家庭(戳这里)。之后我们会逐步邀请社群里的圈友再直接建立微信群与圈圈对话,进去之后一定要看“群公告”,不然接收不了群信息。