全能的内生性问题处理方法ERMs, 强烈安利一下!
凡是搞计量经济的,都关注这个号了
邮箱:econometrics666@126.com
对于内生性的处理方式很多,比如工具变量方法、heckman自选择修正、匹配基础上的处理效应等等。我们想要引荐一个“扩展回归模型”——Extended regression model。这个模型的最大优点就是可以处理解释变量或控制变量的内生性,处理效应中政策变量的非随机分配性还有内生性的样本选择问题。这三大问题实质上都应该是内生性问题,但是ERM模型可以同时把这三大问题放在一个框架下进行处理。
你平时在处理这些内生性问题的时候,用到的ivregress, xtivregress, heckman, ivprobit, heckoprobit和etregress,都只是对应ERM模型里的一个子块,因为他们会出来相同的结果。鉴于此,我们认为你学习那些五花八门的单个程序是没必要的,毕竟每个研究者的精力都是有限的,建议还是把ERM这个框架掌握好。
首先,感受一下ERM框架下的各个子块:eregress对应着因变量是连续变量的情形,eintreg对应着因变量是区间变量的情形,eprobit和eoprobit分别对应着因变量是二值或或有序变量的情形,还没有出现因变量是多值但无序变量的情形子块。
这个ERM框架的优良之处在于不管你的内生性变量是连续性、二值性或有序性的,他都可以通过一个option来用工具变量进行回归。想一想,你平时用到的ivprobit程序,实际上是只能处理内生性变量是连续性的数据,而对于离散性的数据实际上是不能够处理的,但很多人也在使用然后发表文章。
ERM框架还可以允许内生性变量与其他控制变量进行交互interactions,且还允许内生性变量的平方项、立方项与其他控制变量进行交互。这种优越性是不可能在比如ivregress程序里去收获到的,更何况她能同时处理内生性选择偏差、非随机性政策效应分配等问题。
近距离看看ERM各个子块对应的原来那些处理内生性问题的程序。你是不是觉得,只要理解了ERM就不需要记住之前五花八门的程序。更何况ERM无论何时何地都可以同时处理前面提到的三种内生性问题,Simultaneously handle them.
eregress是线性回归可以取代regress, ivregress, teffects ra, heckman。
eintreg是区间回归,可以取代intreg, tobit, ivtobit模型。
eprobit是二值回归,可以取代probit, ivprobit, teffects ra, heckprobit模型。
eoprobit是有序回归,可以取代oprobit, heckoprobit模型。
下面我们举一个简单的例子,让计量经济圈的圈友理解一番ERM框架的优越性。
示例一
我们要研究一下是不是参与一个学校组织的培训项目会对学生毕业有帮助。但是这里面会出现两个问题,第一是非随机的培训项目分配问题,很有可能更能够顺利毕业的学生更加愿意参与这个培训项目,第二是高中时候的GPA作为能否顺利在大学毕业的方程的控制变量会有内生性问题。
现在就是展现ERM框架下的eprobit模型优越性的时候了。graduate是个二值虚拟变量,能够顺利毕业=1,不能够顺利毕业=0。它与高中时候的GPA有关,也与是不是富家公子有关,还与有多少个室友有关。我们知道,这个非随机分配的培训项目, 是可以通过是不是在第一学年住校和是不是富家子弟来预测下(工具变量);而高中时候的GPA作为内生控制变量是可以用是不是富家子弟和高中学校的竞争力来预测(工具变量)。注意:这里hsgap是连续变量,所以后面没有用probit或oprobit这种option来标明,毕竟这是default。回归结果就不在这个里面展示,后文会展示其他的例子的结果并说明。
eprobit graduate income i.roommate,entreat(program = i.campus income)
endogenous( hsgpa = income i.hscomp)
示例二
我们来看看,当内生变量为虚拟变量的有序响应回归模型。值得注意的是,这里我们在括号里面选择了probit这个选项,因为核心解释变量x是二值虚拟变量。至于为什么选择nomain,主要是因为我们在y的后面放了x,就是说如果你看见同时出现两个x就需要选择nomain。画黄线的地方值得你的注意,这个corr(e.x, e.y)就是这二个方程的残差项的相关性。后面的p值是显著的,因此我们认为这样的处理方式是合理的,x确实是内生性的虚拟变量。
eoprobit y x x1 x2, endogenous(x = i1 i2 i3, probit nomain)
示例三
下面我们再来看一个同时存在选择偏差导致的内生性问题和政策变量非随机分配导致的内生性问题。我们想要知道,参与医疗保险项目是否有利于学生健康状况。里面出现的内生性问题是一目了然的——健康状况更差的人可能更愿意参与保险项目;而且我们最终获得样本也很可能是内生性因素造成的,即那些没有参与的或者健康状况差的学生,不太会把调查问卷交上来,那这个样本当然需要进行修正。
webuse womenhlth // 使用系统自带数据库
eoprobit health i.exercise c.grade, entreat(insured = grade i.workschool) ///
select(select = i.insured i.regcheck) vce(robust) // 看看参与保险项目是不是提高了学生健康
下面看看我们最终得到的结果,注意:现在实际上是存在内生性处理变量与主方程之间的交互项。一共有三个回归方程,分别对应我们的三个部分,不过我们看最终结果就行了。如表显示,参与学校医保项目确实对学生健康起到了促进作用,不管是不是锻炼或者不管学生是几年级,insured都是正向促进了健康。后面的三个corr()也是显著的,表明我们这样的处理方式是合理的。
示例四
下面,我们再来看一个例子。我们想要了解读大学是否提高了工资。这里面是不是读大学明显是内生的,所以需要通过工具变量进行估计。注意,我们在后面加上了probit这个选项,因为是不是读大学是个内生虚拟变量。这也正是ERM框架的优点,可以自由选择你的内生变量的类型:连续型、虚拟变量、有序变量。现在我们用的是extreat,意思是college这个0-1变量是作为外生性的处理政策变量。这与前面的内生性处理政策变量需要区分开来,这会对我们的估计结果带去不同的影响。值得提醒的是,我们需要自己判断政策处理变量什么时候是内生性(外生性)的。
webuse wageed // 使用系统自带数据库
eregress wage c.age##c.age tenure, endogenous(college = i.peduc, probit)
extreat(college) // 看看读大学是不是提高了工资
下面,我们来看看得到的结果。这个结果表明,读大学始终是好的,对工资的提升有促进作用。你还可以看看college与下面这么多控制变量的交互项的结果,来进一步解释一些特殊的机制关系。比如college与age的交互项和college与age的平方的交互项的系数表明,读大学对工资的促进作用也是与年龄相关的,是一个倒U型的关系。
因为我们用到了处理效应变量college,现在可以估计平均处理效应了。
estat teffects // 得到平均处理效应
estat teffects, atet // 得到处理组的平均处理效应
margins, over(college) // 得到边际效应
marginsplot, plot(college) // 边际效应分布图
这里只有两个点,因为我们在margins部分只选择了college,而没有选择age, tenure这些连续变量。对于这个作为示例的图,我们就不需要持怀疑态度了。这个图表明,上了大学有更高的工资,这也是非常清楚命了的。
margins r.college, over(age tenure) predict(fix(college)) // 现在我们来计算一下college的作用在不同年龄和工作经历中群体的作用
marginsplot, by(age) // 把age边际效用分布图画出来
由于需要运行很长时间,我们直接用一个运行出来的图来解释一下结果。比如对于GPA非常低的同学,上大学更能够促进工资的提高,左上方的图给出了佐证。而对于家庭收入非常低的家庭的学生,那他的GPA处于中高水平的话,那上大学对他的工资更有促进作用,左下方的图提供了佐证。这表明上不上大学与工资的关系在不同群体中的特征是不同的。
下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。
2.5年,计量经济圈近1000篇不重类计量文章,
可直接在公众号菜单栏搜索任何计量相关问题,
Econometrics Circle
数据系列:空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 | 夜间灯光 | 官员方言 | 微观数据 | 内部数据计量系列:匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理:Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列:能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。