Heckman两步法的内生性问题
问:计量哥 您好,首先非常感谢您能运营这个公众号,您的无私奉献使广大计量经济学爱好者受益匪浅。最近我在写文章时遇到一个问题,想向您请教,就是heckman两步法如何解决内生性问题,我看现有文献有些是用IV+heckman来解决,但是具体的操作流程是什么还是没有弄清楚,还请您在百忙之中予以解惑,如果能贴上些code就再好不过了,再次感谢,祝您生活愉快!
注:如果不想了解一些关于Heckman两步法的背景资料,那么请直接移步到文章末尾处的具体操作过程和Code。
答:伴随着微观计量经济学的发展,微观数据的应用也产生了许多新的统计问题。尤其是,由于那些非实验性数据(non-experimental data)本身所固有的限制,研究者通常只能观察某些变量的特定个体或家庭,因此这一非随机抽样的样本就不可能在总体中具有代表性。即使样本有代表性,影响个体行为的一些特征仍然不能够被观察到,这使得解释个体之间的某些差异变得非常困难,甚至根本不可能。
举个例子,给你一个任务,要你研究工资与工作经历之间的关系。你可能会给特定公司的一些员工一份问卷,调查他们的报酬以及各自在目前岗位上的工作年限。或许你会发现报酬多寡与工作年限有非常强的正相关关系。但是这一结果可能并没有多大意义。因为它忽略了变量偏差的问题。假定受教育程度、性别、种族歧视等也是决定工资水平的重要变量(现实确是如此),那么你不仅忽略了这些重要的信息,从而得出的结果并不完全,更要命的是这些被忽略的信息可能恰恰会影响你得出工资与工作资历之间的相关关系。因为,完全也有可能是另一种情况,即较长的工作资历是较高工资的结果,因为高工资使人们不愿意另求它职。如果真是这样,那么前面的结论就是错误的。
赫克曼的主要贡献之一,就是处理样本偏差问题。在上面例子中,可以采取的一个修正办法是,选择一个不会被工资水平所影响的变量如年龄来替代工作资历变量。或者,考虑被调查过的员工与未被调查的员工的情况大相径庭时对结论的影响,如果能找出是哪些因素决定谁来回答问卷(比如也许只有高工资的员工才有时间填写问卷)得出的结论就会精确得多。
到此为止我们谈论的是控制数据收集之规则所带来的选择性样本的结果。但问题不仅是这样,选择性样本也有可能是经济代理人自己行为的后果,这就是自选择问题。提出处理自选择问题的方法是赫克曼的主要贡献之二。
自选择问题是这样一类问题,由于经济个体(个人、家庭或厂商)本身具有选择判断能力,因此很可能会采取一些影响抽样过程的行动,从而使抽样失去随机性,造成所收集到的样本不能比例地代表总体(事实上,经济个体的资料收集常常都是在不完全随机抽样的情况下进行的)。在这样的情况下,由微观数据分析得出的结论,其信度就很值得怀疑。
我们仍然用一个例子来说明。比如我们要研究工资和教育程度的关系,显然我们只可能从有工作的人们那儿获得有关工资的数据,我们也可以根据这些数据绘制成图1那样的分布图。图1中W表示工资,X表示受教育程度,可获得工资数据是图中的实心点。这样,我们研究所得到的两者的关系就如虚线所示。
但是,这个关系是不精确的。因为有不小比例的人没有参加工作,对这些人,我们可以了解他的教育程度,却不知道他一小时可以挣多少钱。一般地,人们是否参加工作取决于实际可得的工资与意愿工资,当工资低于意愿工资时,人们就会选择不工作。把不工作这部分人也搬到我们的图上,其分布就是图中的空心点。这时,工资与教育程度的关系就是图中的实线。可以发现,如果只拿实心点研究,得出的结论实际上低估了受教育程度对工资的影响。
在1974年发表的《影子价格、市场工资与劳动供给》(Shadow Wages, Market Wages and Labor Supply)中,赫克曼设计出一种解决自选择问题的计量经济学方法,确立了他无可争议的学术地位。这份研究现在已成为将微观经济理论与微观计量方法结合起来研究重要课题的一个极好例证。后来,赫克曼又提出了另一解决自选择问题的方法,即著名的赫克曼矫正法(Heckman Correction,又称两阶段方法)。赫克曼矫正法分两个步骤进行:第一步骤,研究者根据经济学理论设计出一个计算个体工作概率的模型,而该模型的统计估计结果可以用来预测每个个体的概率;第二步骤,研究者将这些被预测个体概率合并为一个额外的解释变量,与教育、年龄等变量一起来矫正自选择问题。这样,估计出的工资关系在统计意义上就很适当了。
我们以前面的例子简单地说明赫克曼矫正法的原理。首先,估计出不同教育水平的人,参加工作的概率(可能性)各有多大,这可以通过经验数据模型得到。然后,删去不工作之人的样本,将余留的样本点依其工作概率的不同,垂直往下位移。工作概率愈小,向下位移愈大;工作概率愈大,向下位移愈小。工作概率百分之百的,不作位移。(图2,实心点下移到由空心点标示的新位置。)
然后,对位移后的样本点,求出其回归线。理论上可以证明,这条回归线,与第一个图中标出的真实关系线,应当是一致的(参见图3)。
如今,赫克曼矫正法已经成为微观数据分析的标准工具。赫克曼所获得的成功已经在经济学和其它社会科学中产生了一大批经验性应用成果。而原先所使用的方法也已经由赫克曼等人加以概括和推广。
注意,这里才是前面提到的那个问题的重点所在
heckman两步法过程是:
一个简单的例子,我们想要了解女性教育对工资的影响,那么这里需要注意到,有些受了教育但也没有参加工作,那这部分样本需要特殊处理。所以,我们就先预测一个女性参加工作的可能性,然后再在那些参加了工作的女性样本中回归工资和教育水平。
当然问题中的重点是,如果在Heckman两步法回归中遇到内生性问题,那我们应该在第二阶段寻求工具变量IV,然后来分开回归就可以解决了。有一篇英文文献原文为:In the first stage, we run 5000 probit equation on Core NTBs (one for each product) explained by the instruments discussed above, to obtain the Mills ratio (the ratio of the probability density function and the cumulative density function of each observation). The second stage equation adds the Mills ratio of the probit model describing the……
(下面的黑色字体是代码,可以在Stata上运行)
*数据
webuse womenwk
*(1)首先预测女性是否参与工作
gen s=wage==.
replace s=wage if wage>0
replace s=0 if s==.
*以age education married children四个变量来估计女性是否参加工作
dprobit s age education married children
*计算inverse mills ratio(IMR)
predict zg if e(sample), xb
g lambda=normalden(zg)/normal(zg)
*(2)将IMR代入回归方程预测工资
reg wage education age lambda if married==1(如果你遇到内生性问题,此时你可以用工具变量IV来替代)
predict wage1
参考:http://personal.rhul.ac.uk/uhte/006/ec5040/selectivity.pdf
@计量经济学圈
记录一个我们生活在其中的时代社会,一个非常具有潜力的深度与客观兼具的大号,囊括的主题如下:经济、社会、历史、新闻、世界、计量工具。