您真的懂得如何运用Heckman模型检验吗?
方法论重要性,不言而喻!在学术研究中,掌握方法论有助于指导科研实践工作。复杂的劳动包含着需要耗费或多或少的辛劳、时间和金钱去获得的技巧和知识的运用。我们的手无法抓住流金岁月,也挡不住年华似水,但它却能把握住最重要的命运。我们在这样一个黄金般的岁月里,就要争分夺秒地与时间赛跑!
文/杯中鸟911
在学术问题研究中,我们在考察因果关系时,经常会遇到因果关系考察中的内生性问题。一般而言,内生性问题主要来源于以下几个方面:(1)反向因果关系,即自变量影响因变量,因变量反过来也影响自变量,从而导致内生性。(2) 测量误差;(3)遗漏变量,遗漏的该变量与自变量相关并进入误差项,从而导致自变量与误差项相关,出现内生性问题;(4)样本自选择。然而,实证研究中所产生的内生性问题,容易导致的后果是所研究结论有偏且不一致性,使得所得结论不具有稳健性。在实证研究中,我们将有多种解决方面予以处理和解决内生性问题。
为此,本期文章将从“样本自选择”导致的内生性问题出发,来阐述其解决的办法——Heckman二阶段分析模型的操作方法。Heckman两步法主要用于解决实证研究中所获得的数据不能代表研究总体而导致的样本选择问题。样本选择偏差既可能是由非随机抽样所导致的,也可能是由自选择问题所导致的。
1、方法一:Heckman 因变量控制变量, select (自变量哑变量 =工具变量其他影响因素-控制变量) twostep
2、方法二:先在第一阶段中计算出除逆米尔斯比率IMR,再在第二阶段中将逆米尔斯比率imr作为控制变量,予以考察。基本步骤如下:
步骤1: 通过运用probit模型计算影响所考察变量的哑变量(0-1)的影响因素(即“第一阶段”),
步骤2: 在上述一步基础上,计算预测:predict w,xb,
步骤3: 再次,计算生成:gen IMR=normalden(w)/normal(w),
步骤4: 最后,将所生成的逆米尔斯比率IMR引入主要考察模型,并予以控制(即“第二阶段”)。
或者,将Heckman两步法解读为:
第一阶段,建立Probit选择模型。用以估计存在选择偏差变量发生的可能性,并计算逆米尔斯比率(Inverse Mills Ratio,简称IMR)。IMR的作用是为每一个样本计算出一个用于修正样本选择偏差的值。如果IMR大于0,表明样本存在选择性偏差,此时采用Heckman两步法选择模型估计是恰当的修正。
第二阶段,利用选择性样本观测值,将第一阶段估计的IMR与其他变量一起放入第二阶段的回归模型中。自选择问题已经通过第一阶段的选择模型得以修正,并在第二阶段由IMR反映出来。
3、一方面,该模型的运用需要一个工具变量,需要引起作者的重视,但不知为何有的文献作者在运用该模型时并没有引入工具变量,但笔者认为,该方法的运用需要在第一阶段中引入工具变量。另一方面,在第一阶段中,因变量为0-1哑变量,所以第一阶段一般都是运用Probit分析模型。此外,在第二阶段分析中,当引入IMR予以控制后,选择偏误调整项IMR系数如果通过显著性检验,这表明虚拟变量选择的内生性偏误一定程度是存在的,这表明采取文章分析样本自选择问题是必要的,这将进一步提升文章研究结论的稳健性。
4、需要注意的是,方法一中Heckman直接命令代码的运用具有明显的局限性,这里的因变量一般要求为“连续性变量”,而当因变量为哑变量(0-1)或其他非连续性变量时,上述方法一的直接运用将存在明显的统计偏误。为此,当在实证研究过程中,遇到因变量为非连续性变量时,方法一不再适用,可借鉴方法二,将Heckman二阶段分析进行拆分。
5、当然,如有需要,笔者将推荐阅读两篇有关Heckman二阶段分析模型运用的实证文献,以加深对该方法的熟悉和运用。
如果需要下载这两篇文献的读者,请关注公众号,发送关键词“Heckman方法运用的样板文献”至公众号对话框,可获得百度网盘下载。过程不复杂,欢迎下载!
其中,方法二具体案例如下图所示:
END
文作者:杯中鸟911,经管学院Ph.D,现清华学习;
微信公众号:社经研究社;
知乎用户名:络腮胡点经;
个人专注学术心得感想、社会与经济。