查看原文
其他

Stata:工具变量回归ivregress

Stata:工具变量回归ivregress

ivregression适合线性模型,其中一个或多个回归变量是内生变量。

ivregression支持通过两阶段最小二乘法(2SLS)、有限信息极大似然(LIML)和广义矩估计法(GMM)进行估计。

快速入门

线性回归y1对x1以及内生变量y2,z1为工具变量的两阶段最小二乘法估计
ivregress 2sls y1 x1 (y2 = z1)

同上,但有有两个内生变量y2和y3,然后z1和z2为工具变量
ivregress 2sls y1 x1 (y2 y3 = z1 z2)

具有稳健的标准误差
ivregress 2sls y1 x1 (y2 y3 = z1 z2), vce(robust)


使用LIML估计
ivregress liml y1 x1 (y2 y3 = z1 z2)

使用GMM估计
ivregress gmm y1 x1 (y2 y3 = z1 z2)

语法格式:

ivgreress estimator depvar [varlist1] (varlist2 = varlist_iv) [if] [in] [weight] [, options]

  • estimator分为2sls两阶段最小二乘、liml有限的信息最大似然(liml) 、gmm广义矩方法(gmm)

  • depvardepvar 为被解释变量;

  • varlist1为外生解释变量;

  • varlist2 为所有的内生解释变量;

  • varlist_iv为所有的工具变量;

  • 在选项 options 中,

  • vce(robust)表示稳健型标准误

  • 可使用 firstfirst 选项报告 2SLS 中第一阶段的回归结果


  • estat firststage [, all forcenonrobust] 该命令给出第一阶段的估计结果以及各种统计量,包括排除外生变量的相关性检验。

  • estat overid [, lags(#)  forceweights  forcenonrobust] 该命令给出过度识别约束检验。


案例应用1

我们有1980年人口普查中关于自住住房美元价值中位数(hsngval)和月总租金中位数(rent)的州数据。我们希望将租金建模为hsngval和居住在城市地区的人口百分比(pcturban)的函数:

Renti = β0 +  β1hsngvali + β2pcturbani + Ui

其中下标i表示截面,ui为误差项。

由于影响一个州租金率的随机冲击可能也会影响住房价值,我们将hsngval视为内生的。我们认为hsngval和ui之间的相关性不等于零。另一方面,我们没有理由相信pcturban和u之间的相关性是非零的,所以我们假设pcturban是外生的。

因为我们将hsngval视为内生回归量,我们必须有一个或多个与hsngval相关但与u不相关的附加变量。此外,这些被排除在外的外生变量不能直接影响租金,因为如果它们会直接影响租金,那么它们应该被包含在我们上面指定的回归方程中。在我们的数据集中,我们有一个家庭收入变量(faminc)和一个国家的地区变量(region),我们认为它们与hsngval相关,但与误差项无关。

下面我们用2SLS估计拟合我们的模型:

use https://www.stata-press.com/data/r17/hsng
ivregress 2sls rent pcturban (hsngval = faminc i.region)

结果为:

. use "C:\Users\Metrics\Desktop\hsng.dta", clear
(1980 Census housing data)

. desc

Contains data from C:\Users\Metrics\Desktop\hsng.dta
  obs:            50                          1980 Census housing data
 vars:            12                          3 Feb 2018 16:22
 size:         2,600                          
--------------------------------------------------------------------------------------
              storage   display    value
variable name   type    format     label      variable label
--------------------------------------------------------------------------------------
state           str14   %14s                  State
division        int     %8.0g      division   Census division
region          int     %8.0g      region     Census region
pop             long    %10.0g                Population in 1980
popgrow         float   %6.1f                 Pop. growth 1970-80
popden          int     %6.1f                 Pop/sq. mile
pcturban        float   %8.1f                 Percent urban
faminc          long    %8.2f                 Median family inc., 1979
hsng            long    %10.0g                Hsng units 1980
hsnggrow        float   %8.1f                 % housing growth
hsngval         long    %9.2f                 Median hsng value
rent            long    %6.2f                 Median gross rent
--------------------------------------------------------------------------------------
Sorted by: state

set more off

.  ivregress 2sls rent pcturban (hsngval = faminc i.region)

Instrumental variables (2SLS) regression          Number of obs   =         50
                                                  Wald chi2(2)    =      90.76
                                                  Prob > chi2     =     0.0000
                                                  R-squared       =     0.5989
                                                  Root MSE        =     22.166

------------------------------------------------------------------------------
        rent |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
     hsngval |   .0022398   .0003284     6.82   0.000     .0015961    .0028836
    pcturban |    .081516   .2987652     0.27   0.785     -.504053     .667085
       _cons |   120.7065   15.22839     7.93   0.000     90.85942    150.5536
------------------------------------------------------------------------------
Instrumented:  hsngval
Instruments:   pcturban faminc 2.region 3.region 4.region



正如我们所料,房价越高的州,租房率就越高。一个州的城市人口比例对房租没有显著影响。

在这里,我们用LIML估计改装我们的模型

. ivregress liml rent pcturban (hsngval = faminc i.region)

Instrumental variables (LIML) regression          Number of obs   =         50
                                                  Wald chi2(2)    =      75.71
                                                  Prob > chi2     =     0.0000
                                                  R-squared       =     0.4901
                                                  Root MSE        =     24.992

------------------------------------------------------------------------------
        rent |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
     hsngval |   .0026686   .0004173     6.39   0.000     .0018507    .0034865
    pcturban |  -.1827391   .3571132    -0.51   0.609    -.8826681    .5171899
       _cons |   117.6087   17.22625     6.83   0.000     83.84587    151.3715
------------------------------------------------------------------------------
Instrumented:  hsngval
Instruments:   pcturban faminc 2.region 3.region 4.region



这些结果在性质上与2SLS的结果相似,但hsngval的系数约高19%。


在此,我们使用GMM估计对我们的租金模型进行了改进,并考虑了模型的异方差

. ivregress gmm rent pcturban (hsngval = faminc i.region), wmatrix(robust)

Instrumental variables (GMM) regression           Number of obs   =         50
                                                  Wald chi2(2)    =     112.09
                                                  Prob > chi2     =     0.0000
                                                  R-squared       =     0.6616
GMM weight matrix: Robust                         Root MSE        =     20.358

------------------------------------------------------------------------------
             |               Robust
        rent |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
     hsngval |   .0014643   .0004473     3.27   0.001     .0005877     .002341
    pcturban |   .7615482   .2895105     2.63   0.009     .1941181    1.328978
       _cons |   112.1227   10.80234    10.38   0.000     90.95052    133.2949
------------------------------------------------------------------------------
Instrumented:  hsngval
Instruments:   pcturban faminc 2.region 3.region 4.region




案例2:


本文以伍德里奇第十五章数据mroz.dta为例,研究已婚妇女的教育回报,相关数据介绍如下:
use morz.dtaeditdesc*被解释变量label var lwage 已婚妇女工资的对数值*解释变量label var educ 受教育年数 label var exper 工作年限label var expersq 工作年限平方
*工具变量label var fatheduc 已婚妇女的父亲的受教育年数label var motheduc 已婚妇女的母亲的受教育年限



其中研究问题为:

建立lnwage与educ、exper 、expersq的方程,但是包括了影响已婚妇女工资的遗漏变量,可能存在内生性问题,其中 能力 会对工资产生影响,但是却与解释变量X中的educ相关,内生性存在。

因此需要寻找与 能力 相关,但是与误差项不相关的工具变量,认为已婚妇女的父亲和母亲的受教育年数跟已婚妇女的 educ相关的,而这两个变量与已婚妇女的 能力 相关,可以替代原来内生变量的信息。因此,可以作为 educ的工具变量。

相关操作代码为:
*OLS回归与2SLS对比
reg lwage educ exper expersqest store OLS
ivregress 2sls lwage exper expersq (educ = motheduc fatheduc)est store _2SLS
结果为:




同时展现并对其进行对比,代码为:
esttab OLS _2SLS , /// title("已婚妇女教育投入回报影响研究") replace /// mtitles("OLS回归" "2SLS回归结果" ) /// b(%6.3f) se /// star( * 0.10 ** 0.05 *** 0.01 ) /// addnotes("*** 1% ** 5% * 10%") staraux r2 nogap compress
结果为:





结果解释:



6
Hausman检验



刚才我们讲到的是方程中的解释变量为内生变量,也就是发生了内生性,但是如何检验方程中的解释变量包含内生变量呢?因为如果方程中不包含内生变量,那么我们可以认为OLS估计是最好的,也就不需要在使用工具变量IV估计了。


Hausman检验的一个假设就是若解释变量具有内生性,则两种方法的估计量并不相同。通俗来说,就是Hausman检验是通过对内生解释变量与随机误差项相关的检验,来帮助我们判断一个变量是否为内生变量,原假设为Cov(X,ui)=0,意思是若X为外生变量。若是拒绝原假设,则说明内生性问题的存在,Hausman检验一般根据统计值的概率与0.05比较。


Hausman检验的基本语法格式为:

hausmanname-consistent [name-efficient] [, options]


其中hausman表示hausman检验,而name-consistent表示一直估计量的变量名,而name-efficient表示有效估计量的变量名,注意这两个变量名的顺序不能颠倒。Option选项的constant 表述包含常数项,默认不包含常数项,然后sigmamore表示统一使用更有效的估计量


然后基本的语法汇总为:

reg y x1 x2

eststore ols

ivregress2sls y x1 (x2=z1 z2)

eststore iv

hausmaniv ols ,constant sigmamore


现在我们继续使用刚才所说的案例进行检验,检验的编程命令为:

上述hausman检验是建立在同方差假定成立的情况或者前提下,因此该命令后面没有标准误的选项,若是存在异方差的问题时,该检验不能成立,应该改用德宾--吴--豪斯曼,该检验的语法格式为: 

estat endogenous



7
过度识别检验



当我们遇见多个内生变量的时候,需要考虑工具变量的个数,以确保所有的变量都能被识别,也就是考虑工具变量的个数与内生变量的个数,这也就是一般所说的识别检验,这里主要分为三种,即工具变量的个数与内生变量的个数大小比较,小于,等于,大于。


如果工具变量个数少于内生变量个数,则无法进行 2SLS 估计,称为“不可识别”(unidentified);

如果工具变量个数正好等于内生变量个数,则称为 “恰好识别”(justidentified 或 exactly identified);

如果工具变量个数大于内生变量个数,则称为 “过度识别”(overidentified)。在恰好识别或过度识别的情况下,均可进行 2SLS 估计;而在不可识别的情况下,则无法进行。


在计量经济学方法研究以及应用中,一般需要恰好识别或者过度识别,虽然过度识别的情况比较多一些,另外这是进行工具变量法的必要条件;若是出现过度识别,则需要进行过度识别检验,也成为萨尔干巴斯曼检验,写作Sargan-Basman检验。


该假设的条件为所有有效的工具变量的个数与内生解释变量一样多,或者说是这个所有的工具变量都是外生的。


过度识别的命令为estat overid


若是Sargan-Basman检验的统计量对应的p值大于0.05,则认为所有的工具变量都是外生的,也就是有效的,反之则是无效的。(原假设是所有工具变量是外生的,若是p值小于0.05,则拒绝原假设


总结:过度识别检验其实一部分是为了检验工具变量的外生性,主要体现在检验工具变量是否与扰动项的相关性,即与扰动项不相关。



8
弱工具变量的检验



我们回顾一下,找到的工具变量需要能够很好的代表内生解释变量的信息,也就是工具变量与内生解释变量的相关性,若是内生解释变量与工具变量只存在微弱的相关性,这就存在弱工具变量问题了。如何检验呢,在2SLS后用estat firststage命令来检验若工具变量的问题,若是对应的统计量的概率值小于0.05,则认为工具变量是合适的,是一个较好的工具变量,反之则认为存在弱工具变量的问题 。


我们回顾一下,找到的工具变量需要能够很好的代表内生解释变量的信息,也就是工具变量与内生解释变量的相关性,若是内生解释变量与工具变量只存在微弱的相关性,这就存在弱工具变量问题了。如何检验呢,在2SLS后用estat firststage命令来检验弱工具变量的问题,若是对应的统计量的概率值小于0.05,则认为工具变量是合适的,是一个较好的工具变量,反之则认为存在弱工具变量的问题 。

上述弱工具变量的检验其实也是这个检验有效工具变量的另外一个条件,主要考察工具变量与内生变量的相关性。


命令为:

estatfirststage,all forcenonrobust


如果存在弱工具变量该怎么办?


1. 如果有很多工具变量,有部分强工具变量和部分弱工具变量,可以舍弃较弱的工具变量而选用相关性较强的工具变量子集。在stata中,可以使用ivreg2命令进行“冗余检验”,以决定选择舍弃哪个工具变量。(直观上,冗余工具变量是那些第一阶段回归中不显著的变量。)


2. 如果系数是恰好识别的,则你不能略去弱工具变量。在这种情况下,有两个选择:第一个选择是寻找其他较强的工具变量。(难度较大)

第二个选择是利用弱工具变量继续进行实证分析,但采用的方法不再是2SLS。而是对弱工具变量不太敏感的有限信息极大似然法(LIML)。在大样本下,LIML 与2SLS是渐近等价的,但在存在弱工具变量的情况下,LIML 的小样本性质可能优于2SLS。LIML的 Stata 命令为 ivregress liml depvar[varlist1] (varlist2 =instlist)



9
寻找工具变量



工具变量的选择可以从理论、政策或制度、外部冲击、地理变量、历史变量、时间或空间的滞后变量等各方面来考虑。


1、政策法律和制度变量

制度与经济增长:

Acemoglu, et al. (2001)建议把欧洲早期殖民者在各殖民地的死亡率作为制度的工具变量。

方颖、赵扬《寻找制度的工具变量:估计制度效应对中国经济增长的贡献》这篇论文主要贡献在于建立了中国地级市制度质量的工具变量,即以1919年各城市每千人中基督教教会初级小学注册学生人数作为制度的工具变量,并详细论证该工具变量的适用性。


Hall and Jones(1999)则把各个国家到赤道的距离作为制度的工具变量。


Angrist&Lavy (1999)研究班级规模对学习成绩的影响


2、教育回报率

在教育回报率的经验研究中,文献中采用教育的工具变量包括:

Angrist & Krueger (1991):出生季度、义务教育法

Kane & Rouse (1993):  学费、最近上学距离

Card (1995):  上学距离和恶劣家庭背景指标的交叉项

Card & Lemieux (1999):  退伍军人法案

Duflo (2001):  学校修建工程


3、地理距离

研究受教育程度对个人收影响,

 Card (1995) ,X作为教育,选择的工具变量是居住地与高校的距离


Duflo (2001)学校建造的区域与时间差异  


4、

Waldman et al.(2006,2008)使用了降雨量作为看电视时间的工具变量,研究看电视过多是否会诱发自闭症。


Hoxby(2000)将城市河流数目作为工具变量,研究学区竞争与教育质量。





您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存