Stata:工具变量回归ivregress
Stata:工具变量回归ivregress
ivregression适合线性模型,其中一个或多个回归变量是内生变量。
ivregression支持通过两阶段最小二乘法(2SLS)、有限信息极大似然(LIML)和广义矩估计法(GMM)进行估计。
快速入门
线性回归y1对x1以及内生变量y2,z1为工具变量的两阶段最小二乘法估计
ivregress 2sls y1 x1 (y2 = z1)
同上,但有有两个内生变量y2和y3,然后z1和z2为工具变量
ivregress 2sls y1 x1 (y2 y3 = z1 z2)
具有稳健的标准误差
ivregress 2sls y1 x1 (y2 y3 = z1 z2), vce(robust)
使用LIML估计
ivregress liml y1 x1 (y2 y3 = z1 z2)
使用GMM估计
ivregress gmm y1 x1 (y2 y3 = z1 z2)
语法格式:
ivgreress estimator depvar [varlist1] (varlist2 = varlist_iv) [if] [in] [weight] [, options]
estimator分为2sls两阶段最小二乘、liml有限的信息最大似然(liml) 、gmm广义矩方法(gmm)
depvardepvar 为被解释变量;
varlist1为外生解释变量;
varlist2 为所有的内生解释变量;
varlist_iv为所有的工具变量;
在选项 options 中,
vce(robust)表示稳健型标准误
可使用 firstfirst 选项报告 2SLS 中第一阶段的回归结果
estat firststage [, all forcenonrobust] 该命令给出第一阶段的估计结果以及各种统计量,包括排除外生变量的相关性检验。
estat overid [, lags(#) forceweights forcenonrobust] 该命令给出过度识别约束检验。
案例应用1
我们有1980年人口普查中关于自住住房美元价值中位数(hsngval)和月总租金中位数(rent)的州数据。我们希望将租金建模为hsngval和居住在城市地区的人口百分比(pcturban)的函数:
Renti = β0 + β1hsngvali + β2pcturbani + Ui
其中下标i表示截面,ui为误差项。
由于影响一个州租金率的随机冲击可能也会影响住房价值,我们将hsngval视为内生的。我们认为hsngval和ui之间的相关性不等于零。另一方面,我们没有理由相信pcturban和u之间的相关性是非零的,所以我们假设pcturban是外生的。
因为我们将hsngval视为内生回归量,我们必须有一个或多个与hsngval相关但与u不相关的附加变量。此外,这些被排除在外的外生变量不能直接影响租金,因为如果它们会直接影响租金,那么它们应该被包含在我们上面指定的回归方程中。在我们的数据集中,我们有一个家庭收入变量(faminc)和一个国家的地区变量(region),我们认为它们与hsngval相关,但与误差项无关。
下面我们用2SLS估计拟合我们的模型:
use https://www.stata-press.com/data/r17/hsng
ivregress 2sls rent pcturban (hsngval = faminc i.region)
结果为:
. use "C:\Users\Metrics\Desktop\hsng.dta", clear
(1980 Census housing data)
. desc
Contains data from C:\Users\Metrics\Desktop\hsng.dta
obs: 50 1980 Census housing data
vars: 12 3 Feb 2018 16:22
size: 2,600
--------------------------------------------------------------------------------------
storage display value
variable name type format label variable label
--------------------------------------------------------------------------------------
state str14 %14s State
division int %8.0g division Census division
region int %8.0g region Census region
pop long %10.0g Population in 1980
popgrow float %6.1f Pop. growth 1970-80
popden int %6.1f Pop/sq. mile
pcturban float %8.1f Percent urban
faminc long %8.2f Median family inc., 1979
hsng long %10.0g Hsng units 1980
hsnggrow float %8.1f % housing growth
hsngval long %9.2f Median hsng value
rent long %6.2f Median gross rent
--------------------------------------------------------------------------------------
Sorted by: state
. set more off
. ivregress 2sls rent pcturban (hsngval = faminc i.region)
Instrumental variables (2SLS) regression Number of obs = 50
Wald chi2(2) = 90.76
Prob > chi2 = 0.0000
R-squared = 0.5989
Root MSE = 22.166
------------------------------------------------------------------------------
rent | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
hsngval | .0022398 .0003284 6.82 0.000 .0015961 .0028836
pcturban | .081516 .2987652 0.27 0.785 -.504053 .667085
_cons | 120.7065 15.22839 7.93 0.000 90.85942 150.5536
------------------------------------------------------------------------------
Instrumented: hsngval
Instruments: pcturban faminc 2.region 3.region 4.region
.
正如我们所料,房价越高的州,租房率就越高。一个州的城市人口比例对房租没有显著影响。
在这里,我们用LIML估计改装我们的模型
. ivregress liml rent pcturban (hsngval = faminc i.region)
Instrumental variables (LIML) regression Number of obs = 50
Wald chi2(2) = 75.71
Prob > chi2 = 0.0000
R-squared = 0.4901
Root MSE = 24.992
------------------------------------------------------------------------------
rent | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
hsngval | .0026686 .0004173 6.39 0.000 .0018507 .0034865
pcturban | -.1827391 .3571132 -0.51 0.609 -.8826681 .5171899
_cons | 117.6087 17.22625 6.83 0.000 83.84587 151.3715
------------------------------------------------------------------------------
Instrumented: hsngval
Instruments: pcturban faminc 2.region 3.region 4.region
.
这些结果在性质上与2SLS的结果相似,但hsngval的系数约高19%。
在此,我们使用GMM估计对我们的租金模型进行了改进,并考虑了模型的异方差
. ivregress gmm rent pcturban (hsngval = faminc i.region), wmatrix(robust)
Instrumental variables (GMM) regression Number of obs = 50
Wald chi2(2) = 112.09
Prob > chi2 = 0.0000
R-squared = 0.6616
GMM weight matrix: Robust Root MSE = 20.358
------------------------------------------------------------------------------
| Robust
rent | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
hsngval | .0014643 .0004473 3.27 0.001 .0005877 .002341
pcturban | .7615482 .2895105 2.63 0.009 .1941181 1.328978
_cons | 112.1227 10.80234 10.38 0.000 90.95052 133.2949
------------------------------------------------------------------------------
Instrumented: hsngval
Instruments: pcturban faminc 2.region 3.region 4.region
.
案例2:
use morz.dta
edit
desc
*被解释变量
label var lwage 已婚妇女工资的对数值
*解释变量
label var educ 受教育年数
label var exper 工作年限
label var expersq 工作年限平方
*工具变量
label var fatheduc 已婚妇女的父亲的受教育年数
label var motheduc 已婚妇女的母亲的受教育年限
*OLS回归与2SLS对比
reg lwage educ exper expersq
est store OLS
ivregress 2sls lwage exper expersq (educ = motheduc fatheduc)
est store _2SLS
esttab OLS _2SLS , ///
title("已婚妇女教育投入回报影响研究") replace ///
mtitles("OLS回归" "2SLS回归结果" ) ///
b(%6.3f) se ///
star( * 0.10 ** 0.05 *** 0.01 ) ///
addnotes("*** 1% ** 5% * 10%") staraux r2 nogap compress
结果解释:
刚才我们讲到的是方程中的解释变量为内生变量,也就是发生了内生性,但是如何检验方程中的解释变量包含内生变量呢?因为如果方程中不包含内生变量,那么我们可以认为OLS估计是最好的,也就不需要在使用工具变量IV估计了。
Hausman检验的一个假设就是若解释变量具有内生性,则两种方法的估计量并不相同。通俗来说,就是Hausman检验是通过对内生解释变量与随机误差项相关的检验,来帮助我们判断一个变量是否为内生变量,原假设为Cov(X,ui)=0,意思是若X为外生变量。若是拒绝原假设,则说明内生性问题的存在,Hausman检验一般根据统计值的概率与0.05比较。
Hausman检验的基本语法格式为:
hausmanname-consistent [name-efficient] [, options]
其中hausman表示hausman检验,而name-consistent表示一直估计量的变量名,而name-efficient表示有效估计量的变量名,注意这两个变量名的顺序不能颠倒。Option选项的constant 表述包含常数项,默认不包含常数项,然后sigmamore表示统一使用更有效的估计量
然后基本的语法汇总为:
reg y x1 x2
eststore ols
ivregress2sls y x1 (x2=z1 z2)
eststore iv
hausmaniv ols ,constant sigmamore
现在我们继续使用刚才所说的案例进行检验,检验的编程命令为:
上述hausman检验是建立在同方差假定成立的情况或者前提下,因此该命令后面没有标准误的选项,若是存在异方差的问题时,该检验不能成立,应该改用德宾--吴--豪斯曼,该检验的语法格式为:
estat endogenous
当我们遇见多个内生变量的时候,需要考虑工具变量的个数,以确保所有的变量都能被识别,也就是考虑工具变量的个数与内生变量的个数,这也就是一般所说的识别检验,这里主要分为三种,即工具变量的个数与内生变量的个数大小比较,小于,等于,大于。
如果工具变量个数少于内生变量个数,则无法进行 2SLS 估计,称为“不可识别”(unidentified);
如果工具变量个数正好等于内生变量个数,则称为 “恰好识别”(justidentified 或 exactly identified);
如果工具变量个数大于内生变量个数,则称为 “过度识别”(overidentified)。在恰好识别或过度识别的情况下,均可进行 2SLS 估计;而在不可识别的情况下,则无法进行。
在计量经济学方法研究以及应用中,一般需要恰好识别或者过度识别,虽然过度识别的情况比较多一些,另外这是进行工具变量法的必要条件;若是出现过度识别,则需要进行过度识别检验,也成为萨尔干巴斯曼检验,写作Sargan-Basman检验。
该假设的条件为所有有效的工具变量的个数与内生解释变量一样多,或者说是这个所有的工具变量都是外生的。
过度识别的命令为estat overid
若是Sargan-Basman检验的统计量对应的p值大于0.05,则认为所有的工具变量都是外生的,也就是有效的,反之则是无效的。(原假设是所有工具变量是外生的,若是p值小于0.05,则拒绝原假设)
总结:过度识别检验其实一部分是为了检验工具变量的外生性,主要体现在检验工具变量是否与扰动项的相关性,即与扰动项不相关。
我们回顾一下,找到的工具变量需要能够很好的代表内生解释变量的信息,也就是工具变量与内生解释变量的相关性,若是内生解释变量与工具变量只存在微弱的相关性,这就存在弱工具变量问题了。如何检验呢,在2SLS后用estat firststage命令来检验若工具变量的问题,若是对应的统计量的概率值小于0.05,则认为工具变量是合适的,是一个较好的工具变量,反之则认为存在弱工具变量的问题 。
我们回顾一下,找到的工具变量需要能够很好的代表内生解释变量的信息,也就是工具变量与内生解释变量的相关性,若是内生解释变量与工具变量只存在微弱的相关性,这就存在弱工具变量问题了。如何检验呢,在2SLS后用estat firststage命令来检验弱工具变量的问题,若是对应的统计量的概率值小于0.05,则认为工具变量是合适的,是一个较好的工具变量,反之则认为存在弱工具变量的问题 。
上述弱工具变量的检验其实也是这个检验有效工具变量的另外一个条件,主要考察工具变量与内生变量的相关性。
命令为:
estatfirststage,all forcenonrobust
如果存在弱工具变量该怎么办?
1. 如果有很多工具变量,有部分强工具变量和部分弱工具变量,可以舍弃较弱的工具变量而选用相关性较强的工具变量子集。在stata中,可以使用ivreg2命令进行“冗余检验”,以决定选择舍弃哪个工具变量。(直观上,冗余工具变量是那些第一阶段回归中不显著的变量。)
2. 如果系数是恰好识别的,则你不能略去弱工具变量。在这种情况下,有两个选择:第一个选择是寻找其他较强的工具变量。(难度较大)
第二个选择是利用弱工具变量继续进行实证分析,但采用的方法不再是2SLS。而是对弱工具变量不太敏感的有限信息极大似然法(LIML)。在大样本下,LIML 与2SLS是渐近等价的,但在存在弱工具变量的情况下,LIML 的小样本性质可能优于2SLS。LIML的 Stata 命令为 ivregress liml depvar[varlist1] (varlist2 =instlist)
工具变量的选择可以从理论、政策或制度、外部冲击、地理变量、历史变量、时间或空间的滞后变量等各方面来考虑。
1、政策法律和制度变量
制度与经济增长:
Acemoglu, et al. (2001)建议把欧洲早期殖民者在各殖民地的死亡率作为制度的工具变量。
方颖、赵扬《寻找制度的工具变量:估计制度效应对中国经济增长的贡献》这篇论文主要贡献在于建立了中国地级市制度质量的工具变量,即以1919年各城市每千人中基督教教会初级小学注册学生人数作为制度的工具变量,并详细论证该工具变量的适用性。
Hall and Jones(1999)则把各个国家到赤道的距离作为制度的工具变量。
Angrist&Lavy (1999)研究班级规模对学习成绩的影响
2、教育回报率
在教育回报率的经验研究中,文献中采用教育的工具变量包括:
Angrist & Krueger (1991):出生季度、义务教育法
Kane & Rouse (1993): 学费、最近上学距离
Card (1995): 上学距离和恶劣家庭背景指标的交叉项
Card & Lemieux (1999): 退伍军人法案
Duflo (2001): 学校修建工程
3、地理距离
研究受教育程度对个人收入影响,
Card (1995) ,X作为教育,选择的工具变量是居住地与高校的距离
Duflo (2001)学校建造的区域与时间差异
4、
Waldman et al.(2006,2008)使用了降雨量作为看电视时间的工具变量,研究看电视过多是否会诱发自闭症。
Hoxby(2000)将城市河流数目作为工具变量,研究学区竞争与教育质量。