如何寻找工具变量?得工具者得实证计量
寻找到一个好的工具变量可以直接在MIT博士毕业,可见找工具变量是一件有挑战性的事情。在我看来,找工具变量是一项有趣的智力活动,除了需要一个人有经济学的素养和逻辑,还需要这个人知识面广,自然、地理、人文、世俗智慧和经验等,通常,这跟一个人熟悉的领域,由长期观察和思考产生的洞见有关。当然还需要一点运气,学术不是苦思冥想,也许做一个梦,喝一杯下午茶,灵感就闪现了。
工具变量的原理最早出现在菲利普·莱特( Philip G. Wright) 1928年写的书《The Tariff on Animal and Vegetable Oils》里。
为了进一步解释这个原理,首先给出一个典型的线性回归模型:
y = β0 + β1x1 + βX + ε (1)
这里y为被解释变量,x1为自变量,或者解释变量,也即“因”。大写的 X 为外生控制项向量( 也即一组假定为外生的其他控制变量,例如年龄、性别等等) ,ε则为误差项。如果ε与x1不相关,那么我们可以利用OLS 模型对方程进行无偏估计。然而,如果一个重要变量x2被模型(1) 遗漏了,且x1和x2也相关,那么对β1的OLS 估计值就必然是有偏的。此时,x1被称作“内生”的解释变量,这就是 “内生性”问题。
遇到“内生性”问题肿木办?有一个方法就是找工具变量Z。
1 )遗漏变量偏差
2)经典的测量误差问题
3)联立性(逆向因果)
•变量z可以作为变量x的有效工具变量,当满足:•工具变量必须外生 •即, Cov(z,u) = 0•工具变量必须与内生变量x相关•即, Cov(z,x) ≠0
Cov(z,u) = 0无法验证,Cov(z,x) ≠0可以验证
对工具变量的两个要求之间有一个非常重要的差别。因为Cov(z,u)是z与不可观测的误差u的协方差,我们无法对它进行验证或哪怕是检验:我们必须求助于经济行为或内心感受来维持这一假定。相比之下,给定一个来自总体的随机样本,z与x相关(在总体中)的条件则可加以检验。做到这一点最容易的方法是估计一个x与z之间的简单回归。
就是说,Cov(z,u) = 0无法验证,我们只能依赖常识和经济理论,这需要理论修养和积累。
但是我们可以检验是否Cov(z,x) ≠0,即检验
H0: p1 = 0 x = p0 + p1z + v
这个回归有时被称为第一阶段回归。
现在我们来看课上那个讲教育回报的经典例子
在教育回报率的例子中,假定真实模型将对数工资对教育和能力回归:现在能力不可观测,而且没有代理变量IQ
事实上使用的回归:将对数工资对教育回归,但由于误差项包含能力,并且教育水平与能力相关,此时会出现教育的内生性问题。
z应当对y无偏效应,也不应当与其它影响y的因素相关。z 必然与内生解释变量x有着正的或负的关系。就是说Z不能和U有关,而且Z只能通过影响X来间接地影响Y。
log(wage)方程,educ的工具变量z必须:(1)与能力(以及其它影响工资的不可观测的因素)不相关,(2)与教育相关。诸如一个人的社会福利登记号的最后一位数字之类的变量,几乎一定满足第一个必需条件:与能力不相关,因为它是随机决定的。然而,该变量与教育不相关,因而是educ的一个低劣的工具变量。
所谓的用于遗漏变量的代理变量因相应的原因也是低劣的IV。例如,在遗漏能力的log(wage)例子中,abil的代理变量应该尽可能地与abil高度相关。而工具变量必须与abil不相关。因此,尽管IQ是abil的一个好的代理变量候选者,它却不是educ的好的工具变量。
对其它可能的工具变量候选者,这些必需条件更加不确定。劳动经济学家已在工资方程中使用家庭背景变量作为教育的IV。例如,母亲的教育(motheduc)与孩子的教育是正相关的,这一点通过收集劳动者数据样本并做educ对motheduc的简单回归便可以看出来。因此,motheduc满足方程 Cov(z,x) ≠0。问题是,母亲的教育也可能与孩子的能力相关(通过母亲的能力和可能通过孩子幼年所受的教养的质量)。
(15.1)中educ的另一个IV选择是成长过程中兄弟姊妹的数目(sibs)。一般地说,较多的兄弟姊妹与较低的平均教育水平相联系。这样,如果兄弟姊妹的数目与能力不相关,它可以 充当educ的工具变量。
IV与OLS估计比较
IV与OLS的标准差的不同之处仅在于将x对z回归得到的Rx,z^2由于Rx,z^2<1,IV的标准差会比较大。就是左老师说的比谁更有效,如果做出来
当Cov(x,u) ≠ 0 ,OLS不是一致估计,当(15.4), (15.5) 成立时,IV是一致估计。 x和z的相关性越强,IV的标准差越小。
举个例子:对已婚女性进行教育的回报估计。
我们看到,教育回报的IV估计值为5.9%,大约是OLS估计值的一半。这表明OLS 估计值过高,且与遗漏的能力变量的偏误相一致。但我们应该记住,这些都是仅从一个样本中得出的估计值:我们根本不知道0.109是否高于真正的教育回报,或者0.059更接近真正的教育回报。其次,IV估计量的标准误是OLS标准误的2.5(0.035/0.014)倍。运用OLS得出的β1的95%置信区间比运用IV得出的要窄得多;事实上,IV的置信区间确实包含了OLS估计值。因此,尽管实践中(15.15)与(15.17)之间的差异很大,我们不能说该差异在统计上显著。
值得注意的是 尽管当z与u不相关,而z与x存在着正的或负的相关时,IV是一致性的,但当z与x只是弱相关时IV估计值可能有大的标准误。z与x之间的弱相关可能产生甚至是更加严重的后果:即使z与u只是适度相关,IV估计量也会有大的渐近偏误。
这就是左老师讲的弱工具变量问题。
理论上说,Z必须是严格外生的,但是如果工具变量与内生变量有一点相关,即使很小,仍然可能造成估计的问题。Z和X关系越小,这个工具变量就越有风险,这个叫弱工具变量。
后来左老师举了Angrist那个教育和出生季度的例子。
Angrist & Krueger(1991)利用美国的男性人口调查数据,提出了educ的一个巧妙的二值工具变量。如果该男性是在第一季度出生的,令frstqrt等于1,否则为0。(15.14)中的误差项——特别是能力——似乎应该与出生季度不相关。但是,frstqrt还要与educ相关。事实表明,在基于出生季度的总体中,教育年数确实有系统性差异。Angrist和Krueger认为是缘于在各州实行的义务就学法,这很有说服力。简单地说,年初出生的学生往往入学较晚。因此,他们在达到义务教育年龄时(大部分州定为16岁),所受的教育略少于入学较早的学生。
因为教育年数在各出生季度之间的变化仅仅是微乎其微的——这意味着我们做 对 的回归来获得的 非常小——Angrist和Krueger需要很大的样本容量来得到一个合理而准确的IV估计值。利用1920至1929年之间出生的247,199位男性的数据,得出教育回报的OLS估计值为.0801(标准误为.0004),IV估计值为.0715(.0219);见于Angrist和Krueger的论文中的表III。注意到OLS估计值的t统计量那么大(约为200),然而IV估计值的t统计量仅为3.26。因而IV估计值在统计上不为0,但其置信区间比基于OLS估计值的置信区间宽得多。
Angrist和Krueger有一个有趣的发现:IV估计值与OLS估计值相差并不多。实际上,利用下一个十年中出生的男性的数据,得出IV估计值稍微高于OLS估计值。对此可以这样解释:说明在用OLS估计工资方程时不存在遗漏能力的偏误。可是,Angrist和Krueger的论文在计量经济学界受到了非难。如同Bound,Jaeger和Baker(1995)讨论的那样,它不能明显地判断出生季节与影响工资的诸因素不相关,纵然这些因素没有被人观测到。
举个例子,Angrist(1990)研究了,参加越南战争的老兵,其终身收入因参加越战而受到的影响。一个简单模型为:income=veteran+others
其中veteran是二值变量。疑问在于,用OLS估计该方程时,可能存在一个自我选择(self-selection)的问题:也许人们因为能从军队中得到最多的收入而选择参军,或者参军的决策与其他对收入有影响的特征相关。这些问题将导致veteran与u相关。
Angrist指出,越南战争的征兵抽签提供了一个自然试验(naturalexperiment),从而产生了veteran的一个工具变量。年轻人被分给的征兵抽签号决定了他们是否会被征召去服役于越南战争。因为所分给的号码(毕竟)是随机分配的,征兵抽签号与误差项u不相关似乎是可信的。而得到号码足够小(指号码小于某个数)的人必须服役于越南战争,使得成为老兵的概率与抽签号相关。如果以上两点都是正确的,征兵抽签号是veteran的一个好的IV候选者。
【问题及方法】
内生性,每个实证人的痛。内生性主要的三个来源:测量误差、遗漏变量和逆向因果。
1、变量的内生性。
这个是没有办法单独检验的。当有合适工具变量时候,是可以检验的,就是Hausman检验
2、工具变量的外生性。
这个也是没办法检验的。当有很多工具变量时候,可以检验是否有不是外生的,就是“过度识别”问题
3、工具变量的相关性。
这个可以说成是“弱工具变量”问题,检验可以通过一阶段的F值。还可以利用Partial R2。
4、估计方法
stata里面有这么几个2sls,2sls smal、liml、gmm,各自适用情况:small适合小样本;liml适合弱工具变量;gmm适合异方差。
【例子】
webuse hsng2
*Fit a regression via 2SLS, requesting small-sample statisticsivregress 2sls rent pcturban (hsngval = faminc iregion), small
*Fit a regression using the LIML estimatorivregress liml rent pcturban (hsngval = faminc iregion)
*Fit a regression via GMM using the default heteroskedasticity-robust weight matrixivregress gmm rent pcturban (hsngval = faminc iregion)
*Fit a regression via GMM using a heteroskedasticity-robust weight matrix, requesting nonrobust standard errorsivregress gmm rent pcturban (hsngval = faminc iregion), vce(unadjusted)
*检验
estata firststage ,all forcenonrobust \\\可以查看第一阶段F值,已经partial R2
estat overid \\\查看是否过度识别
estat endogenous \\\查看是否异方差
regress 2sls rent pcturban hsngval
est store m1
ivregress 2sls rent pcturban (hsngval = faminc iregion)
est store m2
hausman m1 m2 \\\内生检验
工具变量的合理性
为了加深理解,也为了好玩,我们来看看人大经济论坛上两个被绕晕的人的对话:
甲:一个计量方程 y =a + bx +u, x如果有内生性,则需要找一个工具变量z。理论上来说,工具变量Z必须与残差项U不相关,与被工具的变量X相关。但是x与u是相关的。实际上u总是会通过影响x来影响z的(因为u与x相关而x与z相关)。请问,这算不算工具变量z与残差项u相关,从而导致工具变量z无效?我考虑,这个u与z之间的影响是间接的。是不是只要不是直接的影响就可以?因为间接地影响好像是必然存在的。
比如说,阿西莫格鲁(Acemoglu)那篇著名的关于制度与经济增长的论文,把殖民时代的死亡率作为工具变量,但如果其他影响经济增长的因素通过影响殖民时代的制度来影响殖民时代的死亡率,那么死亡率这个工具变量不还是和残差项相关吗?
乙:我跟你的理解不一样。X是内生变量,说明在X背后有一个或者多个外生变量可以解释X,你所谓的那个工具变量Z就是那个主要解释X的外生变量。如果你可以找到这个解释X的外生变量,那就可以使得X与Z相关(因为可以建立X=a+bZ这样的回归方程,那肯定相关),另外直接用X解释Y的话,因为X是内生变量(也就是个二传手),Z这个外生变量被包含在误差项里面了,所以误差项与X会相关。但是你如果已经把Z给找出来了,并用工具变量法进行二阶段回归或者GMM的话,那么内生性问题就被消除了。
单方程回归分析的解释变量只能是外生变量,如果存在二传手(内生变量)那么就需要多一步建立外生变量(工具变量)与那个内生变量的关系(即工具变量对内生变量的回归方程,然后使用方程估计值取代原来的内生变量进行原方程的回归)。 所以找工具变量是需要很强的理论知识的,工具变量一定是外生变量,如果还是找个内生的变量那就没有意义了,多了个三转手罢了。
甲:你好像没回答我的问题,“如果已经把Z给找出来了,并用工具变量法进行二阶段回归或者GMM的话,那么内生性问题就被消除了”。可是得先确定z与误差项不相关,才能找出合适的z啊。我的问题就是,如果误差项通过影响x来影响z的(因为误差项与x相关而x与z相关),此时我找出的z还是不是合适的工具变量。
乙:误差项只是包含Z,不是影响Z。误差项包含了Z,Z与X相关(并且Z是X的原因),所以从现象上看就变成X与误差项相关了。你找到的Z跟误差项无关,跟X相关,而且从理论上解释得通,那么就可以当工具变量来用。另外工具变量一定要是外生变量,它只能影响别人不能被别人影响,也就是它只能是原因不能作为结果。(不然内生性问题还是没有解决)
甲:“误差项只是包含Z,不是影响Z。误差项包含了Z,Z与X相关(并且Z是X的原因),所以从现象上看就变成X与误差项相 ...”可是误差项完全有可能包含z之外的影响x的因素啊,也就是影响x的因素可能不止z一个啊,那样的话这个z以外的误差项包含的因素,不就可以通过与x相关进而与z相关了吗?这样工具变量z不就无效了吗?
乙:我个人觉得因为这里的Z也可以是范指,当然误差项可能包含多个外生变量。一般不可能100%穷尽所有的可以影响X的外生变量,误差项与X的相关性小到一定程度就可以收手了。
Z变量需要是外生变量,如果误差项里面还有其他的因素可以影响Z变量,那就说明Z变量也是内生变量,这就是一个多层次的因果关系了,在因与果之间有多重的中间变量。呵呵~我牛角尖就钻到这一步了,头晕了。接下来等待其他高人的见解了!
同学们可以想一想,如果你是乙,你会怎么回答甲的问题。
1, IV应该尽量是外生的(如历史/自然/气候/地理之类),它应该在理论上对被解释变量(以下称Y)没有直接影响,但应该通过影响被工具的变量(以下称X)而间接影响被解释变量Y。
2,如果上述理论逻辑通的话,将内生变量X作为解释变量,IV和其他变量(X2)作为解释变量,看IV是否显著,它应该显著。如果选了多个IV,就用F TEST看其是否都不显著。同时,如果在多个IV中,有一个是确定为外生的,那么,可以用Sargan test of overidentifying restrictions来检验其他的IV是不是确实是外生的。
3,如果上述都没有问题,做一下IV回归。完成后,用HAUSMAN检验,这个检验的原假说是IV回归与原回归(不用IV的回归)的变量的系数并没有显著的不同。看一下P值,如果P小于比如说0.1,或者0.05,那么,说明IV回归与原来的回归显著不同,原来的方程的确有内生性问题导致的估计偏误。反之,如果P很高,超过0.1,或0.05,那说明IV回归与原来的回归没有显著不同,无法拒绝原来的回归没有显著的内生问题导致的估计偏误的原假设。
4,如果选择的IV本身就影响Y,那它就不能被作为IV。例如,Y在左边,右边是X(被工具的),X2,IV。当IV被放在方程右边时,它最好是不显著影响Y的。在Acemoglu(2001)里,他就检验了他们的IV是否直接影响被解释变量,结果说明不直接影响,于是这个IV是好的。
当然,一个好的IV在前面的回归中也可能是显著的(不过一般如果理论和逻辑上IV是通过被工具的内生解释变量间接影响被解释变量的话,一般来说应该是被工具的内生解释变量使得IV不显著,或者由于两者相关性很高,两者都不显著),但判断的标准还只是t值。
这个变量显著完全有可能是因为它影响了其他显著的变量(比如被工具的变量),如果是这样,当包括了IV在原方程中以后,其他变量(特别需要注意的是被工具的变量X)的系数可能发生明显变化。
這篇文章有不少bugs,抱歉了。