其他
如何寻找工具变量?
↑
↑
↑
y = β0 + β1x1 + βX + ε (1)
↑
↑
↑
↑
↑
↑
↑
↑
就是说,Cov(z,u) = 0无法验证,我们只能依赖常识和经济理论,这需要理论修养和积累。
但是我们可以检验是否Cov(z,x) ≠0,即检验
H0: p1 = 0 x = p0 + p1z + v
这个回归有时被称为第一阶段回归。
↑
事实上使用的回归:将对数工资对教育回归,但由于误差项包含能力,并且教育水平与能力相关,此时会出现教育的内生性问题。
z应当对y无偏效应,也不应当与其它影响y的因素相关。z 必然与内生解释变量x有着正的或负的关系。就是说Z不能和U有关,而且Z只能通过影响X来间接地影响Y。
log(wage)方程,educ的工具变量z必须:(1)与能力(以及其它影响工资的不可观测的因素)不相关,(2)与教育相关。诸如一个人的社会福利登记号的最后一位数字之类的变量,几乎一定满足第一个必需条件:与能力不相关,因为它是随机决定的。然而,该变量与教育不相关,因而是educ的一个低劣的工具变量。
所谓的用于遗漏变量的代理变量因相应的原因也是低劣的IV。例如,在遗漏能力的log(wage)例子中,abil的代理变量应该尽可能地与abil高度相关。而工具变量必须与abil不相关。因此,尽管IQ是abil的一个好的代理变量候选者,它却不是educ的好的工具变量。
对其它可能的工具变量候选者,这些必需条件更加不确定。劳动经济学家已在工资方程中使用家庭背景变量作为教育的IV。例如,母亲的教育(motheduc)与孩子的教育是正相关的,这一点通过收集劳动者数据样本并做educ对motheduc的简单回归便可以看出来。因此,motheduc满足方程 Cov(z,x) ≠0。问题是,母亲的教育也可能与孩子的能力相关(通过母亲的能力和可能通过孩子幼年所受的教养的质量)。
↑
↑
↑
值得注意的是 尽管当z与u不相关,而z与x存在着正的或负的相关时,IV是一致性的,但当z与x只是弱相关时IV估计值可能有大的标准误。z与x之间的弱相关可能产生甚至是更加严重的后果:即使z与u只是适度相关,IV估计量也会有大的渐近偏误。
后来左老师举了Angrist那个教育和出生季度的例子。
Angrist & Krueger(1991)利用美国的男性人口调查数据,提出了educ的一个巧妙的二值工具变量。如果该男性是在第一季度出生的,令frstqrt等于1,否则为0。(15.14)中的误差项——特别是能力——似乎应该与出生季度不相关。但是,frstqrt还要与educ相关。事实表明,在基于出生季度的总体中,教育年数确实有系统性差异。Angrist和Krueger认为是缘于在各州实行的义务就学法,这很有说服力。简单地说,年初出生的学生往往入学较晚。因此,他们在达到义务教育年龄时(大部分州定为16岁),所受的教育略少于入学较早的学生。
因为教育年数在各出生季度之间的变化仅仅是微乎其微的——这意味着我们做 对 的回归来获得的 非常小——Angrist和Krueger需要很大的样本容量来得到一个合理而准确的IV估计值。利用1920至1929年之间出生的247,199位男性的数据,得出教育回报的OLS估计值为.0801(标准误为.0004),IV估计值为.0715(.0219);见于Angrist和Krueger的论文中的表III。注意到OLS估计值的t统计量那么大(约为200),然而IV估计值的t统计量仅为3.26。因而IV估计值在统计上不为0,但其置信区间比基于OLS估计值的置信区间宽得多。
↑
其中veteran是二值变量。疑问在于,用OLS估计该方程时,可能存在一个自我选择(self-selection)的问题:也许人们因为能从军队中得到最多的收入而选择参军,或者参军的决策与其他对收入有影响的特征相关。这些问题将导致veteran与u相关。
↑
甲:一个计量方程 y =a + bx +u, x如果有内生性,则需要找一个工具变量z。理论上来说,工具变量Z必须与残差项U不相关,与被工具的变量X相关。但是x与u是相关的。实际上u总是会通过影响x来影响z的(因为u与x相关而x与z相关)。请问,这算不算工具变量z与残差项u相关,从而导致工具变量z无效?我考虑,这个u与z之间的影响是间接的。是不是只要不是直接的影响就可以?因为间接地影响好像是必然存在的。
比如说,阿西莫格鲁(Acemoglu)那篇著名的关于制度与经济增长的论文,把殖民时代的死亡率作为工具变量,但如果其他影响经济增长的因素通过影响殖民时代的制度来影响殖民时代的死亡率,那么死亡率这个工具变量不还是和残差项相关吗?
乙:我跟你的理解不一样。X是内生变量,说明在X背后有一个或者多个外生变量可以解释X,你所谓的那个工具变量Z就是那个主要解释X的外生变量。如果你可以找到这个解释X的外生变量,那就可以使得X与Z相关(因为可以建立X=a+bZ这样的回归方程,那肯定相关),另外直接用X解释Y的话,因为X是内生变量(也就是个二传手),Z这个外生变量被包含在误差项里面了,所以误差项与X会相关。但是你如果已经把Z给找出来了,并用工具变量法进行二阶段回归或者GMM的话,那么内生性问题就被消除了。单方程回归分析的解释变量只能是外生变量,如果存在二传手(内生变量)那么就需要多一步建立外生变量(工具变量)与那个内生变量的关系(即工具变量对内生变量的回归方程,然后使用方程估计值取代原来的内生变量进行原方程的回归)。 所以找工具变量是需要很强的理论知识的,工具变量一定是外生变量,如果还是找个内生的变量那就没有意义了,多了个三转手罢了。
甲:你好像没回答我的问题,“如果已经把Z给找出来了,并用工具变量法进行二阶段回归或者GMM的话,那么内生性问题就被消除了”。可是得先确定z与误差项不相关,才能找出合适的z啊。我的问题就是,如果误差项通过影响x来影响z的(因为误差项与x相关而x与z相关),此时我找出的z还是不是合适的工具变量。
乙:误差项只是包含Z,不是影响Z。误差项包含了Z,Z与X相关(并且Z是X的原因),所以从现象上看就变成X与误差项相关了。你找到的Z跟误差项无关,跟X相关,而且从理论上解释得通,那么就可以当工具变量来用。另外工具变量一定要是外生变量,它只能影响别人不能被别人影响,也就是它只能是原因不能作为结果。(不然内生性问题还是没有解决)
甲:“误差项只是包含Z,不是影响Z。误差项包含了Z,Z与X相关(并且Z是X的原因),所以从现象上看就变成X与误差项相 ...”可是误差项完全有可能包含z之外的影响x的因素啊,也就是影响x的因素可能不止z一个啊,那样的话这个z以外的误差项包含的因素,不就可以通过与x相关进而与z相关了吗?这样工具变量z不就无效了吗?
乙:我个人觉得因为这里的Z也可以是范指,当然误差项可能包含多个外生变量。一般不可能100%穷尽所有的可以影响X的外生变量,误差项与X的相关性小到一定程度就可以收手了。Z变量需要是外生变量,如果误差项里面还有其他的因素可以影响Z变量,那就说明Z变量也是内生变量,这就是一个多层次的因果关系了,在因与果之间有多重的中间变量。呵呵~我牛角尖就钻到这一步了,头晕了。接下来等待其他高人的见解了!
↑
1, IV应该尽量是外生的(如历史/自然/气候/地理之类),它应该在理论上对被解释变量(以下称Y)没有直接影响,但应该通过影响被工具的变量(以下称X)而间接影响被解释变量Y。
2,如果上述理论逻辑通的话,将内生变量X作为解释变量,IV和其他变量(X2)作为解释变量,看IV是否显著,它应该显著。如果选了多个IV,就用F TEST看其是否都不显著。同时,如果在多个IV中,有一个是确定为外生的,那么,可以用Sargan test of overidentifying restrictions来检验其他的IV是不是确实是外生的。
3,如果上述都没有问题,做一下IV回归。完成后,用HAUSMAN检验,这个检验的原假说是IV回归与原回归(不用IV的回归)的变量的系数并没有显著的不同。看一下P值,如果P小于比如说0.1,或者0.05,那么,说明IV回归与原来的回归显著不同,原来的方程的确有内生性问题导致的估计偏误。反之,如果P很高,超过0.1,或0.05,那说明IV回归与原来的回归没有显著不同,无法拒绝原来的回归没有显著的内生问题导致的估计偏误的原假设。
@计量经济学圈
记录一个我们生活在其中的时代社会,一个非常具有潜力的深度与客观兼具的大号,囊括的主题如下:经济、社会、历史、新闻、世界、计量工具。