内生性与工具变量:面板数据的例子
来源:经管之家论坛,坛友:Denver
省级面板数据(经济增长与人口增长,1978-2008)
首先,假设我们要研究经济增长(y_it)与人口增长(x_it)之间的因果关系。用这个例子,大家都熟悉,即使不专门做这方面研究应该也在日常生活中接触过一些新闻。
其次,假设我们使用常规的省级固定效应(a_i)+时间固定效应(b_t),其他控制变量为z_it,扰动项为e_it,常数项为c,则模型为
y_it=c+x_it+z_it+a_i+b_t+e_it
在分析中,我们会遇到“双向因果”的难题。即,我们想知道人口增长对经济增长的贡献,但我们担心经济增长会反过来影响人口增长。
现在,我们开始正式讨论工具变量。假如有人提出使用超生罚款(数据可以参见:Scharping, Thomas, 2003, Birth Control in China 1949-2000)作为人口增长的工具变量,这是否合适呢?(注:超生罚款是指违反当地计生规定之后需要缴纳的罚款,以收入的倍数作为衡量指标。我们暂时不考虑超生罚款在各个年份中间变化率较小这个技术细节问题。)
1.工具变量与内生性变量的相关性。
这一条显然是满足的。省级计生政策会影响当地人口增速。
2.工具变量的排他性。
大部分的研究,都在这个环节出现争议(未必就是错误)。在本案例中,计生政策是否会与遗漏变量相关。假设在z_it中我们控制一部分影响经济增长的变量,如资本、教育、一些虚拟变量等。
由于使用了时间和省固定效应,又控制了重要的经济增长决定因素,所以,可能会有读者认为计生政策在消除了诸多不可观察因素之后与e_it应该无关了。
但是,即使控制了上述这些变量和固定效应,超生罚款依然可能存在问题。
计生政策的松紧与1949-1976年间各省的人口结构和总人口有关系,假如我们把这段时期的人口结构定义为m,那么工具变量除了通过x_it影响y_it外,还可以通过m影响y_it。这部分因素随时间变化而变动,所以省固定效应无法消除。由于通常意义上的教育变量定义的是当年拥有中学文化程度的劳动者占比,所以也不能刻画这个变量。
为了确认工具变量的有效性,应该在稳健性检验中加入抚养比。如果模型中z_it只包括少数影响经济增长的变量,那么也许会有问题。
3.工具变量是否应包含在主方程中?
此外,尽管超生罚款政策是改革开放之后才有,但中国的人口控制政策却分为三个阶段在全国推开。第一次是在60年代的北京天津上海;第二轮是在70年代中期,非少数民族聚居区的10多个省份展开;最后一次则是在改革开放之后,在全国剩余省自治区全面推行。这个事实实际上暗含着一个非常重要的信息,当前的计生政策松紧程度与一个地区的经济发展或多或少存在正相关。极端地说,超生罚款这个变量看似是人口增长的工具变量,但其实它包括的信息本质上包含了经济基础和发展潜能。所以,从某种角度说它应该是控制变量的一部分,因此,并不一定适合在此使用。
4.小结
这个例子,只是想说明使用工具变量可能会存在许多“意外”。在本案例中,我们会想当然认定超生罚款与人口增长有关,并且在控制了其他因素的情况下,不会与遗漏变量相关。但实际操作中,问题可能会非常复杂,未必如我们所愿。如果使用家庭或者个人数据,被解释变量换成其他的(如:家庭消费,个人收入,个人健康,等等),如果依然使用超生罚款做人口增长(或者性别比例失衡等)的工具变量,那么问题会更隐蔽。
精彩回顾
点击上图查看: