查看原文
其他

基本无害 | 使回归有意义——回归和因果关系(2)

基本无害的 数据Seminar 2022-12-31

基本无害的计量经济学

——实证研究者指南

(重译本)

李井奎 译


第三章 使回归有意义第二节 回归和因果关系



正文共3454个字,预计阅读时间9分钟。感谢阅读!

原文:3.2.2

温馨提示:左右滑动可查看完整公式!


3.2.1 条件独立性假设

3.2.2 遗漏变量偏差公式

除了感兴趣的变量 ,我们现在还把一组控制变量 引入到我们的回归中。遗漏变量偏差(OVB)公式描述了拥有不同控制变量集的模型回归估计值之间的关系。这个重要的公式通常是由这样一个观念驱动的,即认为较长的回归——如(3.2.9)那样有控制变量集的回归——具有因果解释,而较短的回归则没有因果解释。因此,较短回归中所含变量的系数被认为是有偏的。事实上,OVB公式是适用于短回归和长回归的系数向量之间的一种联系机制,而不论长回归是否具有因果解释。虽然如此,我们还是遵循惯例,将长回归和短回归中包含的系数之间的差异视为由OVB公式确定的。
为了使讨论具体化,假设学校教育回归中的相关控制变量集可以归结为家庭背景、智力和个人志向的组合。让我们用向量 来表示这些特定因素,将其简称为“能力”。控制能力因素之后,工资对受教育年限 的回归可以写成:
其中, 是总体回归系数, 是根据定义与所有回归变量不相关的回归残差。如果给定 情况下CIA适用,那么此处的 即与线性因果模型(3.2.7)中的系数相 等,而残差是 控制 后剩余的影响潜在收入的随机部分。
在实践中,能力因素很难衡量。例如,美国当前人口调查(CPS)是应用微观经济学中广泛使用的大型数据集(也是美国政府失业率数据的来源),它没有告诉我们成年受访者的家庭背景、智力或个人志向如何。回归(3.2.10)缺少能力因素,其后果是什么呢?所得到的“短回归”系数与式(3.2.10)中的“长回归”系数的关系如下:
遗漏变量偏差公式
其中 元素对 回归所得的系数向量。换句话说,OVB公式告诉我们:
短回归等于长回归加上遗漏变量效应乘以遗漏变量对所包含变量的回归。
这个公式很容易推导:将长回归代入短回归公式 。不足为奇的是,OVB公式与3.1.2节中的回归解析公式(3.1.3)密切相关。OVB公式和回归解析公式都告诉我们,当遗漏变量和所包含变量不相关时,长短回归的系数是相同的。[1]
我们可以使用OVB公式来认识学校教育系数中遗漏能力因素的可能后果。这些遗漏变量对工资有正向影响,也可能与受教育程度呈正相关。因此,与我们所期望的相比,短期回归系数可能“太大”。另一方面,就经济理论而言,学校教育和能力之间相关性的方向并不十分明确。有些遗漏变量可能与学校教育负相关,这种情况下回归系数又可能太小。[2]
表3.2.1使用NLSY的数据说明了这些情况。表中的前三个条目显示,当家庭背景变量(本例中是父母的教育程度)以及一些基本人口统计特征(年龄、种族、人口普查居住地)作为控制变量时,学校教育系数从0.132下降到0.114。通过军队资格测试(AFQT)分数作为代理变量来进一步控制个人能力,可将学校教育系数降低到0.087 (AFQT是军队用来选拔士兵的测试)。OVB公式告诉我们,这些减少是由于增加的控制变量与工资和教育都呈正相关的事实所致。[3]
表3.2.1  NLSY中对男性而言教育回报的估计值

注:数据来自全国青年纵向调查(1979年组,2002年调查)。该表报告了在工资对数对就学年数和其他所显示的控制变量的回归中就学年数的系数。标准误差在括号内给出。该样本仅限于男性,并由NLSY抽样权重加权。样本容量是2434。

*其他的控制变量是父母受教育的年限,以及作为虚拟变量的种族和人口普查居住地。

尽管简单,OVB公式却是认识回归的最重要事实之一。OVB公式的重要性源于这样一个事实:如果你认为没有遗漏变量偏差,那么通常你也会说得到的回归就是你想要的回归。而你想要的回归通常会有一个因果解释。换句话说,你准备凭借CIA取得对长期回归估计值的因果解释。
此时,值得考虑的是CIA什么时候最有可能为实证工作提供可信的基础。最好的情况是在某种实验(可能是自然实验)中,以 为条件随机分配 。Black等人(2003)对失业工人强制性再培训计划的研究即为一例。令这项研究的作者感兴趣的是,再培训计划能否在以后成功地提高收入。他们利用了这样一个事实:他们所研究项目中的培训资格是根据个人特征以及过去的失业和工作经历来确定的。工人们根据这些特点被分成不同的群体。虽然一些工人群体中的某些人没有资格接受培训,但其他群体的工人如果没有工作就必须接受培训。当这些强制性培训组的工人人数超过培训名额时,培训机会则是通过抽签分配的。因此,以将工人分配到各组的协变量为条件,培训要求此时是随机分配的。对是否受到培训的虚拟变量,以及个人特征、过去的失业情况变量和用于对工人进行分类的工作经历变量进行回归,似乎很有可能提供对培训因果效应的可靠估计值。[4]
在学校教育方面,通常不会有直接决定一个人是否上大学或完成高中学业这样的抽签机会。[5]尽管如此,我们还是可以想象让具有相似能力和相似家庭背景的人参加一个鼓励上学的实验。教育维持津贴(educational Maintenance Allowance)就是这样一种政策实验(Dearden等人,2003),它向英国某些地区的高中生支付上学费用。
第二种支持CIA的情况依赖于关于决定 过程的详细的制度知识。例如,Angrist(1998)研究了自愿服兵役对士兵后来收入的影响。这项研究想问的是,从长远来看,自愿在美国军队服役的男性经济状况是否会更好。由于自愿服兵役不是随机分配的,所以我们永远无法确定其因果效应。因此,Angrist使用匹配和回归技术来控制在1979年到1982年间申请服兵役的退伍军人和非退伍军人之间的可观察差异。在这种情况下,采取该控制策略的由头是,军方主要根据可观察的协变量,如年龄、学历和考试分数来筛选士兵申请人。
Angrist(1998)中的CIA可以归结为这样一种主张,即在以所有这些可观察到的特征为条件的情况下,退伍军人和非退伍军人是可比较的。这个假设似可付之一笑,因为以 为条件,在Angrist(1998)研究中是否为退伍军人这一变量的变化仅仅来自于以下这一事实,即有一些合格的申请人在最后一刻没有入伍。其实,导致合格申请者“退出”招募过程的因素可能与潜在收入有关,所以在这种情况下,CIA显然根本不能得到保证。

注释:

[1] 这是一般化到多元情形的OVB: 表示没有其他变量的(短)回归中 变量向量 的系数向量,令 表示这些变量在包含 增加的变量 (其系数向量为 )的(长)回归的系数向量。然后

[2]  作为受过高等教育的人,我们倾向于认为能力和学校教育是正相关的。然而,这并不是一个必然的结论:米克•贾格尔(Mick Jagger)从伦敦经济学院(London School of Economics)退学,比尔•盖茨(Bill Gates)从哈佛大学(Harvard)退学,或许是因为这些高智商人士上学的机会成本很高(当然,他们也可能是一对非常幸运的大学辍学生)吧。

[3] 大量的实证文献研究了从学校教育回归方程中忽略能力变量的后果。早期的主要参考文献包括:Griliches和Mason (1972), Taubman (1976), Griliches (1977), 以及Chamberlain (1978)。

[4]  这个项目似乎提高了收入,主要是因为接受培训的工人更快地重返工作岗位。

[5]  抽签被用来发放私立学校的学费补贴;参见Angrist等人(2002)。




本专栏主理人简介

企研数据学术顾问 · 李井奎


李井奎,1978年1月生,浙江工商大学经济学院教授、博士生导师,哈佛大学访问学者,以教书育人和传播学问为己任,曾获浙江省“高校优秀教师”称号。除学术论文写作之外,还著有《大侦探经济学:现代经济学的因果推断革命》等科普著作。




星标⭐我们不迷路!想要文章及时到,文末“在看”少不了!

点击搜索你感兴趣的内容吧


往期推荐


基本无害 | 第三章第一节(全)—— 回归的基本原理

基本无害 | 使回归有意义——基本原理(4)

基本无害 | 使回归有意义——基本原理(3)

基本无害 | 使回归有意义——基本原理(2)

基本无害 | 使回归有意义——基本原理(1)





数据Seminar




这里是大数据、分析技术与学术研究的三叉路口


文 | 《基本无害的计量经济学——实证研究者指南(重译本)》

翻译 | 李井奎

校对 | 陈泽 王锐

排版 | 李木子


    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存