查看原文
其他

基本无害 | 使回归有意义——回归和因果关系(3)

基本无害的 数据Seminar 2022-12-31

基本无害的计量经济学

——实证研究者指南

(重译本)

李井奎 译


第三章 使回归有意义第二节 回归和因果关系



正文共3389个字,预计阅读时间9分钟。感谢阅读!

原文:3.2.3

温馨提示:左右滑动可查看完整公式!



3.2.1 条件独立性假设

3.2.2 遗漏变量偏差公式

3.2.3   不良的控制

我们已经指出,对协变量的控制可以增加回归估计值具有因果解释的可能性。但并不总是越多的控制就越好。有些变量是不良的控制变量,不应该包含在回归模型中,即使把它们包含进回归模型时预计可以改变短回归系数。不良的控制变量本身会是我们所设想的实验的结果变量。也就是说,不良的控制变量也可能是因变量。良好的控制变量,是我们可以考虑的当感兴趣的回归变量选定时(它们)也已经固定的变量。尽管比第2章和第3.2.1节讨论的选择性偏差更微妙,不良控制问题的本质还是一类选择性偏差。为了说明这一点,假设我们对大学学历影响收入的问题产生兴趣,同时设想我们可以从事两种职业(白领和蓝领)之一。大学学历显然为高薪白领工作打开了大门。因此,职业是否应该被视为工资对受教育年限回归中被遗漏的变量呢?毕竟,职业与教育和收入两者都高度相关。也许,最好还是在一类职业中观察大学(学历)对工资的此种影响,比如仅看白领。该问题的争议在于,一旦我们承认大学学历影响职业这一事实,即使大学学历是随机分配的,同类职业中大学学历身份(与否)的工资比较,就不具有苹果与苹果的可比较性了。下面是有关大学学历/职业中不良控制问题的公式化阐释。[1]  为虚拟变量,表示是否白领工人, 表示收入。这些变量的实现取决于大学学历身份( 表示)以及与 挂钩的潜在结果。我们有
其中, 表示拥有大学学历, 表示不拥有大学学历, 表示潜在的收入, 表示潜在的白领工人与否。我们假设 是随机分配的,因此它独立于所有可能的结果。我们不难估计 的因果关系,因为独立性告诉我们
在实践中,我们可以通过 的回归来估计这些平均处理效应。不良的控制意味着以 为条件的收入比较不具有因果解释。以是白领工作为条件,考虑大学毕业生和非大学毕业生的平均收入差异。我们可以在一个包含 的回归模型中计算这个值,或者在 的样本中通过 进行回归。后一种情况下的估计值是在 条件下 时的平均值之差:
的联合独立性,我们得到
这个表达点出了不良控制问题的本质:
换句话说,以是否从事白领工作为条件,有无大学学历的工资差异,等于那些 的人们(拥有大学学历且为白领工人)大学学历的因果效应加上选择性偏差这一项,该偏差项反映了这样一个事实:大学学历改变了白领工人群组的构成。在这种情况下,选择性偏差可以是正的,也可以是负的,这取决于职业选择、是否受过大学教育和潜在收入之间的关系。关键在于,即使 ,也就是大学教育对工资没有因果关系,(3.2.12)中的条件性比较告诉不了我们这一点( 的回归有着完全相同的问题)。如果说条件性比较抓住了大学学历效应中“不是由职业选择来解释的”那一部分,这也是不正确的。事实上,如果没有一个关于大学教育、职业选择和收入之间联系的更详细的模型,条件性比较并不能告诉我们多少有用的东西。[2]作为一个实证例子,我们看到,把职业这个二元虚拟变量纳入回归,确实降低了表3.2.1中报告的NLSY模型中受教育年限的系数,此例中系数从0.087降低到0.066。然而,对于这种下降,我们难以言说。当我们把职业虚拟变量纳入回归时,受教育年限系数的变化可能只是选择性偏差的产物。所以,我们只控制哪些本身不是由于教育引起的变量更好些。不良控制问题的第二种情况,涉及到代理控制变量(proxy control),也就是说,回归包含了一些或许部分地控制了遗漏变量的变量,但它们自身也会受到我们所感兴趣的回归变量的影响。代理控制变量的一个简单版本是这样的:假设你对一个类似于(3.2.10)的长回归感兴趣,
为了便于讨论,在该方程中,我们将控制向量替换为能力这个标量指标 我们可以把它看作是在做出任何相关的教育选择之前(假设每个人都完成了八年级学业)一个衡量八年级学生先天能力的智商分数。根据定义这个方程中的误差项满足 因为 是在 确定之前观测的,所以它是一个良好的控制变量。方程(3.2.13)是我们所感兴趣的回归,但遗憾的是, 的数据是不可得的。不过,你还可以找到第二种能力指标(比如,用于筛选求职者的测试分数),这个指标是在人们完成学业之后收集的。我们不妨把它称为后天的能力变量  。一般来说,相对于先天能力,学校教育会提高后天能力。具体来说,假设
由此式,我们可称学校教育和先天能力都提高了后天或(其他)可观测的能力几乎可以肯定,在所观测到的能力中也存在一些随机性,但我们可以通过确定性联系(3.2.14)更简单地阐明我们的观点。你担心 的单独回归中遗漏变量偏差,(又)因为你想要控制的 不可得,所以你打算让 和后天能力 回归。用(3.2.14)代替(3.2.13)中的 ,对 的回归为
在这种情况下, 都是正的,所以,除非 等于0,否则 是非常小的。换句话说,使用所感兴趣的变量而增加的代理控制变量,会产生低于预期效应的系数。但要关注的是, 可以作某种程度的研究:如果 的回归是零,你可以感觉良好地假设 在(3.2.14)中是零。在代理控制变量情况中有一个有趣的模棱两可之处,这在第一个不良控制变量情形中是没有出现的。对结果变量的控制被轻易误导了;如果回归能有一个因果解释,那么你不会想在受教育年限回归中控制职业变量。不过,在代理控制变量情况中,你的意图还是不错的。虽然代理控制变量不会产生感兴趣的回归系数,但它可能比完全没有控制变量要有所改进。回想一下,使用代理控制变量的理由在于等式(3.2.13)。就这个模型中的参数而言,OVB公式告诉我们,在没有控制变量情况下对 的回归产生一个系数 ,其中 回归的斜率系数。(3.2.15)中的学校教育系数可能比你估计的完全没有控制变量的系数更接近 。此外,假设 为正,你可以有把握地说,我们所感兴趣的因果效应存在于这两者之间。不良控制和代理控制变量问题所带来的一个教训是,在考虑控制变量时,时机很重要。在感兴趣的变量确定之前观测的变量,通常是良好的控制变量。特别是,因为这些变量确定于感兴趣的变量之前,所以它们本身不可能是因果关系的结果。然而,时机往往是不确定或未知的。在这种情况下,关于因果路径的清晰推理需要明确地假设首先发生了什么,或者断言没有任何控制变量本身是由感兴趣的回归变量引起的。[3]

注释:

[1] 同样的问题也出现在以正概率为条件的比较中,我们还将在第3.4.2节对此详加讨论。

[2] 在这个例子中,选择性偏差可能是负的,也就是说 。任何大学毕业生都能得到一份白领工作,这似乎是合理的,所以 相差不大。但是,那些没有大学学历(即 )而得到一份白领工作的人可能很特别,也就是说,他们的 比平均水平更高。

[3] Griliches和Mason(1972)对先天和后天能力控制变量在学校教育回归方程中的应用进行了开创性的探索。另见Chamberlain(1977,1978)与此密切相关的研究。Rosenbaum(1984)在回归框架之外,使用非常不同的符号对代理控制变量思想进行了另一种讨论。






本专栏主理人简介

企研数据学术顾问 · 李井奎


李井奎,1978年1月生,浙江工商大学经济学院教授、博士生导师,哈佛大学访问学者,以教书育人和传播学问为己任,曾获浙江省“高校优秀教师”称号。除学术论文写作之外,还著有《大侦探经济学:现代经济学的因果推断革命》等科普著作。




星标⭐我们不迷路!想要文章及时到,文末“在看”少不了!

点击搜索你感兴趣的内容吧



往期推荐


基本无害 | 使回归有意义——回归和因果关系(2)

基本无害 | 使回归有意义——回归和因果关系(1)

基本无害 | 第三章第一节(全)—— 回归的基本原理

数据治理 | 省下一个亿!一文读懂如何用python读取并处理PDF中的表格(赠送本文所用的PDF文件)

数据治理 | 教你三招,提升你的电脑安全系数!

数据治理 | 从“今天中午吃什么”中学习Python文本相似度计算





数据Seminar




这里是大数据、分析技术与学术研究的三叉路口


文 | 《基本无害的计量经济学——实证研究者指南(重译本)》

翻译 | 李井奎

校对 | 陈泽 王锐

排版 | 彭绮荣


    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存