查看原文
其他

基本无害 | 使回归有意义——回归和因果关系(1)

基本无害的 数据Seminar 2022-12-31

基本无害的计量经济学

——实证研究者指南

(重译本)

李井奎 译


第三章 使回归有意义第二节 回归和因果关系



正文共4627个字,预计阅读时间12分钟。感谢阅读!

原文:3.2.1

温馨提示:左右滑动可查看完整公式!



3.1 回归的基本原理

3.2 回归和因果关系

第3.1.2节展示了回归如何给出CEF的最佳(MMSE)线性近似。然而,这种理解并不能帮助我们解决更深层次的问题,即回归何时具有因果解释。什么时候我们可以考虑回归系数来近似在实验中可能被揭示的因果效应?

3.2.1 条件独立性假设

当回归近似的CEF具有因果性的时候,回归就具有因果性。当然,这并没有回答问题。它只是把责任推向了(另)一层面,因为,正如我们所看到的,回归承袭了CEF的合理性。因果关系的理解因人而异,但许多学科的研究人员发现,用第二章使用的潜在结果符号,描述在不同住院治疗状况下的假设性比较中特定个体发生的情况,对于思考因果关系是很有用的。这些潜在结果的差异被认为是住院治疗的因果效应。当CEF描述固定参考人群的平均潜在结果差异时,它即具有因果性。
在一个特定问题的背景下,最容易对因果性CEF的模糊概念进行扩展,所以让我们继续以学校教育程度为例。教育程度和收入之间的因果关系可以被定义为一种函数关系,它描述了一个特定个体(他或她)获得不同教育水平将会取得多少收入。特别是,我们可能会认为学校教育程度的抉择是在一系列事件中做出的,即便某些选择比其他选择更有可能,决策者实际上是可以走这条路或者另外一条路的。例如,在高中的时候,Angrist焦躁不安、心情郁闷,他悲观地考虑他的人生选项:从高中辍学,有希望找到一份工作;继续上学,但选些容易的课程,快速拿到高中文凭;或者在学业道路上埋头苦干,最终进入大学读书。虽然这些选择的结果通常是事先未知的,但对于特定的个人来说,不同道路导致不同结果的想法,似乎无可争议。哲学家们一直在争论这种潜在结果的个人见解是否足够精确,以至在科学上也一样有用,然而每个决策者似乎都能毫无障碍地以这种方式思考他们的生活和选择(正如罗伯特·弗罗斯特著名的《未走的路》中所言:人生旅途上的自己回顾某一个选择时刻时,他坚信,选择人迹罕至的那条道路“使一切有所不同”,尽管他也承认,反事实的结果并非可知)。
在实证研究中,教育程度和收入之间的因果关系可以告诉我们,如果我们能在可完全控制的环境中改变受教育程度,或者随机改变受教育程度,使受教育程度不同的人具有可比性,那么平均而言人们会挣得多少收入。正如我们在第2章中所讨论的,实验确保了所关心的因果变量与潜在结果无关,因此被比较的群体是真正具有可比性的。在这里,我们想将这个概念推广到具有两个以上值的因果变量以及更复杂的情况,即我们必须保持各种控制变量不变,以使因果推断有效。条件独立性假设(CIA)就此给出,这是一个核心假设,为回归估计的因果解释提供了(有时是隐性的)理由。这个假设也被称为基于可观测变量的选择,因为保持不变的协变量被假设为已知和可观测的(例如,请参看:Goldberger,1972;Barnow、Cain和Golderger,1981)。因此,最大的问题是,这些控制变量是什么,或者应该是什么。稍后我们会详细介绍。现在,我们只管做计量经济学的事情,把这些协变量称为。就学校教育问题而言,人们似乎很自然地认为是包含能力和家庭背景测量指标的一个向量。
讨论伊始,将教育程度看作一个二元决策,比如Angrist是否上大学。用一个虚拟变量表示它。上大学与否和未来结果(如收入)之间的因果关系,可以用我们在第2章中描述实验时使用的潜在结果符号来描述。为了解决这个问题,我们设想两个潜在的收入变量
这里,没上过大学时的收入,而上过大学时的收入。我们想知道的之间的差值,就是上过大学对个体的因果效应。如果我们能回到过去,推动走上没有走过的道路,我们就可以测量之间的差值。所观察到的结果可用潜在结果的形式表示为:
不过我们只能看到中的一个,不能同时看到两个。因此,我们希望测量的平均值,或某些群体的平均值,比如那些上过大学的人。这就是
一般来说,比较那些上过和没上过大学的人,很可能不是衡量上大学的因果效应的好方法。按照第2章的逻辑,我们有:
无论如何,上过大学的人看起来可能收入更高。如果是这样的话,选择性偏差为正,则这种简单的比较夸大了上大学的好处。
CIA告诉我们,在可观察到的特征为条件的情况下,选择性偏差消除了。形式上,这意味着:
其中符号“”表示独立关系,竖条右侧的随机变量为条件集。给定条件均值独立(CIA)假设,以为条件,对不同教育水平的平均收入进行对比可以得出因果关系。换句话说,
现在,我们想把条件独立假设扩展到可以包含有两个以上取值的变量的因果关系中去,比如学校教育年限。受教育程度和收入之间的因果关系可能因人而异。因此,我们使用特定个体的函数符号
来表示个人在接受年教育后可能获得的收入。如果只取12和16这两个值,那么我们就又回到了上过大学与否的那种情况中了:
更一般地说,函数告诉我们,给定任一个值的教育水平,取得多少收入。换句话说,回答了“如果某种情况发生那么将会怎么样(what if)”的因果关系问题。在人力资本和收入关系的理论模型体系中,的形式可能是由个人行为的那些特征决定,或者由市场力量决定,或者由两者共同决定的。
在这个更为一般的框架里,CIA变成了下面这个表达式:即对于所有的
在许多随机实验中,因为是在的条件下随机分配的(例如,在田纳西的STAR实验中,小班是在学校内随机分配的),所以CIA显然成立。在一项观测性的研究中,CIA的意思是,是在的条件下“和随机分配一样好”。
条件下,受教育年限增加一年所产生的平均因果效应为,而受教育年限增加4年所产生的平均因果效应为。数据只表明,即时的。但给定CIA,在条件下对不同教育水平的平均收入进行对比,是可以得出因果关系的解释的。换句话说,对于的任何值,
例如,我们可以比较受教育12年和11年的人的收入来认识高中毕业的平均因果效应:
这个比较之所以有一个因果解释,是因为给定CIA则有下式成立:
在这里,选择性偏差来自于潜在的(有能力)高中毕业的辍学者的收入水平与(实际)未能高中毕业的辍学者收入水平之间的差异。但是,如果CIA成立,高中毕业与否与的潜在收入无关,那么选择性偏差就消失了。还需要注意的是,在这种情况下,高中毕业生高中毕业的因果效应等于在条件下的高中毕业平均效应:
这确实重要,不过稍逊于消除选择性偏差。
到目前为止,我们已经为条件性变量的每个取值建立了单独的因果效应。这导致了有多少的值,就有多少因果效应,多到让人有点尴尬。经验研究者几乎总是发现将一组估计值归结为一个单一的概括指标很有用处,例如归结为无条件平均因果效应或总体平均因果效应。根据迭代期望法则,高中毕业的无条件平均因果效应为:
同理,我们还可能会对高中(毕业)生之高中毕业的平均因果效应感兴趣:
这个参数告诉我们高中毕业生因毕业优势而带来多少的收入。同样,对于大学毕业的效应,大学毕业生的平均因果效应与无条件平均效应是有区别的。
无条件平均效应(3.2.3)可以通过将所有特定的的效应以的边际分布加权平均来计算,而对高中或大学毕业生的平均因果效应则是将这些群体中特定的效应以的分布加权平均。在这两种情况下,经验上与之对应的是一个匹配估计量:我们在不同的教育群体中对具有相同协变量值的个人进行比较,计算他们平均收入的差异,然后以某种方式对这些差异进行平均。
实际上,在实现匹配策略时需要考虑许多细节。我们在第3.3.1节中给出了一些关于匹配机制的技术细节。这里我们要提到的是,匹配方法有一个缺点,就是它不是自动地实现的;相反,它需要两个步骤:匹配和平均。对所得到的估计值的标准误差进行估计,可能也不是那么简单。第三个考虑因素是,作为本小节核心内容的双向对比(高中或大学完成者与辍学者)并不能完全恰当地解决当前的问题。由于具有许多值,所以对于的每一个可能的增量都有单独的平均因果效应,这也必须以某种方式加以归结。[1] 这些考虑让我们重新回到回归问题上来。
回归提供了一个易于使用的经验策略,自动地把CIA变成因果效应。从CIA到回归有两种路径。一种假设上都是线性的,除了可加性误差项外,它对所有人都是相同的,在这种情况下,线性回归是估计特征的自然工具。另外一种路径更为一般化,但绕得稍远,它认识到,几乎肯定因人而异,而且不一定在上是线性的。即使如此,考虑到在不同的人之间的随机变化和对于特定个体的非线性,回归还是可以被认为是一种估计个体特定差异的加权平均值的策略。事实上,回归可以被看作是一种特殊的匹配估计量,它估计出了平均的因果效应,大小就如(3.2.3)或(3.2.5)中的一样。
此刻,我们想要关注回归得到因果解释所需的条件,而不是回归匹配类似程度的细节。因此,我们从第一条路径开始,即考虑一个线性常数效应因果模型。假设:
除了线性之外,这个方程还表明,函数关系对每个人来说都是相同的。再有,没有下标,因为方程(3.2.7)告诉我们,个人会取得多少收入,来自的任意值,而不只是其实现值。而在这种情况下,唯一的个体特异性和随机部分,是这个零均值误差部分,它体现了决定潜在收入的那些未被观察到的因素。
将(3.2.7)式中的观测值代入,得到:
除了方程(3.2.7)明确地将(3.2.8)中的系数与因果关系联系起来这一点之外,方程(3.2.8)看起来就像一个双变量回归模型。重要的是,因为方程(3.2.7)是一个因果模型,所以可能与潜在结果相关,或者,在这种情况下,与(3.2.8)的残差项相关。
现在假设,在给定可观测协变量的向量情况下,CIA成立。除了(3.2.8)中所体现的潜在结果的函数形式假设外,我们将潜在收入的随机部分分解为可观察特征和误差项的线性函数:
其中是假设满足的总体回归系数的向量。的回归所定义,残差在结构上不相关。此外,根据CIA条件,我们有:
因此,这个线性因果模型中的残差
与回归变量都不相关,回归系数就是我们所感兴趣的因果效应。
这里需要再次强调的关键假设是,可观察到的特征(也即)相关的唯一原因。这一假设在四分之一世纪之前就曾由Barnow、Cain和Goldberger(1981)讨论过,它就是关于回归模型的基于可观测变量的选择假设。它至今仍然是大多数经济学实证研究的基础。

注释:

[1]  例如,我们可以利用的分布构造的平均效应。换句话说,我们通过匹配来估计每个,然后计算平均差值

其中的概率质量函数。这是平均导数的离散近似。






本专栏主理人简介

企研数据学术顾问 · 李井奎


李井奎,1978年1月生,浙江工商大学经济学院教授、博士生导师,哈佛大学访问学者,以教书育人和传播学问为己任,曾获浙江省“高校优秀教师”称号。除学术论文写作之外,还著有《大侦探经济学:现代经济学的因果推断革命》等科普著作。




星标⭐我们不迷路!想要文章及时到,文末“在看”少不了!

点击搜索你感兴趣的内容吧



往期推荐


基本无害 | 第三章第一节(全)—— 回归的基本原理

基本无害 | 使回归有意义——基本原理(4)

基本无害 | 使回归有意义——基本原理(3)

基本无害 | 使回归有意义——基本原理(2)

基本无害 | 使回归有意义——基本原理(1)





数据Seminar




这里是大数据、分析技术与学术研究的三叉路口


文 | 《基本无害的计量经济学——实证研究者指南(重译本)》

翻译 | 李井奎

校对 | 陈泽 王锐

排版 | 彭绮荣


    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存