查看原文
其他

基本无害 | 使回归有意义——基本原理(1)

基本无害的 数据Seminar 2022-12-31

基本无害的计量经济学

——实证研究者指南

(重译本)

李井奎 译


第三章 使回归有意义第一节 回归的基本原理




正文共3347个字,预计阅读时间10分钟。感谢阅读!

原文:3.1.1



“思考不可能性,做做不到的事。抓住无法言喻的想法,或许并不会把一切搞砸。”

——道格拉斯·亚当斯,《全能侦探社》

Angrist讲述道:

1979年夏天,我在奥柏林学院读大一到大二期间,运行了人生第一次回归。在匹兹堡我家附近的卡内基-梅隆大学,我为艾伦·梅尔泽(Allan Meltzer)和斯科特·理查德(Scott Richard)做研究助理。我最感兴趣的还是从事特殊教育的工作,并计划回到州立精神病院做护理员,这是我上一份暑期工作。但经济学101启发了我的思考,我还发现,在相同的工资水平下,研究助理的工作时间和工作条件都比医院护理员好。我的研究助理职责包括数据收集和回归分析,虽然当时我对回归甚至统计学都不了解。

那年夏天我做助理时的那篇论文(Meltzer和Richard, 1983)试图将民主国家的政府规模(以政府支出占GDP的比例衡量)与收入不平等联系起来。大多数收入分布都有一个很长的右尾,这意味着平均收入往往高于中位数。当不平等加剧时,更多的选民发现自己的收入低于平均水平。因为对此感到恼火,那些收入在中位数和平均值之间的人可能会加入到那些收入低于中位数水平的人的行列,投票支持劫富济贫的财政政策。政府的规模由此而扩大。

我理解梅尔泽和理查德这项研究背后的基本理论,尽管我觉得它不那么可信,因为穷人的投票率很低。我还记得,我和我的两位老板争论的问题是,政府在教育方面的支出是应该被归为公共产品(既能让社会上的每个人受益,也能让那些直接受影响的人受益),还是归为公共供应的私人产品,从而成为一种像福利一样的再分配形式呢?你可能会说,这个项目标志着我开始对教育的社会回报感兴趣,在Acemoglu和Angrist(2000)中,我带着更多的热情和理解回到了这个话题。

今天,我把梅尔泽和理查德的研究理解为使用回归来揭示和量化那有趣因果关系的一种尝试。但在那时,我只是一个纯粹的回归机器。有时候我觉得研究助理的工作令人沮丧。日子一天天过去,除了我的老板和偶尔来的大多数几乎不说英语的卡内基-梅隆大学的博士生,我无人可以说话。这份工作最精彩的部分是和艾伦·梅尔泽共进午餐,他是一位杰出的学者,也是一位耐心、和善的导师。我们一边吃着棕色袋子里的东西,他一边开心地聊天(这没花多长时间,因为艾伦吃得很少,而我吃得很快)。有一次我问艾伦,把他的时间耗费在研究呈现于大量双宽绿条纸上的回归结果,他是否感到满足。梅尔泽笑了,说除了这些他什么也不想做。

现在,我们也像我们在大学和研究生院的老师们一样,快乐地阅读回归结果。本章就来告诉你为什么会这样。

3.1 回归的基本原理

上一章的最后介绍了回归模型,作为在包括和不包括协变量的实验中估计处理组-控制组之间差异的计算方法。由于第2.3节讨论的班级规模研究中我们感兴趣的回归变量是随机分配的,因此得出的估计值具有因果解释。然而,在大多数研究中,用于回归的则是观测数据。没有随机分配的优点,回归估计值是否具有因果解释在两可之间。在本章后面的部分,我们还会回到如何使回归具有因果解释这个中心问题上来。
我们暂且把相对抽象的因果关系问题搁置一旁,而从回归估计值的机械性质(mechanical properties)开始。这些性质是总体回归向量及其样本类似物的普遍特征,与研究人员对其输出结果的解释无关。这些性质包括总体回归函数与条件期望函数之间的密切联系以及回归估计值的抽样分布。

3.1.1 经济关系与条件期望函数

劳动经济学领域的实证经济研究通常涉及个人经济环境的统计分析,特别是可能导致其经济命运天差地远的人与人之间的差异。众所周知,经济财富的差异很难解释;总之,它们是随机的。然而,作为应用计量经济学家,我们相信我们能以一种有用的方式概括和解释随机性。引言中提到的“系统随机性”的一个例子是教育与收入之间的联系。平均而言,受教育程度较高的人比受教育程度较低的人挣得更多。教育与收入之间的联系具有相当大的预测能力,尽管个人环境的巨大差异有时会掩盖这一事实。当然,受教育程度高的人往往比受教育程度低的人挣得多,这一事实并不意味着接受教育就会导致收入增加。收入和学校教育之间的关系是否具有因果关系,这个问题非常重要,我们会反复讨论这个问题。然而,即使没有解决因果关系这个棘手的问题,从狭义的统计意义上来看,教育水平可以预测收入,这一点也是很明显的。条件期望函数(CEF)有力地概括了这种预测能力。
给定协变量 向量(其元素是 ),因变量 的CEF是 保持不变条件下 的期望或总体平均值。总体平均值可以被认为是无限大样本中的均值,或可全部枚举的有限总体中的平均值。CEF写作 ,是 的函数。因为 是随机的,所以CEF也是随机的,尽管有时我们使用的是CEF的一个特定值,比如 ,它假设 的可能值是42。在第2章,我们简要地讨论了 这个CEF,其中 是一个0-1变量。这个CEF有两个值:。虽然这种特殊情况很重要,但我们感兴趣的是多变量函数的那些CEF,这些多元变量可以方便地归入向量 。对于 的一个特定值,比如 ,我们记作 。对于在 处具有条件密度函数的连续的 ,CEF写成:

如果是离散的,CEF等于 ,其中 是在 条件下的条件概率质量函数。

期望是一个总体概念。在实践中,数据通常以样本的形式出现,很少包含整个总体。因此,我们使用样本来对总体做出推断。例如,我们用样本CEF来理解总体CEF。这是必要和重要的,只是我们将从样本到总体的正式推断步骤的讨论推迟到第3.1.3节进行。我们对计量经济学采用“总体优先”方法的动机是,我们必须先定义感兴趣的对象,然后才能使用数据来研究它们。[1]
(纵坐标:周工资对数,以2003年美元计算;横坐标:受教育年限)

图3.1.1 受教育年限下周工资对数的原始数据和条件期望函数。该样本包括1980年世界人口微观共享数据库(IPUMS)中5%的40-49岁的白人男性。

图3.1.1描绘了1980年人口普查中一个中年白人男性样本在一定受教育年限下周工资对数的CEF。在几个关键的受教育年限——4年、8年、12年和16年——上,收入的分布也被绘制出来。该图中的CEF反映了这样一个事实:尽管个人情况存在巨大差异,但受教育程度越高的人通常收入越高。每多接受一年学校教育,平均收入通常增长约为10%。
对CEF的一个重要补充是期望迭代法则。这个法则指出无条件期望可以写成CEF的无条件平均值。换句话说,

其中处在外面的期望使用的是 的分布。这里给出了联合密度为 的连续分布 的期望迭代法则,其中 条件下的条件分布, 为边缘密度函数:

这个推导过程是对 (以 为标识)的可能值进行积分。我们列出这些步骤是因为CEF及其性质是本章其余部分的中心内容。[2]

期望迭代法则的威力来自于它将随机变量分成两部分——即CEF和具有特殊属性的残差——的方式。



定理3.1.1 CEF分解性质。

其中(1)均值独立于,也即,因此有(2)的任何函数都不相关。

证明:(1)。(2)令的任意函数。根据期望迭代法则,,根据均值独立性,
这个定理说的是,任何随机变量都可以分解成一个“由解释”的部分——即CEF,和一个与的任意函数正交(即不相关)的剩余部分。



CEF之所以能很好地总结之间的关系,原因有很多。首先,我们习惯于认为平均值为随机变量提供了一个代表值。更正式地说,CEF在最小均方误差(MMSE)这个意义上是给定的最佳预测器。CEF的这种预测性质是CEF分解性质的结果:
定理3.1.2 CEF预测性质。
的任意函数。CEF求解了下式:

所以,它是给定的最佳预测器。

证明:可以写出下式:

第一项不重要,因为它不包含,第二项可以写成,其中。根据CEF分解性质,其期望为零,因此当是CEF时,最后一项在0处最小。



CEF的最后一个性质是方差分析(ANOVA)定理,其与分解和预测性质密切相关。
定理3.1.3  ANOVA定理。

其中表示方差,是给定的条件方差。

证明:CEF分解性质意味着的方差是CEF的方差加上残差的方差,因为是不相关的。的方差是

其中,因为

CEF的这两个性质和方差分析定理你可能已经耳熟能详。例如,你可能习惯于在回归结果中去看方差分析表。方差分析在对不平等的研究中也很重要,劳动经济学家将收入分配的变化分解为可以由工人特征的变化解释的部分,和这些特征外其余因素的变化来解释的部分(例如,可参看:Autor、Katz和Kearney, 2005)。你可能不熟悉的是这样一个事实,即CEF的这些性质和ANOVA方差分解在总体和样本中都是有效的,并不需要线性CEF这个假设。事实上,线性回归作为经验工具的有效性也不需要线性这个假设。

注释

[1]

使用“总体优先”方法进行计量经济学教科书写作的例子有:Chamberlain(1984),Goldberger(1991)和 Manski(1991)。

[2]

一个简单的例子即可说明期望迭代法则是如何工作的:男性和女性人口的平均收入是男性的平均收入乘以男性在人口中的比例,加上女性的平均收入乘以女性在人口中的比例。






本专栏主理人简介

企研数据学术顾问 · 李井奎


李井奎,1978年1月生,浙江工商大学经济学院教授、博士生导师,哈佛大学访问学者,以教书育人和传播学问为己任,曾获浙江省“高校优秀教师”称号。除学术论文写作之外,还著有《大侦探经济学:现代经济学的因果推断革命》等科普著作。




星标⭐我们不迷路!想要文章及时到,文末“在看”少不了!

点击搜索你感兴趣的内容吧


往期推荐


基本无害 | 因果识别的比照基准——理想实验(3)

基本无害 | 因果识别的比照基准——理想实验(2)

基本无害 | 因果识别的比照基准——理想实验(1)





数据Seminar




这里是大数据、分析技术与学术研究的三叉路口


文 | 《基本无害的计量经济学——实证研究者指南(重译本)》


    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存