查看原文
其他

基本无害 | 第三章第一节(全)—— 回归的基本原理

基本无害的 数据Seminar 2022-12-31

基本无害的计量经济学

——实证研究者指南

(重译本)

李井奎 译


第三章 使回归有意义第一节 回归的基本原理



正文共12007个字,预计阅读时间31分钟。感谢阅读!

原文:3.1

温馨提示:如遇公式展示不全,左右滑动即可查看完整公式



“思考不可能性,做做不到的事。抓住无法言喻的想法,或许并不会把一切搞砸。”

——道格拉斯·亚当斯,《全能侦探社》

Angrist讲述道:

1979年夏天,我在奥柏林学院读大一到大二期间,运行了人生第一次回归。在匹兹堡我家附近的卡内基-梅隆大学,我为艾伦·梅尔泽(Allan Meltzer)和斯科特·理查德(Scott Richard)做研究助理。我最感兴趣的还是从事特殊教育的工作,并计划回到州立精神病院做护理员,这是我上一份暑期工作。但经济学101启发了我的思考,我还发现,在相同的工资水平下,研究助理的工作时间和工作条件都比医院护理员好。我的研究助理职责包括数据收集和回归分析,虽然当时我对回归甚至统计学都不了解。

那年夏天我做助理时的那篇论文(Meltzer和Richard, 1983)试图将民主国家的政府规模(以政府支出占GDP的比例衡量)与收入不平等联系起来。大多数收入分布都有一个很长的右尾,这意味着平均收入往往高于中位数。当不平等加剧时,更多的选民发现自己的收入低于平均水平。因为对此感到恼火,那些收入在中位数和平均值之间的人可能会加入到那些收入低于中位数水平的人的行列,投票支持劫富济贫的财政政策。政府的规模由此而扩大。

我理解梅尔泽和理查德这项研究背后的基本理论,尽管我觉得它不那么可信,因为穷人的投票率很低。我还记得,我和我的两位老板争论的问题是,政府在教育方面的支出是应该被归为公共产品(既能让社会上的每个人受益,也能让那些直接受影响的人受益),还是归为公共供应的私人产品,从而成为一种像福利一样的再分配形式呢?你可能会说,这个项目标志着我开始对教育的社会回报感兴趣,在Acemoglu和Angrist(2000)中,我带着更多的热情和理解回到了这个话题。

今天,我把梅尔泽和理查德的研究理解为使用回归来揭示和量化那有趣因果关系的一种尝试。但在那时,我只是一个纯粹的回归机器。有时候我觉得研究助理的工作令人沮丧。日子一天天过去,除了我的老板和偶尔来的大多数几乎不说英语的卡内基-梅隆大学的博士生,我无人可以说话。这份工作最精彩的部分是和艾伦·梅尔泽共进午餐,他是一位杰出的学者,也是一位耐心、和善的导师。我们一边吃着棕色袋子里的东西,他一边开心地聊天(这没花多长时间,因为艾伦吃得很少,而我吃得很快)。有一次我问艾伦,把他的时间耗费在研究呈现于大量双宽绿条纸上的回归结果,他是否感到满足。梅尔泽笑了,说除了这些他什么也不想做。

现在,我们也像我们在大学和研究生院的老师们一样,快乐地阅读回归结果。本章就来告诉你为什么会这样。

3.1 回归的基本原理

上一章的最后介绍了回归模型,作为在包括和不包括协变量的实验中估计处理组-控制组之间差异的计算方法。由于第2.3节讨论的班级规模研究中我们感兴趣的回归变量是随机分配的,因此得出的估计值具有因果解释。然而,在大多数研究中,用于回归的则是观测数据。没有随机分配的优点,回归估计值是否具有因果解释在两可之间。在本章后面的部分,我们还会回到如何使回归具有因果解释这个中心问题上来。
我们暂且把相对抽象的因果关系问题搁置一旁,而从回归估计值的机械性质(mechanical properties)开始。这些性质是总体回归向量及其样本类似物的普遍特征,与研究人员对其输出结果的解释无关。这些性质包括总体回归函数与条件期望函数之间的密切联系以及回归估计值的抽样分布。

3.1.1 经济关系与条件期望函数

劳动经济学领域的实证经济研究通常涉及个人经济环境的统计分析,特别是可能导致其经济命运天差地远的人与人之间的差异。众所周知,经济财富的差异很难解释;总之,它们是随机的。然而,作为应用计量经济学家,我们相信我们能以一种有用的方式概括和解释随机性。引言中提到的“系统随机性”的一个例子是教育与收入之间的联系。平均而言,受教育程度较高的人比受教育程度较低的人挣得更多。教育与收入之间的联系具有相当大的预测能力,尽管个人环境的巨大差异有时会掩盖这一事实。当然,受教育程度高的人往往比受教育程度低的人挣得多,这一事实并不意味着接受教育就会导致收入增加。收入和学校教育之间的关系是否具有因果关系,这个问题非常重要,我们会反复讨论这个问题。然而,即使没有解决因果关系这个棘手的问题,从狭义的统计意义上来看,教育水平可以预测收入,这一点也是很明显的。条件期望函数(CEF)有力地概括了这种预测能力。
给定协变量 向量(其元素是 ),因变量 的CEF是 保持不变条件下 的期望或总体平均值。总体平均值可以被认为是无限大样本中的均值,或可全部枚举的有限总体中的平均值。CEF写作 ,是 的函数。因为 是随机的,所以CEF也是随机的,尽管有时我们使用的是CEF的一个特定值,比如 ,它假设 的可能值是42。在第2章,我们简要地讨论了 这个CEF,其中 是一个0-1变量。这个CEF有两个值:。虽然这种特殊情况很重要,但我们感兴趣的是多变量函数的那些CEF,这些多元变量可以方便地归入向量 。对于 的一个特定值,比如 ,我们记作 。对于在 处具有条件密度函数的连续的 ,CEF写成:

如果是离散的,CEF等于 ,其中 是在 条件下的条件概率质量函数。

期望是一个总体概念。在实践中,数据通常以样本的形式出现,很少包含整个总体。因此,我们使用样本来对总体做出推断。例如,我们用样本CEF来理解总体CEF。这是必要和重要的,只是我们将从样本到总体的正式推断步骤的讨论推迟到第3.1.3节进行。我们对计量经济学采用“总体优先”方法的动机是,我们必须先定义感兴趣的对象,然后才能使用数据来研究它们。[1]
(纵坐标:周工资对数,以2003年美元计算;横坐标:受教育年限)

图3.1.1 受教育年限下周工资对数的原始数据和条件期望函数。该样本包括1980年世界人口微观共享数据库(IPUMS)中5%的40-49岁的白人男性。

图3.1.1描绘了1980年人口普查中一个中年白人男性样本在一定受教育年限下周工资对数的CEF。在几个关键的受教育年限——4年、8年、12年和16年——上,收入的分布也被绘制出来。该图中的CEF反映了这样一个事实:尽管个人情况存在巨大差异,但受教育程度越高的人通常收入越高。每多接受一年学校教育,平均收入通常增长约为10%。
对CEF的一个重要补充是期望迭代法则。这个法则指出无条件期望可以写成CEF的无条件平均值。换句话说,

其中处在外面的期望使用的是 的分布。这里给出了联合密度为 的连续分布 的期望迭代法则,其中 条件下的条件分布, 为边缘密度函数:

这个推导过程是对 (以 为标识)的可能值进行积分。我们列出这些步骤是因为CEF及其性质是本章其余部分的中心内容。[2]

期望迭代法则的威力来自于它将随机变量分成两部分——即CEF和具有特殊属性的残差——的方式。
定理3.1.1 CEF分解性质。

其中(1)均值独立于,也即,因此有(2)的任何函数都不相关。

证明:(1)。(2)令的任意函数。根据期望迭代法则,,根据均值独立性,
这个定理说的是,任何随机变量都可以分解成一个“由解释”的部分——即CEF,和一个与的任意函数正交(即不相关)的剩余部分。



CEF之所以能很好地总结之间的关系,原因有很多。首先,我们习惯于认为平均值为随机变量提供了一个代表值。更正式地说,CEF在最小均方误差(MMSE)这个意义上是给定的最佳预测器。CEF的这种预测性质是CEF分解性质的结果:
定理3.1.2 CEF预测性质。
的任意函数。CEF求解了下式:

所以,它是给定的最佳预测器。

证明:可以写出下式:

第一项不重要,因为它不包含,第二项可以写成,其中。根据CEF分解性质,其期望为零,因此当是CEF时,最后一项在0处最小。



CEF的最后一个性质是方差分析(ANOVA)定理,其与分解和预测性质密切相关。
定理3.1.3  ANOVA定理。

其中表示方差,是给定的条件方差。

证明:CEF分解性质意味着的方差是CEF的方差加上残差的方差,因为是不相关的。的方差是

其中,因为

CEF的这两个性质和方差分析定理你可能已经耳熟能详。例如,你可能习惯于在回归结果中去看方差分析表。方差分析在对不平等的研究中也很重要,劳动经济学家将收入分配的变化分解为可以由工人特征的变化解释的部分,和这些特征外其余因素的变化来解释的部分(例如,可参看:Autor、Katz和Kearney, 2005)。你可能不熟悉的是这样一个事实,即CEF的这些性质和ANOVA方差分解在总体和样本中都是有效的,并不需要线性CEF这个假设。事实上,线性回归作为经验工具的有效性也不需要线性这个假设。

3.1.2 线性回归与条件期望函数

你想跑什么回归?在我们的圈子里,这个问题或类似的问题几乎每天都能听到。回归估计值为几乎所有的实证研究提供了一个有价值的基线,因为回归与CEF紧密相连,而CEF为实证关系提供了一个自然的概括。回归函数——即通过最小化均方误差(MMSE)而产生的最佳拟合线——和CEF之间的联系至少可以用三种方式来解释。为了准确地解释这些现象,我们需要精确地了解我们脑海中的回归函数。本节讨论总体回归系数的向量,这些系数被定义为总体最小二乘问题的解。在这一点上,我们不用担心因果关系。相反,我们通过求解下式得到 回归系数向量

根据一阶条件,

该解可以写为 。注意通过整理得 。换句话说,我们所定义的总体残差 与回归变量 不相关。值得强调的是,这个误差项自身并无意义。它的存在和意义归因于 。我们将在第3.2节讨论因果效应回归时回到这一点。

在简单的二元情况下,回归向量只包括单一回归元 和一个常数,斜率系数是 ,截距是 。在多元情况下,有多个非常数回归元,第 个回归元的斜率系数如下:

回归解析公式

其中 对所有其他协变量的回归残差。

换句话说, 是一个 向量,其第 个元素为 。这个重要公式之所以能解析多元回归系数的结构,是因为它比矩阵公式 所揭示得更多。它表明,在分解出所有其他协变量后,多元回归中的每个系数都是对应回归元的双变量(一元回归)斜率系数。
为验证回归解析公式,把下式代入(3.1.3)的分子:

由于 是回归元的线性组合,因此与 不相关。此外,由于 是对模型中所有其他协变量的回归的残差,它也必然与这些协变量不相关。最后,由同样的原因可知, 的协方差就是 的方差。因此我们有 [3]

你可能在回归或统计学课程中已经熟悉回归解析公式,也许与这里的表述稍有不同:本节中定义的回归系数不是估计量;相反,它们是因变量和自变量联合分布的非随机特征。如果你可以对所关注的总体一一列举(或者知道产生数据的随机过程),你就会观察到这个联合分布。(只是)你可能不具备这样的信息。尽管如此,在担心如何估计总体参数之前,思考一下总体参数的含义仍是一个不错的经验做法。
下面我们讨论总体回归系数向量为何令人感兴趣的三个可能原因。这些原因可以归结为:如果你对CEF感兴趣,你就应该对回归参数感兴趣。



定理3.1.4 线性CEF定理(回归论证I)。
假设CEF是线性的。那么总体回归函数就是这个CEF。
证明:对于 的系数向量 ,设 。根据CEF分解性质,。把 代入,得到
线性CEF定理提出了一个问题:什么使CEF线性?经典的情况是联合正态性,即向量 具有多元正态分布。这是回归之父高尔顿(Galton,1886)考虑的情况,他对身高和智力(呈正态分布特征)之间的代际联系很感兴趣。由于正态分布是连续的,而回归元和因变量往往是离散的,所以正态分布显然只具有有限的经验相关性。于是当回归模型是饱和回归时,提出了另一种线性设想。如3.1.4节所述,对于回归元集合所取值的每一个可能组合,饱和回归模型分别有一个单独的参数。例如,一个有两个虚拟协变量的饱和回归模型既包括协变量(其系数被称为主效应),也包括它们的乘积(被称为交互项)。这种模型本身是线性的,这一点我们也在3.1.4节中讨论了。
当线性CEF定理不适用时,以下两个关注回归的原因就变得很重要了。



定理3.1.5 最佳线性预测定理(回归论证II)。
函数 是给定 在最小均方误差(MMSE)意义下 的最佳线性预测函数。
证明 求解了总体最小二乘问题(3.1.2)。
换句话说,正如条件期望函数 的所有函数类中给定 的最佳(即MMSE)预测器一样,总体回归函数是我们在线性函数类中所能找到的最佳预测函数。



定理3.1.6 回归CEF定理(回归论证III)。
函数 提供了对 的MMSE线性近似,即:
证明:我们从观察求解的(3.1.2)开始。可以写成下式:

第一项不涉及 ,而且根据CEF分解性质(ii),最后一项的期望为零。因此,CEF近似问题(3.1.4)与总体最小二乘问题(3.1.2)相同。

这两个定理给了我们看待回归的另外两种方式。回归为因变量提供了最好的线性预测器,就像CEF为因变量提供了最好的不受限制的预测函数一样。另一方面,如果我们更愿意考虑逼近 ,而不是预测 ,回归CEF定理告诉我们,即使CEF是非线性的,回归也能提供对它的最佳线性近似。
用回归CEF定理解释为什么使用回归,是我们最喜欢的做法。回归近似于CEF的说法与我们经验工作中的观点是一致的,即努力描述统计关系的基本特征,而不必试图精确化它们。线性CEF定理只适用于某些特殊情况。最佳线性预测定理则令人满意地具有一般性,但似乎也鼓励了对待经验研究过于简单化的立场。我们对预测个体 并不感兴趣;我们关心的是 的分布。

图3.1.2 回归把周平均工资与受教育年限连起了一条线(点= CEF;破折线=回归线)。

图3.1.2说明了图3.1.1所示的相同受教育年限下CEF的近似性质。这条回归线拟合了有点凹凸不平和非线性的CEF,其实我们估计的是 的模型而不是 的模型。事实上,这就是一直进行的事情。回归CEF定理的一个含义是,可以用 代替 本身作为因变量来得到回归系数。为此,假设 是一个离散随机变量,其概率质量函数为 。则有:

这意味着 可以由 的加权最小二乘(WLS)回归构造,其中 得自 可取之值。权重由 的分布给出,也就是 更简单的方法是迭代 公式中的期望:

当基于微观数据分析的项目陷入困难时,回归方程的CEF(性质)或分组数据方式是很实用的。例如,Angrist(1998)使用分组数据来研究志愿服兵役对以后生活收入的影响。该项目中使用的估计策略是在退伍军人身份的虚拟变量以及个人特征和军队用于筛选士兵的变量上回归人们的收入。收入数据来自美国社会保障体系,但社会保障体系的收入记录不能向公众公布。代替个人收入,Angrist使用基于种族、性别、考试分数、教育程度和退伍军人身份的平均收入进行研究。
为了说明分组数据回归方法,我们使用21个条件均值(即给定受教育年限下收入的样本CEF)估计了工资方程中的受教育年限变量的系数。正如图3.1.3中再现的Stata输出结果所示,一个分组数据回归,由样本中每个教育水平的个体数量加权,所产生的系数与使用具有数十万观测值的基础微观数据样本产生的系数相同。然而,请注意,分组回归的标准误差不能衡量重复观测的微观数据样本中斜率估计值的渐近抽样方差;为此,你需要估计 的方差。这个方差依赖于该微观数据,特别是二阶矩 ,这一点我们将在下一节详细阐述。

3.1.3  渐近OLS推断

在实践中,我们通常不知道CEF或总体回归向量是什么。因此,我们使用样本对它们进行统计推断。统计推断是传统计量经济学的主要内容。尽管任何计量经济学教科书都已经包含了这一部分,但我们不想完全跳过推断这一步。对基础渐近理论的回顾使我们能够强调一个重要的事实,即统计推断的过程不同于应如何解释一组特定的回归估计值的问题。无论回归系数意味着什么,它都有一个易于描述和用于统计推断的抽样分布。[4]

(图中文字:个体层面数据  根据受教育年限计算的均值)

图3.1.3  学校教育回报的微观数据和分组数据估计值,来自Stata回归输出结果。资料来源:1980年人口普查- IPUMS中5%的样本。该样本包括40-49岁的白人男性。稳健标准误差是异方差一致的。图中A部分使用个体层面的微观数据。B部分使用的是按受教育年限计算的平均收入。

我们感兴趣的是在重复样本中下面这个系数的样本模拟值的分布。

假设向量 在大小为 的样本中独立同分布。一阶总体矩的自然估计量 。根据大数定律,随着样本容量的增加,这个样本矩向量无限地接近于相应的总体矩向量。我们同样可以考虑 元素的高阶矩,例如二阶矩矩阵 ,样本模拟值 。根据这一原理, 的矩估计方法用求和算子代替了每个期望算子。这个逻辑引出了普通最小二乘(OLS)估计量:

虽然我们推导的是一种矩估计方法,但它被称为 的OLS估计量,因为它求解了第3.1.2节开始描述的最小二乘问题的样本模拟值。

的渐近抽样分布完全依赖于对被估量的定义(即我们试图估计的 的性质)和数据由随机样本构成的假设。在导出这个分布之前,该定义有助于总结一般的渐近分布理论,以满足我们的需要。这个基本理论可以用文字语言来表述。为了说明这些观点,我们假设读者熟悉统计理论的核心术语和概念——矩、数学期望、概率极限和渐近分布。关于这些术语的定义和下面给出的理论命题的正式数学表述,可参看Knight(2000)。
大数定律  样本矩在概率上收敛于相应的总体矩。也就是说,只要样本足够大,样本均值接近总体均值的概率就足够高。
中心极限定理  样本矩是渐近正态分布的(在减去相应的总体矩并乘以样本容量的平方根后)。渐近协方差矩阵由相关随机变量的方差给出。换句话说,在足够大的样本中,适当标准化的样本矩近似正态分布。
SLUTSKY定理
1.考虑两个随机变量的和,其中一个在分布上收敛(换句话说,有一个渐近分布),另一个在概率上收敛于一个常数:用这个常数代替收敛到常数的那个随机变量不会影响这个和的渐近分布。正式来说,设 是一个具有渐近分布的统计量,设 是一个概率极限为 的统计量,则 具有相同的渐近分布。
2.考虑两个随机变量的乘积,其中一个在分布上收敛,另一个在概率上收敛于一个常数:用这个常数代替收敛到常数的那个随机变量不会影响这个乘积的渐近分布。正式来说,设 是一个具有渐近分布的统计量;设 是一个概率极限为 的统计量,则 具有相同的渐近分布。
连续映射定理  连续函数下的概率极限。例如,样本矩的任何连续函数的概率极限是在相应总体矩上给出的函数值。正式来说, 的概率极限是 ,其中 并且 处是连续的。
DELTA方法  考虑一个渐近正态分布的向量值随机变量。这一随机变量的连续可微的标量函数也是渐近正态分布的,其协方差矩阵由内部为该随机变量的协方差矩阵和外部为在该随机变量概率极限处的函数梯度值构成的二次型给出。[5] 正式来说, 的渐近分布是协方差矩阵为 的正态分布,其中 处连续可微,梯度为 具有渐近协方差矩阵 [6]
我们可以运用这些结果,通过两种方法推导 的渐近分布。一个概念上简单但有些粗暴的方法是使用delta方法: 是样本矩的函数,因此是渐近正态分布的。剩下的就是从这个函数的梯度来求渐近分布的协方差矩阵。(注意 的一致性直接来自于连续映射定理)。[7]一个更简单、更有指导意义的推导是使用Slutsky和中心极限定理。首先注意,我们可以写出:

如前所述,其中残差 定义为因变量与总体回归函数的差值。换句话说, 的结果,而不是关于潜在经济关系的假设。[8]

将该公式中的 代入等式(3.1.6),我们有:
的渐近分布是 的渐近分布。根据Slutsky定理,它与 具有相同的渐近分布。由于 是经过 标准化的样本中心矩。根据中心极限定理,它是均值为0、协方差矩阵为 的渐近正态分布,其中协方差矩阵 为一个四阶矩矩阵。因此, 具有概率极限为 和协方差矩阵为下式的渐近正态分布:
用于构造t统计量的理论标准误差为(3.1.7)对角线元素的平方根。在实践中,对这些标准误差的估计,是通过用求和算子代替期望算子和使用所估计的残差 来构造经验中的四阶矩矩阵 而实现的。
用这种方法计算出的渐近标准误差被称为异方差一致性标准误差、White (1980a)标准误差,有时为了认可Eicker(1967)的推导工作,也称它为Eicker-White标准误差。它们也被称为“稳健”标准误(例如在Stata软件中就是这样称呼)。之所以说这些标准误差是稳健的,是因为在足够大的样本中,它们在给定数据和模型的最少假设下,提供了准确的假设检验和置信区间。特别地,我们对极限分布的推导,除了保证中心极限定理这样的基本统计结论成立所需要的假设外,没有做任何其他假设。然而,稳健标准误并不是你的计量软件包默认的标准误。默认的标准误差是在同方差假设下推导出来的,具体来说,就是假设 是一个常数。在这个假设下,我们通过迭代期望法则,可以得到:

的渐近协方差矩阵化简为

除非你另有要求,否则(3.1.8)的对角线元素就是SAS或Stata报告的内容。

我们认为回归是对CEF的近似,这使得异方差性似乎很自然。如果CEF是非线性的,你使用一个线性模型来近似它,那么回归线和CEF之间的拟合质量将随着 的变化而变化。因此,平均而言,在 拟合较差的某些值,残差会较大。即使你准备假设给定 的条件方差是常数,CEF非线性这一事实也意味着 会随 而变化。要看到这一点,请注意:

因此,即使 是不变的,残差方差随着回归线和CEF之间差值的平方而增加,这是White (1980b)指出的事实。[9]

同样,值得注意的是,虽然线性CEF使同方差性成为可能,但这不是同方差性的充分条件。在这方面,我们最喜欢的例子是线性概率模型(LPM)。线性概率模型是因变量为0-1(即一个虚拟变量)的回归,譬如劳动力就业(与否)作为指标的虚拟变量。假设回归模型是饱和回归,那么给定回归变量的CEF是线性的。由于CEF是线性的,残差方差也是条件方差 。但因变量是条件方差为 的伯努利试验结果。由此我们得出结论,除非唯一的回归元是常数,否则LPM残差必然是异方差的。
尽管有这些原理上的要点,但作为一个经验问题,异方差性可能无关紧要。在图3.1.3所示的微观数据学校教育回归中,稳健标准误差为0.0003447,而以往的标准误差为0.0003043,并没有小很多。分组数据回归的标准误差(如果分组大小不同,则必然是异方差)变化更大;比较0.004的稳健标准误差和0.0029的常规标准误差就可以知道。根据我们的经验,这些差异是很具代表性的。如果异方差影响很大,比如,标准误差增加30%或显著减少,那么你应该担心可能的编程错误或其他问题。例如,出现低于常规的稳健标准误差,可能是稳健性计算中有限样本偏差的标志。
最后,简要说明一下我们这本教科书上的推断方法,你们可能在其他地方见过。传统的计量经济学推断始于比我们在本节中所引用的更强的假设。传统的框架,有时被称为经典的正态回归模型,需要以下这些假设成立:固定(非随机)回归元,线性CEF,误差项服从正态分布且同方差(例如可参见:Goldberger, 1991)。这些更强的假设为我们保证了两件事:(1)OLS估计量的无偏性,(2)OLS估计量的抽样方差公式,在小样本和大样本中都有效。OLS估计量的无偏性意味着 ,这是一个在任意大小的样本中都成立的性质,而且比一致性更强,后者意味着我们只能期望 在大样本中接近 。很容易可以看出,我们什么时候以及为什么能够做到无偏性。一般来说,
如果回归元是非随机的(在重复样本中是固定的),则这个期望值就是我们想要的,而且由于 ,我们可以取得无偏性。否则,在具有随机回归元的情况下,我们基于迭代期望法则,当 时,也可以得到无偏性。当CEF是线性的时候是这样,但在我们更一般的“不可知论回归(agnostic regression)”框架中则不是这样。
在经典假设下得到的方差公式与同方差下的大样本公式是一样的,但是——如果强经典假设是有效的——这个公式适用于任何大小的样本。我们选择从渐近方法开始进行推断,是因为现代经验研究通常严重依赖于稳健方差公式背后的大样本理论。其回报是在弱假设下的有效推断,对于我们的不那么直白的处理回归模型的方法,尤其有意义。另一方面,大样本方法也并非没有坏处,这一点我们将在第8章对推断的讨论和第4章对工具变量的讨论中再来探讨。

3.1.4  饱和模型、主效应和其他回归讨论

我们经常使用饱和主效应等术语来讨论回归模型。这些术语源自使用回归来模拟离散处理型变量效应的实验主义传统。然而,这种语言现在被更广泛地应用于许多领域,包括应用计量经济学。对于不熟悉这些术语的读者,本节提供了一个简要的回顾。
饱和回归模型是只含有离散解释变量的回归模型,对于解释变量所取的所有可能值,该模型均纳入一个单独的参数。例如,当使用单个解释变量表明一个工人是否大学毕业时,模型由于包含了一个是否大学毕业的虚拟变量和一个常数而饱和。当回归变量具有多个值时,我们也可以达到饱和。例如,假设 的饱和回归模型为:

其中, 为表示受教育程度 的虚拟变量, 为第 级受教育程度的效应。[10]。请注意,

。在实践中,你可以为参考组(reference group)选取 的任何值;在 中,只要对每个可能的 有一个参数,回归模型就是饱和的。饱和回归模型完美地拟合了CEF,因为CEF是用于饱和的虚拟回归变量的线性函数。这是线性CEF定理的一个重要特例。

如果有两个解释变量——比如,一个虚拟变量表示是否大学毕业,一个虚拟变量表示性别——模型通过包含这两个虚拟变量、它们的乘积和一个常数而饱和。这些虚拟变量的系数称为主效应,而乘积称为交互项。这不是唯一的饱和参数化;任何一组可以用来识别所有协变量每个取值的指标(虚拟变量)都会产生一个饱和模型。例如,另一个饱和模型可以是包括男性大学毕业生、男性非大学毕业生、女性大学毕业生和女性非大学毕业生的虚拟变量,但没有截距项。
这里给出一些更具体的符号。 表示大学毕业生, 表示女性。给定 的CEF有四个值:
我们可以使用以下方案来标记它们:
因为有四个希腊字母,而CEF有四个值,这个参数化并不对CEF产生限制。它可以用希腊字母写成:

这是具有两个主效应和一个交互项的参数化。[11]其饱和回归方程为:

我们可以将多值受教育年限变量与性别虚拟变量相结合,产生一个饱和模型,该模型对受教育年限有 个主效应,对性别有一个主效应,对性别与受教育年限的交互项有 个主效应:

相互作用项的系数 告诉我们,每一受教育年限效应在性别上是如何不同的。在这种情况下,CEF取 个值,而回归也有这么多参数。

请注意,在上层的饱和模型会随着不断增加的限制性模型化策略而产生层级问题。从饱和模型开始是很自然的,因为它拟合了CEF。另一方面,饱和模型产生了大量的交互项,其中许多项可能是无意义的或估计不精确的。因此,你可以明智地选择省略这些项中的一部分或全部。方程(3.1.10)在没有交互项的情况下,用受教育年限和性别的纯相加模型近似CEF。如果男性和女性上大学的回报相似,这会是一个很好的近似值。如第3.3.1节所述,在每一情况下,这种可加性设定中受教育年限的系数给都出了两性的(加权)平均回报。另一方面,估计一个包含交互项但忽略了相应的主效应的模型是很奇怪的。就受教育年限而言,这有点像:

这种模型只允许受教育年限改变女性的工资,而这与事实相去甚远。因此,估计(3.1.11)得到的结果很可能难以解释。

最后,重要的是要认识到,无论 的分布如何,饱和模型都能完美地拟合CEF。例如,对于线性概率模型和其他受限因变量模型(如非负 )来说,这是正确的,这一点我们将在本章的最后重新讨论。


注释

[1] 使用“总体优先”方法进行计量经济学教科书写作的例子有:Chamberlain 。

[2]  一个简单的例子即可说明期望迭代法则是如何工作的:男性和女性人口的平均收入是男性的平均收入乘以男性在人口中的比例,加上女性的平均收入乘以女性在人口中的比例。

[3] 回归解析公式通常认为是由Frisch和Waugh(1933)提出的。你也可以这样做回归解析:,其中 对除 之外的所有协变量回归的残差。这之所以行得通,是因为去除 的拟合值与 无关。通常沿着 绘制 是很有用的;这个散点图中最小二乘拟合的斜率是多元 ,尽管该散点图是二维的。不过,请注意,仅仅从 中将其他协变量分出来是不够的。也就是说,,除非 与其他协变量不相关。

[4] 本节对渐近OLS推论的讨论主要是对Chamberlain(1984)的相关内容的浓缩。最后一章讨论了渐近理论的重要缺陷和问题。

[5] 二次型是矩阵加权平方和。假设是一个向量,是一个矩阵。的二次型是。如果是一个对角矩阵,其对角元素为,则

[6] 使用Slutsky和连续映射定理推导delta方法公式,参见Knight2000,第120-121页。我们说“)的渐近分布”,其实我们指的是的渐近分布。

[7] 当一个估计量在概率上收敛于目标参数时,我们称它是一致的。

[8] 这样定义的残差并不一定与无关;对于均值独立性,我们需要一个线性CEF。

[9] 由(3.1.9)中间的平方项展开得到的叉乘项是零,因为是不依赖于的均值。

[10] 我们使用符号1来表示指示函数,在本例中,该函数在时创建一个表示该种状态的虚拟变量。

[11] 由于模型中有第三个虚拟变量,例如,所以饱和模型包括三个主要效应、三个二阶交互项和一个三阶项。




本专栏主理人简介

企研数据学术顾问 · 李井奎


李井奎,1978年1月生,浙江工商大学经济学院教授、博士生导师,哈佛大学访问学者,以教书育人和传播学问为己任,曾获浙江省“高校优秀教师”称号。除学术论文写作之外,还著有《大侦探经济学:现代经济学的因果推断革命》等科普著作。




星标⭐我们不迷路!想要文章及时到,文末“在看”少不了!

点击搜索你感兴趣的内容吧



往期推荐


基本无害 | 使回归有意义——基本原理(4)

基本无害 | 使回归有意义——基本原理(3)

基本无害 | 使回归有意义——基本原理(2)

基本无害 | 使回归有意义——基本原理(1)

数据治理 | 地址数据可视化—教你如何绘制地理散点图和热力图

数据治理 | 根据地址获取经纬度及行政区划——API的妙用

数据治理 | 工企地址清洗——Python的妙用






数据Seminar




这里是大数据、分析技术与学术研究的三叉路口


文 | 《基本无害的计量经济学——实证研究者指南(重译本)》

翻译 | 李井奎

校对 | 陈泽 王锐

排版 | 彭绮荣


    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存