查看原文
其他

基本无害 | 使回归有意义——基本原理(2)

基本无害的 数据Seminar 2022-12-31

基本无害的计量经济学

——实证研究者指南

(重译本)

李井奎 译



第三章 使回归有意义

第一节 回归的基本原理



正文共2845个字,预计阅读时间10分钟。感谢阅读!

文中若有长公式,可通过左右上下滑动完整查看!

原文:3.1.2



3.1.1 经济关系与条件期望函数

3.1.2 线性回归与条件期望函数

你想跑什么回归?在我们的圈子里,这个问题或类似的问题几乎每天都能听到。回归估计值为几乎所有的实证研究提供了一个有价值的基线,因为回归与CEF紧密相连,而CEF为实证关系提供了一个自然的概括。回归函数——即通过最小化均方误差(MMSE)而产生的最佳拟合线——和CEF之间的联系至少可以用三种方式来解释。为了准确地解释这些现象,我们需要精确地了解我们脑海中的回归函数。本节讨论总体回归系数的向量,这些系数被定义为总体最小二乘问题的解。在这一点上,我们不用担心因果关系。相反,我们通过求解下式得到回归系数向量

根据一阶条件,

该解可以写为。注意通过整理得。换句话说,我们所定义的总体残差与回归变量不相关。值得强调的是,这个误差项自身并无意义。它的存在和意义归因于。我们将在第3.2节讨论因果效应回归时回到这一点。

在简单的二元情况下,回归向量只包括单一回归元和一个常数,斜率系数是,截距。在多元情况下,有多个非常数回归元,第个回归元的斜率系数如下:

回归解析公式

其中对所有其他协变量的回归残差。

换句话说,是一个向量,其第个元素为。这个重要公式之所以能解析多元回归系数的结构,是因为它比矩阵公式所揭示得更多。它表明,在分解出所有其他协变量后,多元回归中的每个系数都是对应回归元的双变量(一元回归)斜率系数。

为验证回归解析公式,把下式代入(3.1.3)的分子:

由于是回归元的线性组合,因此与不相关。此外,由于是对模型中所有其他协变量的回归的残差,它也必然与这些协变量不相关。最后,由同样的原因可知,的协方差就是的方差。因此我们有[1]

你可能在回归或统计学课程中已经熟悉回归解析公式,也许与这里的表述稍有不同:本节中定义的回归系数不是估计量;相反,它们是因变量和自变量联合分布的非随机特征。如果你可以对所关注的总体一一列举(或者知道产生数据的随机过程),你就会观察到这个联合分布。(只是)你可能不具备这样的信息。尽管如此,在担心如何估计总体参数之前,思考一下总体参数的含义仍是一个不错的经验做法。

下面我们讨论总体回归系数向量为何令人感兴趣的三个可能原因。这些原因可以归结为:如果你对CEF感兴趣,你就应该对回归参数感兴趣。


定理3.1.4 线性CEF定理(回归论证I)。

假设CEF是线性的。那么总体回归函数就是这个CEF。

证明:对于的系数向量,设。根据CEF分解性质,。把代入,得到

线性CEF定理提出了一个问题:什么使CEF线性?经典的情况是联合正态性,即向量具有多元正态分布。这是回归之父高尔顿(Galton,1886)考虑的情况,他对身高和智力(呈正态分布特征)之间的代际联系很感兴趣。由于正态分布是连续的,而回归元和因变量往往是离散的,所以正态分布显然只具有有限的经验相关性。于是当回归模型是饱和回归时,提出了另一种线性设想。如3.1.4节所述,对于回归元集合所取值的每一个可能组合,饱和回归模型分别有一个单独的参数。例如,一个有两个虚拟协变量的饱和回归模型既包括协变量(其系数被称为主效应),也包括它们的乘积(被称为交互项)。这种模型本身是线性的,这一点我们也在3.1.4节中讨论了。

当线性CEF定理不适用时,以下两个关注回归的原因就变得很重要了。


定理3.1.5 最佳线性预测定理(回归论证II)。

函数是给定在最小均方误差(MMSE)意义下的最佳线性预测函数。

证明求解了总体最小二乘问题(3.1.2)。

换句话说,正如条件期望函数的所有函数类中给定的最佳(即MMSE)预测器一样,总体回归函数是我们在线性函数类中所能找到的最佳预测函数。



定理3.1.6 回归CEF定理(回归论证III)。

函数提供了对的MMSE线性近似,即:

证明:我们从观察求解的(3.1.2)开始。可以写成下式:

第一项不涉及,而且根据CEF分解性质(ii),最后一项的期望为零。因此,CEF近似问题(3.1.4)与总体最小二乘问题(3.1.2)相同。

这两个定理给了我们看待回归的另外两种方式。回归为因变量提供了最好的线性预测器,就像CEF为因变量提供了最好的不受限制的预测函数一样。另一方面,如果我们更愿意考虑逼近,而不是预测,回归CEF定理告诉我们,即使CEF是非线性的,回归也能提供对它的最佳线性近似。

用回归CEF定理解释为什么使用回归,是我们最喜欢的做法。回归近似于CEF的说法与我们经验工作中的观点是一致的,即努力描述统计关系的基本特征,而不必试图精确化它们。线性CEF定理只适用于某些特殊情况。最佳线性预测定理则令人满意地具有一般性,但似乎也鼓励了对待经验研究过于简单化的立场。我们对预测个体并不感兴趣;我们关心的是的分布。

图3.1.2 回归把周平均工资与受教育年限连起了一条线(点= CEF;破折线=回归线)。

图3.1.2说明了图3.1.1所示的相同受教育年限下CEF的近似性质。这条回归线拟合了有点凹凸不平和非线性的CEF,其实我们估计的是的模型而不是的模型。事实上,这就是一直进行的事情。回归CEF定理的一个含义是,可以用代替本身作为因变量来得到回归系数。为此,假设是一个离散随机变量,其概率质量函数为 。则有:

这意味着可以由的加权最小二乘(WLS)回归构造,其中得自可取之值。权重由的分布给出,也就是更简单的方法是迭代公式中的期望:

当基于微观数据分析的项目陷入困难时,回归方程的CEF(性质)或分组数据方式是很实用的。例如,Angrist(1998)使用分组数据来研究志愿服兵役对以后生活收入的影响。该项目中使用的估计策略是在退伍军人身份的虚拟变量以及个人特征和军队用于筛选士兵的变量上回归人们的收入。收入数据来自美国社会保障体系,但社会保障体系的收入记录不能向公众公布。代替个人收入,Angrist使用基于种族、性别、考试分数、教育程度和退伍军人身份的平均收入进行研究。

为了说明分组数据回归方法,我们使用21个条件均值(即给定受教育年限下收入的样本CEF)估计了工资方程中的受教育年限变量的系数。正如图3.1.3中再现的Stata输出结果所示,一个分组数据回归,由样本中每个教育水平的个体数量加权,所产生的系数与使用具有数十万观测值的基础微观数据样本产生的系数相同。然而,请注意,分组回归的标准误差不能衡量重复观测的微观数据样本中斜率估计值的渐近抽样方差;为此,你需要估计的方差。这个方差依赖于该微观数据,特别是二阶矩,这一点我们将在下一节详细阐述。

注释

[1]

回归解析公式通常认为是由Frisch和Waugh(1933)提出的。你也可以这样做回归解析:,其中对除之外的所有协变量回归的残差。这之所以行得通,是因为去除的拟合值与无关。通常沿着绘制是很有用的;这个散点图中最小二乘拟合的斜率是多元,尽管该散点图是二维的。不过,请注意,仅仅从中将其他协变量分出来是不够的。也就是说,,除非与其他协变量不相关。



本专栏主理人简介

企研数据学术顾问 · 李井奎


李井奎,1978年1月生,浙江工商大学经济学院教授、博士生导师,哈佛大学访问学者,以教书育人和传播学问为己任,曾获浙江省“高校优秀教师”称号。除学术论文写作之外,还著有《大侦探经济学:现代经济学的因果推断革命》等科普著作。





星标⭐我们不迷路!想要文章及时到,文末“在看”少不了!

点击搜索你感兴趣的内容吧



往期推荐


数据治理 | 工企地址清洗——Python的妙用

数据治理 | 数据量越来越大,Stata总奔溃?看来……

数据治理 | 超大.csv文件怎么处理?我们有独门武器!(免费赠送自制csv切分工具)

数据治理 | 老生常谈的Pandas绘图还能这么玩?

数据治理 | 随心所欲的Pandas绘图!

数据治理 | 实操性强的Pandas数据匹配教程!






数据Seminar




这里是大数据、分析技术与学术研究的三叉路口


文 | 《基本无害的计量经济学——实证研究者指南(重译本)》

翻译 | 李井奎

校对 | 陈泽 王锐

排版 | 郑泽青



    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存