查看原文
其他

基本无害 | 使回归有意义——回归的细节(1)

基本无害的 数据Seminar 2022-12-31

基本无害的计量经济学

——实证研究者指南

(重译本)

李井奎 译


第三章 使回归有意义第四节 回归的细节


正文共2063个字,预计阅读时间10分钟。感谢阅读!

原文:3.4.1

温馨提示:左右滑动可查看完整公式!


3.4 回归的细节

3.4.1 加权回归

几乎没有什么比样本加权的作用更让应用研究人员感到困惑的了。即使是现在,我们已经博士毕业了20年之后,当我们读到Stata手册中关于加权的部分时,仍不免有些沮丧。权重的使用方式有很多种,如何使用权重对你的结果很重要。然而,令人遗憾的是,赞成或反对加权的理由往往不明确,应该如何编制加权的细节也是如此。关于加权问题权衡利弊的详细讨论超出了本书的范围。Pfefferman(1993)和Deaton(1997)提供了两个视角。在这一简短的小节中,我们为我们的加权方法提供了一些指导方针和基本原理。加权回归的一个简单经验法则是,当权重使你估计的回归更可能接近你试图估计的总体目标时,就使用权重。例如,如果目标(或被估量)是总体回归函数,而且用于估计的样本是非随机的,抽样权重等于抽样观测值的逆概率,则使用加权最小二乘法(通过进行加权)是有意义的(为此,可以使用Stata中 pweights命令或SAS中的weight命令)。通过逆抽样概率进行加权,即使必须使用的样本不是简单的随机样本,也可以生成与总体回归函数一致的估计值。相关的加权方案涉及分组数据。假设你想在随机样本中对进行回归,可能是因为你想了解总体回归向量。但是,你没有随机抽样,而是将在的水平上进行数据分组。也就是说,你对每一个都有的估计值,使用来自随机样本的数据进行估计。把这个平均值表示为,假设你还知道,其中是基本随机样本中值的相对频率。正如我们在第3.1.2节中看到的,用加权的的回归与随机样本微观数据回归相同。因此,如果你的目标是回到微观数据回归,那么按组大小加权是有意义的。然而,我们注意到,习惯于使用公开的平均值数据(如人均收入)并忽略基础微观数据的宏观经济学家可能不同意,或者可能在原则上采取这一点,但仍然不愿意违背其学科中的传统,他们那样做是为了有利于对总体变量进行不加权的分析。另一方面,如果加权的唯一理由是异方差性,就像许多教科书中关于加权的讨论一样,我们对加权的同情甚至不如宏观经济学家。异方差下加权的理由大致如下:假设你对线性CEF( )感兴趣。误差项(定义为)可能是异方差的。也就是说,条件方差函数不必是常数。在这种情况下,虽然总体回归函数仍然等于,但样本模拟值是非有效的。线性CEF的一个更精确的估计量是WLS——也就是说,该估计量通过的估计值,将加权的平方误差之和最小化。如第3.1.3节所述,一种固有的异方差情景是LPM,其中是一个虚拟变量。假设CEF实际上是线性的,如果该模型是饱和的,那么它就是线性的,则有,因此,这显然是的函数。这是一个基于模型的异方差性的例子,其中条件方差函数的估计值很容易从基础回归函数的估计值中构造出来。LPM(广义最小二乘法(GLS)的特例)的有效WLS估计量是通过来加权。由于CEF被假定为线性的,所以这些权重可以首先通过进行估计。在这种情况下,我们不喜欢加权有两个原因(尽管我们会使用异方差一致的标准误差)。首先,在实践中,的估计值可能不是很好。如果条件方差模型只具有很差的近似性,或者如果它的估计值有很大的噪声,那么WLS估计值可能比未加权估计值具有更差的有限样本性质。因此,你基于渐近理论得出的推论可能会产生误导,人们所希望的有效性提升可能不会实现。[1]如果CEF不是线性的,WLS估计量在估计它时与未加权估计量相比也就差不多少。另一方面,未加权估计量仍然估计了一些易于解释的东西,即对总体CEF的MMSE线性近似。WLS估计量也提供某种近似,但这种近似的性质取决于权重。至少,这会让你更难将结果与其他研究人员报告的估计值进行比较,并在结果取决于权重时为模型设定搜索开辟了更多途径。最后,我想到了一个古老的警告:如果它没有坏,就不要修理它。总体回归向量的解释不受异方差性的影响,所以为什么要担心它呢?权重带来的任何有效性的提升都可能是适度的,不正确或估计不当的权重可能弊大于利。

注释

[1]

 Altonji和Segal(1996)在广义矩方法的背景下讨论了这一点。






本专栏主理人简介

企研数据学术顾问 · 李井奎


李井奎,1978年1月生,浙江工商大学经济学院教授、博士生导师,哈佛大学访问学者,以教书育人和传播学问为己任,曾获浙江省“高校优秀教师”称号。除学术论文写作之外,还著有《大侦探经济学:现代经济学的因果推断革命》等科普著作。






星标⭐我们不迷路!想要文章及时到,文末“在看”少不了!

往期推荐


基本无害 | 第三章第二节(全)——回归和因果关系

基本无害 | 使回归有意义——异质性和非线性(1)

基本无害 | 使回归有意义——异质性和非线性(2)

数据治理 | 工企地址清洗——Python的妙用

数据治理 | 根据地址获取经纬度及行政区划——API的妙用

数据治理 | 从“今天中午吃什么”中学习Python文本相似度计算




数据Seminar




这里是大数据、分析技术与学术研究的三叉路口


文 | 《基本无害的计量经济学——实证研究者指南(重译本)》

翻译 | 李井奎

校对 | 陈泽 王锐

排版 | 李木子


    欢迎扫描👇二维码添加关注    


点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存