查看原文
其他

伪面板回归是什么, 诺贝尔经济学家推荐使用

面板数据研究小组 计量经济圈 2021-10-23

凡是搞计量经济的,都关注这个号了

箱:econometrics666@sina.cn

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问

1.Stata, 不可能后悔的10篇文章, 编程code和注解

2.面板数据模型操作指南, 不得不看的16篇文章

面板数据研究小组将为圈友引荐一个概念和操作思路。在做回归的过程中,面板数据相对于重复截面数据(比如CGSS这种数据)有很多优点,如控制不可观测的异质性。不过,今天咱们想要强调的是重复截面数据相对于面板数据有自己的优势,具体表现在repeated cross-sections suffer much less from typical panel data problems like attrition and nonresponse, and are very often substantially larger, both in number of individuals or households and in the time period that they span. 


诺贝尔经济学家意识到这些优点之后,就把他的重复截面数据根据“出生年份(年龄)”整理成几个组别或队列(Cohort)。然后在每个组别里按照一个时间t,比如年份进行求均值,就可以形成以cohort, t为基础的伪面板。之后,他就使用面板数据分析工具去做对应的回归(有些细节需留意一下)。

In a seminal paper, Deaton (1985) suggests the use of cohorts to estimate a fixed effects model from repeated cross-sections. In his approach, individuals sharing some common characteristics (most notably year of birth) are grouped into cohorts, after which the averages within these cohorts are treated as observations in a pseudo panel.


接下来就是很多其他经济学者做的进一步延伸贡献,比如把原来的线性回归扩展到非线性的回归,把原来的静态面板扩展到动态面板回归。

Moffitt (1993) and Collado (1997), in different ways, extend the approach of Deaton to nonlinear and dynamic models. Alternative estimators for the model with individual dynamics, including the one proposed by Girma (2000), are evaluated in Verbeek and Vella (2005). Alternative types of asymptotics are discussed in McKenzie (2004). 


下面这二段话主要告诉我们,为什么重复截面数据是必要的?以及为什么要把重复截面数据转换成伪面板数据?


1985 年,Deaton(1985)指出“由于统计调查的样本轮换和样本非随机流失问 题,绝大多数国家并不存在较长时间跨度的真正面板数据,或者这样的真正面板 数据是难以获得的,对于发展中国家的微观经济变量尤其如此”。并且,Deaton 发现“某变量的统计抽样不能连续调查到各个体的观测数据,但是,如果按照某 种属性(例如,年龄、职业和身份等)将各期调查对象分成不同的群(Cohort);对于 各个观测期,选择各群内观测数据的均值(分位数或者方差),即可构造以群为‘个体’的面板数据”。于是,对于截面时间序列的统计调查数据,基于某种属性分群、 计算群内的均值(方差或分位数),称以群为个体而构造的人工面板数据为伪面 板数据或合成面板数据(Synthetic Panel)。 众所周知,面板数据的本质是在观测期内的每期都能观测到相同个体的相关 数据,然而,伪面板数据并非如此。在观测期内,它允许每期观测的个体不同, 并且重点关注的是个体群的统计特征,即通过群均值和群方差的发展变化来揭示相关变量的总体分布特征。 常见的分群标准是户主年龄段、户主出生年的区间和户主职业类别等。例如,按户主年龄段 分群,称其为同龄群。


在各观测期,各同龄群中的不同家庭都是户主在同一年龄 段的家庭,在不同群的家庭是户主在不同年龄段的家庭。例如,对于户主年龄为 21-25 岁的同龄群,在 2014 年调查时,该群内的家庭是户主年龄为 21-25 岁的家 庭;2015 -2019 年调查时,该群内的家庭仍然是户主年龄为 21-25 岁的家庭。然 后,在各调查年,对同龄群内的家庭人均收入求均值。这样,对于户主年龄为 21-25 岁的同龄群,可得到该同龄群家庭人均收入的时间序列;于是,不同的同 龄群就可构造一个关于家庭人均收入的面板数据,称之为按户主年龄分群的家庭 人均收入伪面板数据。显然,按年龄段分群的家庭人均收入伪面板数据反映了不 同年龄段户主的“家庭”人均收入在调查期内的分布。例如,对于户主年龄为 25-30 岁、35-50 岁和 55-65 岁的同龄群,2014-2019 年的“家庭”人均收入伪面板数据分别反映了青年人、中年人和老年人的收入变化情况。


另外,应用群体分析方法得到的伪面板数据还具有以下优点。一是伪面板数 据是由各群群内个体属性的总体统计量组成,与一般面板中的个体数据相比,前 者消除了个体的测量误差,且避免了样本的非随机流失。二是由于不需要在每期 中追踪固定的个体,这样可得到更长时间跨度的面板数据。


至于这个具体的操作过程,我们做了一个小的程序,目的是让群友们知道如何去把重复截面数据转换成伪面板数据。有了这个操作流程后,以后你就可以把CGSS和CHIP这种重复截面数据转换成伪面板数据。可以到计量社群交流讨论使用。

推荐阅读:

0.中国所有地级市各类空间权重矩阵数据release

1.工企数据库匹配160大步骤的完整程序和相应数据

2.1998-2016年中国地级市年均PM2.5数据release

3.1997-2014中国市场化指数权威版本release

4.2005-2015中国分省分行业CO2数据circulation

5.匹配方法(matching)操作指南, 值得收藏的16篇文章

6.内生性问题操作指南, 广为流传的22篇文章

7.面板数据模型操作指南, 不得不看的16篇文章

8.实证研究中用到的135篇文章, 社科学者常用toolkit

计量经济圈是中国计量第一大社区,我们致力于推动中国计量理论和实证技能的提升,圈子以海内外高校研究生和教师为主。计量经济圈绝对六多精神:社科资料最多、社科数据最多、科研牛人最多、海外名校最多、热情互助最多、前沿趋势最多如果你热爱计量并希望长见识,那欢迎你加入到咱们这个大家庭(戳这里),要不然你只能去其他那些Open access圈子了。注意:进去之后一定要看小鹅社群“群公告”,不然接收不了群息,也不知道怎么进入咱们独一无二的微信群和QQ群在规则框架下社群交流讨论无时间限制。

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存