为啥我看到面板数据中可以估计出性别, 民族虚拟变量? 还是国内权威期刊
*下方内容主要出自@计量圈社群,欢迎大家就此一起讨论。
针对这一问题,计量社群里展开了一系列热火朝天的讨论,由于内容过多就不一一张贴讨论截图了。多数群友认为,这是在估计面板数据固定效应模型的方法选择上导致的初级但让人疑惑的错误,即作者在固定效应模型方法(组内去均值)、LSDV和一阶差分方法的选择上出现了问题。
更多讨论,请到社群交流讨论,下面主要陈述一下社群群友讨论的主要要点。下方数据和代码也已上传计量社群,群友可以直接下载。
假设我们有一份面板数据,其中有一个民族虚拟变量(ethnicity=1,如果是汉族,反之ethnicity=0,如果是其他少数民族),同一个体在不同年份的民族虚拟变量取值都是一样的,即一个人在1999年是汉族,那他在2022年还是汉族。
现在,我们先用所谓的最小二乘虚拟变量方法(LSDV,reg y x control ethnicity i.year i.id)进行估计,结果如下。其中,列(1)没有加入民族虚拟变量,列(2)加入了民族虚拟变量。对比发现,列(2)中的民族虚拟变量存在估计系数,但是个体100(100.id)的系数却被omit掉了,而且民族变量的估计系数刚好等于列(1)个体100(100.id)的系数的相反数。
其次,我们尝试用xtreg(xtreg y x control ethnicity i.year, fe)进行估计,结果如下。其中,列(1)没有加入民族虚拟变量,列(2)加入了民族虚拟变量。对比发现,列(2)中的民族虚拟变量被omit掉了,即用xtreg估计不出来民族虚拟变量。
最后,我们尝试用reghdfe(reghdfe y x control ethnicity, abs(id year))进行估计,结果如下。从中可知,与xtreg估计一样,民族虚拟变量被omit掉了,即用reghdfe也估计不出来民族虚拟变量。
下面是reg、xtreg和reghdfe三种程序估计结果的对比表。很明显,在三种程序中核心解释变量和随时间变化的控制变量的估计结果都一致,但是不随时间变化的民族、性别虚拟变量却不相同。在reg中看似能够估计出这些变量的结果,但这却是以omit掉个体100的估计系数为代价,并且估计值也只是个体100的系数的相反数,而在xtreg和reghdfe中上述虚拟变量都被omit掉了。勿用LSDV估计这些虚拟变量,是错误的。
*数据和代码也已上传计量社群,群友可以直接下载。
下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。
5年,计量经济圈近1500篇不重类计量文章,
可直接在公众号菜单栏搜索任何计量相关问题,
Econometrics Circle
数据系列:空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 | 夜间灯光 | 官员方言 | 微观数据 | 内部数据计量系列:匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理:Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列:能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多、前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。