面板数据里处理多重高维固定效应的神器, 还可用工具变量处理内生性

Original: 面板数据研究小组计量经济圈 2019-06-30

可有偿投稿计量经济圈，计量相关则可

邮箱：econometrics666@sina.cn

所有计量经济圈方法论丛的do文件都放在社群里,可以直接取出使用运行,也欢迎到研究小组交流访问.感谢邹恒甫教授对计量经济圈的关注和支持.

今天，我们“面板数据研究小组”将为计量经济圈的圈友引荐一个处理多重高维固定效应的方法(multiple high dimensional fixed effects)。我们经常听说面板数据相对于截面数据有更大的空间去控制异质性，尤其是那些看不见的却不随着时间变动的异质性。

比如，我们想要研究学习时长与学生学习成绩之间的关系，数据包括整个学校5000名学生在100次考试期间的学习时长和这100次考试的最终成绩，还有其他一些可能看不见的影响因素：学生个人能力和学校的校风等。

现在，我们需要做一个面板数据的回归，除了学生学习时长外，解释变量还包括每个学生的个人能力(D1)和学校的校风(D2)。如果我们直接把他们按照i.D1和i.D2这种虚拟变量形式放进去进行回归，那带给我们最大的难处是运行时间长且会导致我们的电脑系统崩溃。通俗地讲，LSDV模型(Least dummy dependent variable)的回归会带来更长的运算时间和系统内存占用。

那如果不止这两个学生的个体特征，那我们就需要用更长的时间和占据更多的电脑内存去运算。在经济学研究中，我们经常需要控制公司层面、行业类别、省市县层面的固定效应，那如果直接按照添加虚拟变量的形式进行回归，我们会等到花儿都谢了也等不到结果。更重要的是，随着样本亮的增大N—∞，然后我们那些固定效应因素，比如i.D1和i.D2的维度也会增大((每个人一个dummy)，这会导致“incidental parameters”问题(伴随参数问题)。而作为伴随参数的固定效应因素的出现，其他由极大似然函数估计的参数的一致性问题就受到挑战。

感受一下曾经做过的尝试，我们就知道对于大样本的微观数据，高维固定效应确实让我们的估计出现问题。样本量过大而导致的运行问题，如果还是用之前的那一套方式，那不管多好的电脑内存都出现了卡壳现象。

我们现在就引荐一个Frisch-Waugh-Lovell定理，他实际上是通过组内估计的方式解决了这个问题(固定效应模型)。第一步：通过减去组内的均值，我们可以把这些固定效应因素(即D1和D2)去除掉；第二部：通过用去掉了组内均值的的Y 对去掉了组内均值的X做线性回归，然后我们可以得到β；第三部：用第二部回归中的残差项μ对D1和D2做回归，我们可以得到α和γ。这就是我们经常说的固定效应模型——组内估计模型。

这个方法属于应用型的，里面的估计程序会涉及到矩阵运算，因此我们就不在这里具体讲解更复杂的过程。这一次，我们把相关操作命令放出来，这样你就会知道操作格式是怎样的，今后你只需要修改一下里面的参数就可以出结果。这个方法之所以能够节约运算时间和电脑内存，在于他采用的是通过iteration方式获得最终的结果。这个方法能够同时处理很多问题：多维固定效应、聚类稳健标准误、工具变量方法

GP方法得到的这个运算程序，下面的文字解释了为什么GP很具有吸引力。

GP algorithm that is commonly used to deal with multiple high-dimensional fixed effects. It uses the iteration and convergence implementation of Least Squared estimation instead of the explicit calculation of the inverse of matrices. Another valuable innovation is that it stores and retrieves each fixed effect as a column vector, which compresses the dimensions of fixed effects to ones. Hence in each iteration, the estimation of each fixed effect merely involves taking simple average of residuals by groups, after which the OLS regression is then run for other regressors along with the updated fixed effect vector as a variable. After convergence of the estimates, the fixed effects remain identifiable.

reghdfe y x1 x2 x3 x4 x5 x6, cluster(industry) absorb(year city industry) 通常的程序表达式，控制了年份、城市和行业固定效应，而且得到行业聚类标准误。

示例如下

set matsize 1000 //把Mata空间设置大一点,因为牵涉到矩阵运算

clear

sysuse auto //运用系统自带数据库

**最简单的一维固定效应

reghdfe price weight length, absorb(rep78) //把rep78这个固定效应控制起来

est store reg4 //可以把结果保存起来

areg price weight length, absorb(rep78) //这个也可以控制一维固定效应

我们得到的结果与上面通过reghdfe得到的结果是一样的，这证明reghdfe是一个一般化的控制多重高维固定效应方法的方法。

**一维固定效应但得出聚类标准误,以下两种表达式结果一样

reghdfe price weight length, absorb(rep78) vce(cluster rep78)

reghdfe price weight length, absorb(rep78) cluster(rep78)

**二维和三维固定效应

clear

webuse nlswork

reghdfe ln_w grade age ttl_exp tenure not_smsa south , absorb(idcode year)

reghdfe ln_w grade age ttl_exp tenure not_smsa south , absorb(idcode year occ)

**分类因变量存在交互行为

reghdfe ln_w i.grade#i.age ttl_exp tenure not_smsa , absorb(idcode occ)

**固定效应存在交互行为

reghdfe ln_w grade age ttl_exp tenure not_smsa , absorb(idcode#occ)

**工具变量估计

clear

sysuse auto

reghdfe price weight (length=head), absorb(rep78)

reghdfe price weight (length=head), absorb(rep78) ffirst //报告第一阶段回归

reghdfe price weight (length=head), absorb(rep78) ivsuite(ivregress) //用ivregress估计

reghdfe price weight (length=head), absorb(rep78 turn##c.price) //出现固定效应的交叉项

面板数据研究小组各种方法论丛的do file都放在咱们的社群，可以直接到社群提取使用。

计量经济圈推荐文章

1.我的"工具变量"走丢了，寻找工具变量思路手册

2.内生性处理的秘密武器－工具变量估计

3.工具变量在社会科学因果推断中的应用

4.内生性处理方法与进展，可以用叱咤风云来赞叹

5.忽略干扰因素，内生性，遗漏变量偏差及相关问题下的估计

6.Heckman模型out了,内生转换模型掌控大局

7.非线性面板模型中内生性解决方案以及Stata命令

8.最全估计方法，解决遗漏变量偏差，内生性，混淆变量

9.IV和GMM相关估计步骤，内生性、异方差性等检验方法

10.Heckman两步法的内生性问题

计量经济圈是中国计量第一大社区，我们致力于推动中国计量理论和实证技能的提升，圈子以海内外高校研究生和教师为主。计量经济圈六多精神：计量资料多，社会科学数据多，科研牛人多，名校人物多，热情互助多，前沿趋势多。如果你热爱计量并希望长见识，那欢迎你加入到咱们这个大家庭(戳这里)，要不然你只能去其他那些Open access圈子了。注意：进去之后一定要看小鹅社群“群公告”，不然接收不了群息，也不知道怎么进入咱们独一无二的微信群和QQ群。

进去之后就能够看见这个群公告了

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！