查看原文
其他

Stata:如何处理固定效应模型中的单期数据-xtfesing

连享会 连享会 2023-10-24

👇 连享会 · 推文导航 | www.lianxh.cn

连享会视频课 · 因果推断实用计量方法

作者:关欣 (南开大学)
邮箱:gx0222@126.com

编者按:本文主要摘译自下文,特此致谢!
Source:Magazzini L, Bruno R L, Stampini M. Using information from singletons in fixed-effects estimation: xtfesing[J]. The Stata Journal, 2020, 20(4): 965-975. -PDF-

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:


目录

  • 1. 简介

  • 2. 理论背景

  • 3. Stata 实操

  • 4. 参考文献

  • 5. 相关推文



1. 简介

固定效应模型通过剔除不随时间变化的因素,即只考虑组内变换,来缓解遗漏变量偏误问题。但是,当某些个体只有一期数据时,他们的组内变化完全等于零,此时该如何处理呢?

本文将介绍由 Magazzini (2020) 提出的 xtfesing 命令。该命令是在 GMM 框架下构建的,允许在固定效应模型中使用一期数据样本,旨在提高估计效率。该命令的有效性依赖于同质性假设,即面板和单期 OLS 估计的偏差相同。

在使用过程中,我们可以使用 xtdes 命令统计 的样本占比。如果较高 (超过 5%),我们可以考虑使用 xtfesing 命令做稳健性检验。该命令在应用中可提高大约 8%-9% 的估计效率。

2. 理论背景

考虑静态面板数据模型:

其中, 可观测特征向量, 待估计参数, 是个体固定效应, 是误差项。我们允许非平衡面板数据。并且, 中的变量可与 相关,但不能与任意 相关,从而满足严格的外生性假设。

我们用下标 来表示单期,所以 。用 表示 的个数, 为单期个数 。观察总数为 。可通过使用 WG 转换获得 FE 估计量。

其中 表示 WG 转换, 。由于单期的 WG 变换为零,因此仅在估计中使用多期。

FE 估计一致性依赖于严格的外生性假设,并且在非平衡面板情况下,依赖于 the process driving attrition 假设。 当观察值随机缺失时,以下成立:

注意,FE 估计的一致性依赖于 。因此:

相反,在解释变量 之间存在相关性的情况下,OLS 估计量 是有偏差的,并且 。将 OLS 偏差表示为 ,仍然可以写出以下矩条件:

当我们添加 阶矩条件和 个参数 ( 中每个系数的 OLS 偏差)时,基于上述矩条件的 GMM 估计将产生 FE 估计 。在同质性假设下,可利用以下附加矩条件:

利用上述矩条件的 GMM 方法可以获得对 的一致估计,并提高估计效率。 当观察值随机缺失时,同质性假设成立。在我们的设置中,OLS 偏差可归因于个体异质性与回归变量之间存在相关性:

概率极限等于 的方差之间的比率。因此,同质性假设要求 的协方差与 的方差在全样本和单期之间是相同的。为了更好地理解这个假设,考虑一个数据生成过程。其中 ,并引入随机缺失的观测值。因此,对于某些随机选择的个体,在随机选择的时间段内 仅被观察一次。

例如,当 随着时间的推移是恒定的。它在更一般的数据生成过程下也得到满足,因为随机选择假设意味着以 为条件的 对于单期的分布与以 为条件的 的分布相同。

同质性假设可以通过完全交互 OLS 回归模型检验。为单期观测值定义一个虚拟变量,如果 ,则为 ,否则为 0。 完全交互的模型是 。同质性检验的原假设 。作为一个过度识别的模型,Hansen 检验也可以用来检查 xtfesing 假设的有效性。

3. Stata 实操

* 命令安装
net sj 20-4
net install st0623
net get st0623
* 命令语法
xtfesing depvar [indepvars] [if] [in] [, id(varname) nowindmeiejer level(#)]

在本部分,我们使用 nlswork.dta 数据。该数据来自美国劳工部的全国调查,包含 1968 年 14 至 26 岁女性信息。

. lxhuse nlswork.dta, clear
. xtset idcode year
. xtdescribe

idcode: 1, 2, ..., 5159 n = 4711
year: 68, 69, ..., 88 T = 15
Delta(year) = 1 unit
Span(year) = 21 periods
(idcode*year uniquely identifies each observation)
Distribution of T_i: min 5% 25% 50% 75% 95% max
1 1 3 5 9 13 15
Freq. Percent Cum. | Pattern
---------------------------+-----------------------
136 2.89 2.89 | 1....................
114 2.42 5.31 | ....................1
89 1.89 7.20 | .................1.11
87 1.85 9.04 | ...................11
86 1.83 10.87 | 111111.1.11.1.11.1.11
61 1.29 12.16 | ..............11.1.11
56 1.19 13.35 | 11...................
54 1.15 14.50 | ...............1.1.11
54 1.15 15.64 | .......1.11.1.11.1.11
3974 84.36 100.00 | (other patterns)
---------------------------+-----------------------
4711 100.00 | XXXXXX.X.XX.X.XX.X.XX

可以看出,数据集中包含 4711 个个体,时间跨度为 15 年。从数据结构中可以看出,有 136 个个体仅在第一个时间段观察到,有 114 个仅在最后一个时间段观察到。单期的情况还包括在任何中间时期具有单个观测值的单元,以及由于模型考虑变量中的缺失值而仅进入估计样本一次的具有多个观测值的单元。最后一组不计入 xtdescribe,它是根据数据集中每个单元占用的行数计算的。

被解释变量为工资的对数 ln_wage,解释变量包括总工作经验 ttl_exp 及其平方、工会成员身份  union、年龄 age,以及居住地三个虚拟变量 southc_citynot_smsa。我们分别使用 xtregxtfesing 进行估计。

. generate ttl_exp2 = ttl_exp^2
. xtreg ln_wage ttl_exp* union age south c_city not_smsa, fe cluster(idcode)

Fixed-effects (within) regression Number of obs = 19,226
Group variable: idcode Number of groups = 4,150
R-squared: Obs per group:
Within = 0.1501 min = 1
Between = 0.2892 avg = 4.6
Overall = 0.2364 max = 12
F(7,4149) = 179.70
corr(u_i, Xb) = 0.1227 Prob > F = 0.0000
(Std. err. adjusted for 4,150 clusters in idcode)
------------------------------------------------------------------------------
| Robust
ln_wage | Coefficient std. err. t P>|t| [95% conf. interval]
-------------+----------------------------------------------------------------
ttl_exp | 0.065 0.004 16.99 0.000 0.058 0.073
ttl_exp2 | -0.001 0.000 -7.60 0.000 -0.001 -0.001
union | 0.096 0.009 10.23 0.000 0.078 0.115
age | -0.018 0.002 -9.99 0.000 -0.022 -0.014
south | -0.065 0.021 -3.05 0.002 -0.107 -0.023
c_city | 0.007 0.012 0.55 0.584 -0.017 0.031
not_smsa | -0.089 0.019 -4.68 0.000 -0.126 -0.052
_cons | 1.920 0.040 47.87 0.000 1.841 1.999
-------------+----------------------------------------------------------------
sigma_u | .36937539
sigma_e | .25428694
rho | .67845928 (fraction of variance due to u_i)
------------------------------------------------------------------------------

. xtfesing ln_wage ttl_exp* union age south c_city not_smsa

GMM estimation results
Total number of observations 19226
Total number of units 4150
Number of singletons 665 (16.02% of total n. of units)
(Std. err. adjusted for 4,150 clusters in idcode)
------------------------------------------------------------------------------
| Robust
ln_wage | Coefficient std. err. z P>|z| [95% conf. interval]
-------------+----------------------------------------------------------------
beta |
ttl_exp | 0.066 0.004 17.23 0.000 0.059 0.074
ttl_exp2 | -0.001 0.000 -7.86 0.000 -0.001 -0.001
union | 0.097 0.009 10.36 0.000 0.079 0.115
age | -0.018 0.002 -10.01 0.000 -0.022 -0.014
south | -0.062 0.021 -2.94 0.003 -0.104 -0.021
c_city | 0.008 0.012 0.65 0.514 -0.016 0.032
not_smsa | -0.089 0.019 -4.67 0.000 -0.126 -0.051
_cons | 1.914 0.040 47.71 0.000 1.835 1.992
-------------+----------------------------------------------------------------
bias |
ttl_exp | 0.004 0.004 0.97 0.333 -0.004 0.012
ttl_exp2 | -0.000 0.000 -1.41 0.159 -0.001 0.000
union | 0.060 0.012 4.98 0.000 0.036 0.084
age | 0.006 0.002 3.47 0.001 0.003 0.010
south | -0.076 0.023 -3.36 0.001 -0.120 -0.031
c_city | -0.033 0.015 -2.22 0.026 -0.063 -0.004
not_smsa | -0.128 0.021 -6.02 0.000 -0.170 -0.086
_cons | -0.152 0.041 -3.70 0.000 -0.233 -0.072
------------------------------------------------------------------------------
Hansen-based test of homogeneity: J = 12.68 (p-value = 0.123)
Regression-based test of homogeneity: F = 1.69 (p-value = 0.096)
------------------------------------------------------------------------------

输出结果报告了同质性假设的两个检验。基于 Hansen 的同质性检验,对应于 GMM 估计的过度识别检验,J 值为 12.68,p 值为 0.123。基于回归的同质性检验 F 为 1.69,p 值为 0.096。这两个检验都不能在 5% 显著性水平上拒绝同质性原假设,由此说明可以在该数据中使用 xtfesing

但是,在这种情况下,标准误的减少是有限的 (或为零)。正如 Bruno 等 (2020) 所指出的,在较长的时间维度或是当单期占比并不大时,效率提升可以忽略不计。

进一步地,将数据限定在最后三年 (85、87 和 88 年),且仅使用白人样本。通过这种方式,人为地生成了一个数据集,其特点是时间维度较小,并且单期的占比较大。再次对比 xtregxtfesing 的估计结果。

. xtreg ln_wage ttl_exp* union age south c_city not_smsa if year>=85 & race==1, fe cluster(idcode)

Fixed-effects (within) regression Number of obs = 4,408
Group variable: idcode Number of groups = 2,053
R-squared: Obs per group:
Within = 0.0749 min = 1
Between = 0.2816 avg = 2.1
Overall = 0.2561 max = 3
F(7,2052) = 24.13
corr(u_i, Xb) = 0.0353 Prob > F = 0.0000
(Std. err. adjusted for 2,053 clusters in idcode)
------------------------------------------------------------------------------
| Robust
ln_wage | Coefficient std. err. t P>|t| [95% conf. interval]
-------------+----------------------------------------------------------------
ttl_exp | 0.086 0.016 5.41 0.000 0.055 0.117
ttl_exp2 | -0.001 0.000 -4.27 0.000 -0.002 -0.001
union | 0.084 0.021 3.98 0.000 0.042 0.125
age | -0.014 0.012 -1.23 0.218 -0.037 0.008
south | -0.056 0.067 -0.84 0.404 -0.188 0.076
c_city | 0.045 0.035 1.29 0.199 -0.024 0.115
not_smsa | -0.078 0.046 -1.70 0.090 -0.168 0.012
_cons | 1.685 0.304 5.54 0.000 1.088 2.282
-------------+----------------------------------------------------------------
sigma_u | .4272089
sigma_e | .20786549
rho | .80857291 (fraction of variance due to u_i)
------------------------------------------------------------------------------

. xtfesing ln_wage ttl_exp* union age south c_city not_smsa if year>=85 & race==1

GMM estimation results
Total number of observations 4408
Total number of units 2053
Number of singletons 573 (27.91% of total n. of units)
(Std. err. adjusted for 2,053 clusters in idcode)
------------------------------------------------------------------------------
| Robust
ln_wage | Coefficient std. err. z P>|z| [95% conf. interval]
-------------+----------------------------------------------------------------
beta |
ttl_exp | 0.086 0.016 5.50 0.000 0.056 0.117
ttl_exp2 | -0.001 0.000 -4.23 0.000 -0.002 -0.001
union | 0.085 0.021 4.06 0.000 0.044 0.126
age | -0.016 0.012 -1.37 0.171 -0.038 0.007
south | -0.057 0.067 -0.85 0.398 -0.188 0.075
c_city | 0.044 0.035 1.25 0.211 -0.025 0.113
not_smsa | -0.081 0.046 -1.78 0.075 -0.171 0.008
_cons | 1.727 0.303 5.70 0.000 1.133 2.321
-------------+----------------------------------------------------------------
bias |
ttl_exp | 0.001 0.017 0.06 0.952 -0.033 0.035
ttl_exp2 | -0.000 0.000 -0.25 0.804 -0.001 0.001
union | 0.066 0.028 2.39 0.017 0.012 0.121
age | 0.008 0.012 0.66 0.509 -0.015 0.030
south | 0.031 0.069 0.45 0.651 -0.103 0.165
c_city | -0.029 0.041 -0.70 0.482 -0.110 0.052
not_smsa | -0.138 0.048 -2.86 0.004 -0.232 -0.043
_cons | -0.259 0.310 -0.83 0.404 -0.867 0.349
------------------------------------------------------------------------------
Hansen-based test of homogeneity: J = 16.86 (p-value = 0.032)
Regression-based test of homogeneity: F = 2.21 (p-value = 0.024)
------------------------------------------------------------------------------

在这种情况下,与 xtreg 相比,使用 xtfesing 的估计结果的标准误差较低。同质性假设在 1% 的显着性水平上不能拒绝。Bruno 等 (2020) 考虑了单期超过 50% 的情况。他们的研究表明,在这种情况下,xtfesing 可以大大提高估计效率。

4. 参考文献

  • Magazzini L, Bruno R L, Stampini M. Using information from singletons in fixed-effects estimation: xtfesing[J]. The Stata Journal, 2020, 20(4): 965-975. -PDF-
  • Bruno R L, Magazzini L, Stampini M. Exploiting information from singletons in panel data analysis: A GMM approach[J]. Economics Letters, 2020, 186: 108519. -PDF-

5. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 固定效应, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

  • 专题:计量专题
    • 主成分分析-交互固定效应基础:协方差矩阵的几何意义
  • 专题:面板数据
    • Stata:固定效应分析新命令-sumhdfe
    • xtheckmanfe:面板Heckman模型的固定效应估计
    • regife:面板交互固定效应模型-Interactive Fixed Effect
    • 引力模型-高维固定效应面板泊松模型
    • ocmt:高维固定效应模型的变量筛选问题
    • Stata新命令:ppmlhdfe-面板计数模型-多维固定效应泊松估计
    • Stata:非对称固定效应模型
    • reghdfe:多维面板固定效应估计
  • 专题:倍分法DID
    • DID最新进展:异质性处理条件下的双向固定效应DID估计量 (TWFEDD)
    • Stata:双重差分的固定效应模型-(DID)
  • 专题:内生性-因果推断
    • 用FE-固定效应模型能做因果推断吗?
  • 专题:Probit-Logit
    • feologit:固定效应有序Logit模型

课程推荐:因果推断实用计量方法
主讲老师:邱嘉平教授
🍓 课程主页https://gitee.com/lianxh/YGqjp

New! Stata 搜索神器:lianxhsongbl  GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
. ssc install lianxh
. ssc install songbl
👉  使用:
. lianxh DID 倍分法
. songbl all

🍏 关于我们

  • 连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存