Stata:两阶段面板IV估计-xtivdfreg
👇 连享会 · 推文导航 | www.lianxh.cn
🍎 Stata:Stata基础 | Stata绘图 | Stata程序 | Stata新命令 📘 论文:数据处理 | 结果输出 | 论文写作 | 数据分享 💹 计量:回归分析 | 交乘项-调节 | IV-GMM | 时间序列 | 面板数据 | 空间计量 | Probit-Logit | 分位数回归 ⛳ 专题:SFA-DEA | 生存分析 | 爬虫 | 机器学习 | 文本分析 🔃 因果:DID | RDD | 因果推断 | 合成控制法 | PSM-Matching 🔨 工具:工具软件 | Markdown | Python-R-Stata 🎧 课程:公开课-直播 | 计量专题 | 关于连享会
连享会课程 · 2023 暑期班
作者:梁珈源 (哈尔滨商业大学)
邮箱:timljy1994@gmail.com
编者按:本文主要摘译自下文,特此致谢!
Source:Kripfganz S, Sarafidis V. Instrumental-variable estimation of large-T panel-data models with common factors[J]. The Stata Journal, 2021, 21(3): 659-686. -PDF-
温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:
目录
1. 背景介绍
2. 模型简介
3. 命令介绍
4. Stata 实操
4.1 案例背景
4.2 实证命令
4.3 实证解读
4.4 与 ivregress 命令对比
5. 参考文献
6. 相关推文
1. 背景介绍
共同因子方法在面板数据模型分析中非常受欢迎,因为它为控制遗漏变量和未观测的异质性提供了广泛的应用范围,包括具有横截面相关性的模型,具体可参考 Chudik 和 Pesaran (2015)、Juodis 和 Sarafidis (2018) 以及 Sarafidis 和 Wansbeek (2012, 2021)。
对于横截面数量和时间序列长度 (分别为 N 和 T) 都较大的面板数据,Pesaran (2006) 和 Bai (2009) 已经开发了流行的估计方法,这些方法在文献中被称为共同相关效应法 (CCE) 和迭代主成分法 (IPC)。这两种方法都涉及最小二乘法,并使用可观测值的横截面平均值或主成分分析 (PCA) 来分离共同因子。
迄今为止,CCE 和 IPC 已经应用于大量的实证研究,并已扩展到其他一些理论环境中。例如,Su 和 Jin (2012)、Moon 和 Weidner (2015, 2017)、Baltagi 等 (2021)、Harding 等 (2020)、Kapetanios 等 (2021) 以及 Li 等 (2020)。
最近,Norkute 等 (2021) 和 Cui 等 (2020) 开发了一种通用工具变量 (IV) 方法,用于在 N 和 T 均较大时,估计具有未观测共同因子的面板回归模型。其基本思想是使用主成分分析 (PCA) 将共同因子从外生协变量中分离出来,并从去因子化的协变量中构建工具变量。这与第一阶段 IV 估计的结果是一致的。而在第二阶段,整个模型基于从第一阶段残差中提取的因子进行去因子化,然后使用相同的工具变量再次做 IV 估计。
由此产生的两阶段工具变量 (2SIV) 法结合了 Pesaran (2006) 和 Bai (2009) 的特征。特别是,根据 Pesaran (2006),模型的协变量被假设为服从线性共同因子结构。然而,根据 Bai (2009) 的研究,这些共同因子是使用主成分分析法而不是横截面平均值推算出来的。2SIV 的一个主要区别在于,它分两个阶段分别从误差项和回归项中消除共同因子。相比之下,CCE 是同时消除误差项和回归变量中的因子,而 IPC 只消除了误差项中的因子。
2SIV 具有一定的优势,原因有以下几点:
CCE 和 IPC 受到偶然参数偏差的影响,因为随着 T 或 N 的增长,需要估计的参数数量也在成倍增加,详情参见Westerlund 和 Urbain (2015) 以及 Juodis 等 (2021)。因此,这两种方法需要进行偏差校正,以确保估计结果是渐近有效的。相比之下,2SIV 不需要在任何维度上进行偏差校正。这个性质很重要,因为旨在使用特定估计量的极限分布的近似方法可能无法完全消除所有的偏差项,特别是那些高阶的偏差项。在这种情况下,在有限样本中可能会出现较大尺度的失真。 CCE 方法需要所谓的秩条件,即假定因子的数量不超过未观测因子载荷的横截面平均值矩阵的秩。2SIV 不需要这样的条件,这是因为该方法使用 PCA 而不是横截面平均值来估计因子。 2SIV 目标函数在参数上是线性的,因此该方法具有鲁棒性且计算成本低。与之相比,IPC 依赖于非线性优化,因此可能无法保证收敛到全局最优水平 (Jiang 等)。 与 IPC 相比,2SIV 具有 CCE 的一个主要优势,因为它允许估计具有异质斜率系数的面板回归模型。 SIV 允许内生回归,只要外部工具变量是可用的。
2. 模型简介
本文介绍一个新命令 xtivdfreg
,它可以实现大 N 大 Y 型面板数据的两阶段工具变量 (2SIV) 估计。该命令相对以往同类型命令在两个方面进行了拓展。首先,该算法使用 Stock 和 Watson (1998) 以及 Bai 等 (2015) 提出的期望最大化方法的一个变体进行估计,因此适用于非平衡面板数据回归。其次,该算法允许灵活地指定工具变量,因此适用于以下情况:
协变量受完全不同的因子影响; 协变量具有不同数量的因子,包括没有因子; 使用去因子化协变量的不同滞后项作为工具变量。
该命令的作者还指出,当规定零因子并采用 1SIV 估计选项时,xtivdfreg
命令与 ivregress
命令的估计结果一致。从本质上讲,双向误差分量面板数据模型的两阶段最小二乘法 (2SLS) 估计可以被视为本文介绍的2SIV方法的一个特例,因为前者不对工具变量进行去因子化。值得注意的是,与 ivregress
不同,xtivdfreg
允许估计具有异质斜率系数的双向误差分量面板数据模型。
3. 命令介绍
命令安装:
ssc install xtivdfreg, replace
命令语法:
xtivdfreg depvar [indepvars] [if] [in] [, options]
对于 options
,模型选项包括:
absorb(absvars)
:引入固定效应,括号内为固定效应的类别变量,如常见的i.id
或者i.year
,具体情况可参阅reghdfe
(如果已安装)。iv(varlist [,fvar(fvars) lags(#) factmax(#) [no]eigratio [no]std [no]doubledefact])
:指定工具变量,且可以指定任意数量的工具变量。在同组中的变量,是被共同去因子化的,不属于回归模型的外部变量也可以作为变量的工具变量。fvar(fvars)
:指定从fvars
中的变量提取因子。在默认情况下,从所有的varlist
变量中提取因子。lags(#)
:指定要添加到工具变量集合的varlist
的滞后阶数;变量的每个滞后阶,都分别用从fvar
的相应滞后阶中提取的因子进行去因子化;默认值为滞后阶数为(0)
。factmax(#)
:指定每个估计阶段和每组工具变量的最大因子数量,默认值为factmax(4)
。[no]doubledefact
:为实现第一阶段的估计,对整个模型实施去因子化。fstage
:要求计算第一阶段 IV 估计量,而非第二阶段估计量。mg
:要求计算允许异质斜率的均值组估计量。noconstant
:取消常数项。
报告选项包括:
level(#)
:设置置信水平;默认是level(95)
。coeflegend
:显示图例而不是统计数据。noheader
:不显示输出标题。notable
:不显示系数表格。display_options
:控制列、列格式、行间距、线宽、省略变量、基本单元格和空单元格的显示,以及因子变量标签
最优化选项包括:
noeigratio
:不要使用特征值比检验来确定因子的数量。std
:从标准化变量中提取因子。iterate(#)
:指定最大迭代次数。ltolerance(#)
:目标函数的容差。nodots
:在迭代过程中,不显示每一步的迭代结果。
4. Stata 实操
4.1 案例背景
在本例中,我们通过估计银行资本充足率的主要影响因素,来说明 xtivdfreg
命令的使用方法。我们使用 300 家美国银行随机样本的面板数据,每家银行都在 56 个时间段内观察,即 2006 年第一季度至 2019 年第四季度。设置模型如下:
其中 和 。所有数据都是公开的,并且已从联邦存款保险公司网站下载。
:代表资本充足率,用一级 (核心) 资本与风险加权资产的比率来表示。 :以银行总资产的自然对数表示。 :代表资产回报率,定义为年净收入占平均总资产的百分比。ROA 被用作衡量盈利能力的指标。 :以存贷比来表示流动性。请注意,此变量较高时,意味着流动性水平较低。 :误差项是复合的。其中, 和 捕捉特定个体和特定时点的效应, 是一个 的向量,其载荷由 决定,而 是一个纯粹的误差项。
4.2 实证命令
. lxhuse xtivdfreg_example.dta, clear
. xtivdfreg L(0/1).CAR size ROA liquidity, absorb(id t) ///
> iv(size ROA liquidity, lags(2)) factmax(3)
Defactored instrumental variables estimation
Group variable: id Number of obs = 16200
Time variable: t Number of groups = 300
Number of instruments = 9 Obs per group min = 54
Number of factors in X = 1 avg = 54
Number of factors in u = 1 max = 54
Second-stage estimator (model with homogeneous slope coefficients)
-----------------------------------------------------------------
| Robust
CAR | Coeff std z P>|z| [95% conf. interval]
-------------+---------------------------------------------------
CAR |
L1. | 0.373 0.032 11.85 0.000 0.311 0.435
|
size |-2.025 0.177 -11.44 0.000 -2.372 -1.678
ROA | 0.200 0.030 6.77 0.000 0.142 0.258
liquidity | 1.998 0.454 4.40 0.000 1.109 2.888
_cons |29.994 4.128 7.27 0.000 21.902 38.085
-------------+----------------------------------------------------
sigma_f | 2.0800886 (std. dev. of factor error component)
sigma_e | 1.115956 (std. dev. of idiosyncratic error component)
rho | .77650224 (fraction of variance due to factors)
------------------------------------------------------------------
Hansen test of the overidentifying restrictions chi2(5) = 7.3151
H0: overidentifying restrictions are valid Prob > chi2 = 0.1982
此处使用协变量的两阶段滞后作为去因子化的工具变量。由于协变量有 3 个,所以总共使用 9 个工具变量。模型有 4 个参数,这意味着过度识别的程度为 5。同时,Hansen 检验统计量的 值结果表明,模型拒绝过度识别假设,工具变量是有效的。
4.3 实证解读
在模型中,自回归系数 反映了阻碍银行瞬间达到最佳资本充足率水平的调整成本,而 是各协变量斜率系数。
衡量银行规模对资本充足率的影响,在大而不能倒假说下,大型商业银行在面临金融困境时,认为自己将得到公共援助 (Cui 等, 2020b) ,因此会采取更加激进的经营策略。从本质上讲,这一假设反映了典型的道德风险问题,在这种情况下,的符号预期为负。 衡量银行盈利能力对资本充足率的影响。这里有两种完全相反的解释。一方面,标准理论认为,银行盈利能力提高会阻止银行采取激进的经营方针。这与较大的资本储备相关,一旦盈利的银行出现下行风险,将会损失更多的股东价值 (Keeley, 1990)。另一方面,在杠杆约束的情况下,利润更高的银行可以借更多的钱,并参与更大规模的风险项目 (Martynova 等, 2020)。本文 的符号与后一种解释一致。 衡量了银行流动性对资本充足率的影响。其符号为正,表明银行流动性水平较低时会迫使银行增加资本储备,这也可以说是为了减少风险敞口。
4.4 与 ivregress 命令对比
. ivregress 2sls CAR size ROA liquidity (L.CAR = L(0/2).(size ROA liquidity)) ///
> i.id i.t, vce(cluster id)
Instrumental variables 2SLS regression Number of obs = 16,200
Wald chi2(356) = 757.55
Prob > chi2 = 0.0000
R-squared = 0.8662
Root MSE = 1.3718
(Std. err. adjusted for 300 clusters in id)
------------------------------------------------------------------------------
| Robust
CAR | Coefficient std. err. z P>|z| [95% conf. interval]
-------------+----------------------------------------------------------------
CAR |
L1. | 0.651 0.207 3.15 0.002 0.245 1.057
|
size | -0.220 0.124 -1.77 0.077 -0.463 0.024
ROA | 0.142 0.131 1.09 0.278 -0.114 0.398
liquidity | 0.503 0.460 1.09 0.274 -0.399 1.405
_cons | 5.789 3.550 1.63 0.103 -1.169 12.747
------------------------------------------------------------------------------
. xtivdfreg L(0/1).CAR size ROA liquidity, absorb(id t) iv(size ROA liquidity, ///
> lags(2)) factmax(0) fstage
Defactored instrumental variables estimation
Group variable: id Number of obs = 16200
Time variable: t Number of groups = 300
Number of instruments = 9 Obs per group min = 54
Number of factors in X = 0 avg = 54
max = 54
First-stage estimator (model with homogeneous slope coefficients)
------------------------------------------------------------------------------
| Robust
CAR | Coefficient std. err. z P>|z| [95% conf. interval]
-------------+----------------------------------------------------------------
CAR |
L1. | 0.651 0.207 3.15 0.002 0.245 1.057
|
size | -0.220 0.124 -1.77 0.077 -0.463 0.024
ROA | 0.142 0.131 1.09 0.278 -0.114 0.398
liquidity | 0.503 0.460 1.09 0.274 -0.399 1.405
_cons | 6.065 3.587 1.69 0.091 -0.965 13.094
------------------------------------------------------------------------------
Hansen test of the overidentifying restrictions chi2(5) = 40.4264
H0: overidentifying restrictions are valid Prob > chi2 = 0.0000
对比两种命令结果可知,除常数项外,各协变量斜率系数是一致的。
5. 参考文献
Kripfganz, S., & Sarafidis, V. (2021). Instrumental-variable estimation of large-T panel-data models with common factors. The Stata Journal, 21(3), 659–686. -PDF- Chudik A., Pesaran M. H. 2015. Large panel data models with cross-sectional dependence: A survey. In The Oxford Handbook Of Panel Data, ed. Baltagi B. H., 3–45. Oxford: Oxford University Press. Juodis A., Sarafidis V. 2018. Fixed T dynamic panel data estimators with multifactor errors. Econometric Reviews 37: 893–929. -PDF- Sarafidis V., Wansbeek T. 2021. Celebrating 40 years of panel data analysis: Past, present and future. Journal of Econometrics 220: 215–226. -PDF- Pesaran M. H. 2006. Estimation and inference in large heterogeneous panels with a multifactor error structure. Econometrica 74: 967–1012. -PDF- Bai J. 2009. Panel data models with interactive fixed effects. Econometrica 77: 1229–1279. -PDF- Su L., Jin S. 2012. Sieve estimation of panel data models with cross section dependence. Journal of Econometrics 169: 34–47. -PDF- Moon H. R., Weidner M. 2015. Linear regression for panel with unknown number of factors as interactive fixed effects. Econometrica 83: 1543–1579. -PDF- Baltagi B. H., Ka C., Wang F. 2021. Estimating and testing high dimensional factor models with multiple structural changes. Journal of Econometrics 220: 349–365. -PDF- Harding M., Lamarche C., Pesaran M. H. 2020. Common correlated effects estimation of heterogeneous dynamic panel quantile regression models. Journal of Applied Econometrics 35: 294–314. -PDF- Kapetanios G., Serlenga L., Shin Y. 2021. Estimation and inference for multidimensional heterogeneous panel datasets with hierarchical multi-factor error structure. Journal of Econometrics 220: 504–531. -PDF- Li K., Cui G., Lu L. 2020. Efficient estimation of heterogeneous coefficients in panel data models with common shocks. Journal of Econometrics 216: 327–353. -PDF- Norkute M., Sarafidis V., Yamagata T., Cui G. 2021. Instrumental variable estimation of dynamic linear panel data models with defactored regressors and a multifactor error structure. Journal of Econometrics 220: 416–446. -PDF- Cui G., Norkuté M., Sarafidis V., Yamagata T. 2020a. Two-stage instrumental variable estimation of linear panel data models with interactive effects. ISER Discussion Paper 1101, Institute of Social and Economic Research, Osaka University. -PDF- Pesaran M. H. 2006. Estimation and inference in large heterogeneous panels with a multifactor error structure. Econometrica 74: 967–1012. -PDF- Bai J. 2009. Panel data models with interactive fixed effects. Econometrica 77: 1229–1279. -PDF- Westerlund J., Urbain J.-P. 2015. Cross-sectional averages versus principal components. Journal of Econometrics 185: 372–377. -PDF- Juodis A., Karabiyik H., Westerlund J. 2021. On the robustness of the pooled CCE estimator. Journal of Econometrics 220: 325–348. -PDF- Jiang B., Yang Y., Gao J., Hsiao C. Forthcoming. Recursive estimation in large panel data models: Theory and practice. Journal of Econometrics. -PDF- Stock J. H., Watson M. W. 1998. Diffusion indexes. NBER Working Paper No. 6702, The National Bureau of Economic Research. -PDF- Bai J., Liao Y., Yang J. 2015. Unbalanced panel data models with interactive effects. In The Oxford Handbook of Panel Data, ed. Baltagi B. H., 149–170. Oxford: Oxford University Press.
6. 相关推文
Note:产生如下推文列表的 Stata 命令为:
lianxh 工具变量, m
安装最新版lianxh
命令:
ssc install lianxh, replace
专题:论文写作 Stata论文复现:份额移动法工具变量(Shift-Share IV) 专题:Stata命令 Stata新命令-pdslasso:众多控制变量和工具变量如何挑选? 专题:IV-GMM 数字经济的工具变量 工具变量:与朱熹书院距离作为IV 论文推介:IV-天气是好的工具变量吗? 工具变量:教育回报IV探讨 工具变量:顶刊中的Shock-IV整理 工具变量:Shock-IV中预处理平衡的必要性 工具变量法:IV估计的信与不信 Stata:工具变量的秩检验-bootrantest Stata:无需工具变量的IV估计-kinkyreg- Stata:当工具变量小于内生变量时,该如何估计?-mmeiv Lasso一下:再多的控制变量和工具变量我也不怕-T217 IV在哪里?奇思妙想的工具变量 twostepweakiv:弱工具变量有多弱? 多个(弱)工具变量如何应对-IV-mivreg? IV:工具变量不满足外生性怎么办? IV-工具变量法:第一阶段系数符号确定时的小样本无偏估计 IV:可以用内生变量的滞后项做工具变量吗? Stata: 工具变量法 (IV) 也不难呀! IV-估计:工具变量不外生时也可以用! 专题:内生性-因果推断 Stata:内生变量与工具变量非线性关系处理-discretize 工具变量-IV:排他性约束及经典文献解读
课程推荐:2023 暑期班
主讲老师:连玉君,王群勇
🍓 课程主页:https://www.lianxh.cn/news/fdc69c3695aec.html
New! Stata 搜索神器:
lianxh
和songbl
GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
. ssc install lianxh
. ssc install songbl
👉 使用:
. lianxh DID 倍分法
. songbl all
🍏 关于我们
连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。