查看原文
其他

带群组结构的面板模型综述

李哲 狗熊会 2023-08-15

一、前言

面板数据,也称“平行数据”或“TS-CS数据(Time Series - Cross Section)”,具有时间序列和截面两个维度。相较于时间序列数据或截面数据,面板数据通常具有更丰富的信息,常用于金融学、统计学、社会科学等领域的案例研究。下图为一个面板数据的示例,展示了不同人员在不同年份的薪资等信息。

面板数据的一个特点是个体之间存在异质性。在建模时,如果忽略个体之间的异质性,则可能会导致错误的模型设定,得到不相合的估计量,如果将所有个体之间的异质性纳入考虑,即每个个体的回归系数都不同,则可能会丢失个体之间的一些潜在联系。因此,综合这两方面的考虑,一些学者尝试在面板模型中引入群组结构:属于同一群组的个体共享一个相同的参数,而不同群组之间的参数是不同的。近年来,带群组结构的面板模型逐渐成为面板数据分析中的常用模型,本文对这一模型的估计方法做一简要回顾。

二、相关研究梳理

1、面板数据与模型的表示

一般情况下,我们用表示面板数据,为第个体在时刻的协变量,为第个体在时刻的响应变量;则一般的带群组结构的面板模型可以表示为:
其中, 待估参数 , 表示具体的面板模型,常见的有:
  • 线性面板模型:
  • Logit面板模型:服从Logistic分布,为指示函数
注意:上述两个模型中的表示不可观察的个体固定效应,与时间无关。

在传统的面板数据建模中,针对个体之间的异质性,通常有两种不同的建模策略:一种是忽略这种异质性,假定回归参数在个体间是同质的,而个体之间的异质性由不可观察的固定个体效应刻画(见Hsiao and Tahmiscioglu, 1997; Lee, Pesaran, and Smith, 1997; Durlauf, Kourtellos, and Minkin, 2001; Phillips and Sul, 2007a; Browning and Carro, 2007, 2010, 2014; Su and Chen, 2013);另一种策略是假定每个个体的回归参数与其他个体不同,是完全异质的(见Baltagi, Bresson, and Pirotte, 2008; Hsiao and Pesaran, 2008)。如前文所讲,这两种建模策略都存在一定的问题,因此带群组结构的面板模型近年来开始受到研究者的广泛关注。

2、基于有限混合模型的方法

带群组结构的面板模型最早由Yixiao Sun (2005)提出,在这个研究中,作者用多项式逻辑回归来推断群组结构,具体而言,作者用概率表示第个个体属于第组的概率,即:

与此同时,定义:

以及

其中,为协方差矩阵。则似然函数可写为:
利用EM算法可以得到模型参数的估计:
该模型本质上是一个混合面板模型,在此之后,Kasahara and Shimotsu (2009)以及Browning and Carro (2011)也尝试将非参混合模型应用到面板模型中以研究面板模型中的群组结构。但这类方法计算量较大,同时需要预先设定群组数目,并不能很好地应用于实际数据中。

3、基于K均值聚类的方法

与上一节基于混合模型的方法不同,Lin and Ng (2012)提出了一种类似于K-均值聚类的方法,通过引入“伪阈值变量” 实现对群组结构的估计,以为例,首先将每个个体的数据独立回归得到,并令;利用
得到伪阈值变量的估计值;如果,则划分到第一组,如果则划分到第二组;在同一组中做回归,得到;重复上述步骤直到算法收敛。对于群组数目的取值,Lin and Ng (2012)提出了两种方法,一种是序列化假设检验的方法,具体而言,首先检测整体数据是否是同质的,原假设为“数据是同质的”,如果拒绝原假设,则利用算法将数据分为两个群组,在各群组中分别做相同的假设检验,循环操作直到不能拒绝原假设。另一种方法是基于BIC的方法,构造
其中。基于这种策略,Sarafidis and Weber (2015) 也提出了一种类似的算法:交替更新各个体的群组以及各群组的回归参数直至收敛。对于群组数目的选取,该文献同样采用类BIC的方法,即:
其中,为损失函数,。这两篇文章基本奠定目前带群组结构面板模型估计的基本框架,但遗憾的是,这两篇文献几乎没有涉及到统计推断的证明,理论不够完善。尽管如此,基于这两篇文献的思路,Bonhomme and Manresa (2015) 在固定效应中引入群组结构并利用类K均值的算法进行估计并研究了估计量的渐进分布,在群组数目选择方面,该文献仍沿用BIC的思路,预先设定一个最大群组数目,通过下式得到
其中为带估参数的维度,。基于该文献的成果,Ando and Bai (2015)将该方法推广到含交互固定效应的面板模型中。

4、基于Lasso的方法

以上的研究都是聚焦于线性的面板模型,未涉及到非线性的面板模型,同时针对模型估计的理论性质的研究还不够完善。因此,Su et al. (2016)提出了一种类似Lasso的方法,称之为C-Lasso,该方法可以应用于非线形模型,其核心思想是定义一种新的目标函数:

其中为调节参数,表示第个组的真实参数,是未知的,因此这里需要估计以及。值得一提的是,这里的惩罚项虽然和Lasso类似,但不同之处在于上式的惩罚项确保了参数估计值向该组的真实值收缩而非像Lasso一样向零收缩。而对于群组数目的选取,该文献仍简单采用类BIC的方法来处理:
其中为调节参数。与此同时,该文献提供了较为完整的理论证明,证明了群组分类的相合性,基于该文献的成果,Lu and Su (2017)提出了一种确定群组数目的方法,该方法与之前基于BIC的方法不同,采用假设检验的思路,构造假设检验问题:,从开始检验,直至在处无法拒绝原假设,得到群组数目的估计值。在最近几年,基于C-Lasso的方法,Su and Ju (2018) 提出了一种含交互效应的群组面板模型,Su et al. (2019)也将C-Lasso这种方法应用到时变面板模型中。基于该文献的理论结果,Liu et al. (2020)证明,在过拟合情况下(即:群组数目大于真实群组数目),参数估计的相合性,进一步完善了该领域的理论。

三、实际数据应用解读

正如前文所述,带群组结构的面板模型在经济学、统计学、社会学等领域有着十分广泛的应用,这里介绍一个分析总量生产函数的例子。

总量生产函数是指反映总产出量与投入的各种生产要素量的关系的函数,是经济学中的一个重要概念,对经济学家了解经济增长、技术变化、各国生产率差异和生产效率具有重要作用。分析数据来源于Penn World Table,包含43个国家在1950年到2014年期间的生产数据。利用线性模型

对数据进行回归分析,其中分别表示第个国家在第年的实际对数GDP、资本存量和就业人数,表示政府的公共支出,定义为出口减去商品进口的净贸易开放度。通过带群组的面板模型,我们将数据分成了三组,同时得到了各组的估计值,如下表所示:
从上表中可以看出,同一种因素对不同群组的影响不同,资本存量和就业人数在三个群组中的回归参数大致相同,但政府的公共支出和净贸易开放度对三个群组的影响却不尽相同,尤其是对于群组二,这两项都会对其产生消极的影响。

四、总结与展望

本文对带群组结构的面板模型的估计方法做了简单的梳理。面板数据在经济、金融、社会学等领域的存在十分广泛,带群组结构的面板模型应用具有广阔的前景。通过近二十年的发展,这类模型的算法由复杂到简单,目前常用的算法是一种类似于K均值聚类的算法,即交替更新各个体群组索引和各群组参数的估计直至收敛,相关的理论证明也趋于完善。但笔者认为,带群组结构的面板模型的一个关键点在于群组数目的选取,由于在实际数据中,群组数目是未知的,因此群组数目的估计就显得尤为重要。在相关文献中,关于群组数目的估计,主要可以分为两种思路:一种是类BIC的方法,通过构造惩罚项来估计群组数目,这类算法的局限在于估计值对惩罚项里的调节参数敏感,不同的模型需要使用不同的调节参数;另一种是序列化假设检验的思路,从开始做假设检验,直到不能拒绝原假设,这类方法的局限性在于计算成本过高。因此如何快速有效地选取群组数目或许会成为带群组结构的面板模型未来的一个研究方向。

五、参考文献

[1] Azzali, I., Vanneschi, L., Silva, S., Bakurov, I., & Giacobini, M. (2019, April). A vectorial approach to genetic programming. In European Conference on Genetic Programming (pp. 213-227). Springer, Cham.

[2] Hsiao, C., & Tahmiscioglu, A. K. (1997). A panel analysis of liquidity constraints and firm investment. Journal of the American Statistical Association, 92(438), 455-465.

[3] Lee, K., Pesaran, M. H., & Smith, R. (1997). Growth and convergence in a multi‐country empirical stochastic Solow model. Journal of applied Econometrics, 12(4), 357-392.

[4] Durlauf, S. N., Kourtellos, A., & Minkin, A. (2001). The local Solow growth model. European Economic Review, 45(4-6), 928-940.

[5] Phillips, P. C., & Sul, D. (2007). Bias in dynamic panel estimation with fixed effects, incidental trends and cross section dependence. Journal of Econometrics, 137(1), 162-188.

[6] Browning, M., & Carro, J. (2007). Heterogeneity and microeconometrics modelling. Econometric Society Monographs, 43, 47.

[7] Su, L., & Chen, Q. (2013). Testing homogeneity in panel data models with interactive fixed effects. Econometric Theory, 29(6), 1079-1135.

[8] Baltagi, B. H., Bresson, G., & Pirotte, A. (2008). To pool or not to pool?. In The econometrics of panel data (pp. 517-546). Springer, Berlin, Heidelberg.

[9] Hsiao, C., & Pesaran, M. H. (2008). Random coefficient models. In The econometrics of panel data (pp. 185-213). Springer, Berlin, Heidelberg.

[10] Sun, Y. (2005). Estimation and inference in panel structure models. Available at SSRN 794884.

[11] Lin, C. C., & Ng, S. (2012). Estimation of panel data models with parameter heterogeneity when group membership is unknown. Journal of Econometric Methods, 1(1), 42-55.

[12] Sarafidis, V., & Weber, N. (2015). A partially heterogeneous framework for analyzing panel data. Oxford Bulletin of Economics and Statistics, 77(2), 274-296.

[13] Bonhomme, S., & Manresa, E. (2015). Grouped patterns of heterogeneity in panel data. Econometrica, 83(3), 1147-1184.

[14] Ando, T., & Bai, J. (2015). Asset pricing with a general multifactor structure. Journal of Financial Econometrics, 13(3), 556-604.

[15] Su, L., Shi, Z., & Phillips, P. C. (2016). Identifying latent structures in panel data. Econometrica, 84(6), 2215-2264.

[16] Lu, X., & Su, L. (2017). Determining the number of groups in latent panel structures with an application to income and democracy. Quantitative Economics, 8(3), 729-760.

[17] Su, L., & Ju, G. (2018). Identifying latent grouped patterns in panel data models with interactive fixed effects. Journal of Econometrics, 206(2), 554-573.

[18] Su, L., Wang, X., & Jin, S. (2019). Sieve estimation of time-varying panel data models with latent structures. Journal of Business & Economic Statistics, 37(2), 334-349.

[19] Liu, R., Shang, Z., Zhang, Y., & Zhou, Q. (2020). Identification and estimation in panel models with overspecified number of groups. Journal of econometrics, 215(2), 574-590.

- END -

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存