对于一个有个节点的网络结构来说,假设第个节点在第时刻的观测变量记为,这个个体的其他协变量(例如年龄、性别等)记为。为了建模,Zhu et al. (2017) 提出了网络向量自回归模型(NAR),如下所示:
其中表示节点的出度,是随机误差项。NAR模型及其扩展已经被广泛应用于各个领域,包括空间数据建模 (Lee and Yu, 2009; Shi and Lee, 2017), 社会研究 (Sojourner, 2013; Liu et al., 2017; Zhu and Pan, 2018), 金融风险管理 (Härdle et al., 2016; Zou et al., 2017) 等。但是由于模型对于所有网络节点只包含了一个同质的网络自回归系数 (即), 导致其在实际中的应用比较受限。为了增强模型的灵活性, 一种被广泛应用的方法是对于面板数据模型的系数考虑分组结构 (Ke et al., 2015; Su et al., 2016; Ando and Bai, 2016; Guðmundsson and Brownlees, 2021)。具体地, 这些模型对面板数据回归的系数赋予分组异质性, 其中的组别信息是不可观测的, 需要使用数据信息进行估计。例如, Su et al. (2016) 通过使用 C-Lasso 惩罚的方法将个体参数缩减成分组参数, 从而实现同时估计样本分组和分组参数。 Bester and Hansen (2016) 研究了带有交互的固定效应分组面板模型, Bonhomme and Manresa (2015) 研究了系数带有时变特点的情况。在实际数据的应用场景中, Su and Ju (2018) 将分组面板模型应用在中国大中城市近 10 年房价粘性研究中。 Guðmundsson and Brownlees (2021) 探索了美国金融体系中机构的溢出群结构。而在网络数据应用方面, Zhu and Pan (2018) 考虑了分组网络自回归 (GNAR) 模型。具体而言, 将节点分成若干组, 同一组内的节点共享一组公共参数, 因此节点的分组标签完全由节点系数决定, 节点的分组信息和分组的回归系数都需要估计。
另一类针对网络数据中分组结构的研究使用了网络图信息 (例如邻接矩阵)。在这些研究中, 分组结构一般也被称作社群结构, 主要的估计方法是社群检测方法 (Zhao et al., 2012; Lei and Rinaldo, 2015; Rohe et al., 2011)。随机块模型 (SBM) 是一种流行的社群结构模型, 其中同一群组内部的节点相连概率更高, 属于不同群组的节点连接概率更低。在贝叶斯分析领域, 研究者使用非参数贝叶斯方法对节点进行聚类 (Sewell and Chen, 2017; Geng et al., 2019; van der Pas and van der Vaart, 2018; Geng and Hu, 2021), 从模型角度来看, 这些研究也基于群组内部节点相连概率更高的设定。特别地, Geng and Hu (2021) 直接将邻接矩阵 嵌入到先验信息中, 这与本研究的建模目标更相近。同时, 作者也发现 SBM 的生成机制不能自然地嵌入到狄利克雷过程中,因此不能直接作用于贝叶斯估计的过程中。此外, 虽然已有的社群检测方法在网络数据研究的应用中较为广泛, 但是这些方法在建模时通常忽略了 的动态性。
本研究进行了两个实证案例研究。第一个真实数据案例使用市级财政收入 (Fiscal Revenue, FR) 数据来研究地方政府的经济竞争现象。第二个真实数据案例研究上海和深圳证券交易所交易的股票的动态模式。在附件中, 本文还做了中国城市 GDP 增速的类似研究。
中国财政收入分析
背景与数据描述
本研究首先讨论了城市财政收入与相邻城市及其过去的历史观测之间的关系。本文从 2005-2016 年《中国市县财政统计数据》中收集了 151 个城市的公共财务报表。该数据由中华人民共和国财政部国有出版社一一中国财经出版社出版。它们收集了市级财政统计的详细信息, 如财政收支、转移支付和财政支持的人口等 (Yu et al., 2016)。本研究中的观测变量是财政收入与地方 GDP 的比值 (FR/GDP)。基于 Zhang and Zou (1998); Devereux et al. (2007); Lv et al. (2020) 的研究, 本文考虑四个协变量, 分别是 POP (年末人口)、GDP1st (第一产业占 GDP 的比例)、SAV (城乡居民年底储蓄) 和 FOR (实际外资)。