查看原文
其他

图辅助分组网络自回归模型:基于贝叶斯框的研究

任怡萌 狗熊会 2023-09-03
点击“蓝字”关注我们吧!



任怡萌,复旦大学大数据学院 2022 级在读博士生。




今天和各位熊分享的是一篇2022年发表在 Journal of Business & Economic Statistics 的文章,文章在贝叶斯框架下提出了图辅助的分组网络自回归模型,并应用在中国财政收入分析与股票收益率分析中。

Ren, Y., Zhu, X., Lu, X., & Hu, G. (2022). Graphical assistant grouped network autoregression model: a Bayesian nonparametric recourse. Journal of Business & Economic Statistics, 1-15.

研究背景

问题背景

随着互联网迅猛发展, 以微信、微博为代表的社交网络平台迅速兴起。根据 “Hootsuite” 和 “We Are Social” 两家机构发布的《2021 年 7 月全球数字报告》 显示, 目前全世界有 44.8 亿社交媒体用户, 相当于全世界总人口的 57%。

图1:16-64岁用户在不同媒体平台上平均每天花费时长(来源:2021年7月全球数字报告)

社交平台的兴起带来了规模庞大的网络数据, 并为计量建模分析带来全新的视角。除社交网络建模外, 网络数据在各个领域发挥越来越大的作用 (洪永淼 and 汪寿阳, 2021), 包括但不限于以下几个领域:

  • 社会学 (Simmel, 1950; Wasserman et al., 1994; Hanneman and Riddle, 2005)
  • 基因组学 (Wu et al., 2010; Horvath, 2011)
  • 心理学 (Borgatti et al., 2009; Cramer et al., 2010; Borsboom and Cramer, 2013)
  • 经济金融领域 (Zou et al., 2017; Zhu et al., 2019; Leung et al., 2017)。

随着网络数据复杂度增加, 网络个体表现出异质性特征, 以往针对同质数据的建模思路不再适用, 需要对异质性网络数据开发新的计量建模工具。而随着海量数据存储技术的发展, 网络节点各类动态及静态指标都可以被收集到, 例如, 用户的年龄、性别、发帖量、评论数等。网络数据分析的一个重要问题是建立网络节点及其相连接点的交互关系, 空间自回归模型就是刻画网络效应的一类重要模型。传统的空间自回归模型假设所有网络节点的网络效应可以被单一回归系数刻画, 这忽略了网络节点的异质性特征。例如, 在金融市场中, 一些金融机构的股票波动对市场大盘具有重要影响, 因此, 这些机构成为金融监管的重点。在社交网络中, 用户往往存在群组结构, 属于同一群组 (例如: 同学校) 的用户行为特征及交互模式较为一致, 而不同群组之间存在较大差异。对于这些复杂度较高的网络数据, 如果采取单一参数进行刻画, 往往会导致模型的误设定以及欠拟合。因此,对网络数据的异质性进行刻画是一个较为关键的问题。

已有文献研究

对于一个有个节点的网络结构来说,假设第个节点在第时刻的观测变量记为,这个个体的其他协变量(例如年龄、性别等)记为。为了建模,Zhu et al. (2017) 提出了网络向量自回归模型(NAR),如下所示:

其中表示节点的出度,是随机误差项。NAR模型及其扩展已经被广泛应用于各个领域,包括空间数据建模 (Lee and Yu, 2009; Shi and Lee, 2017), 社会研究 (Sojourner, 2013; Liu et al., 2017; Zhu and Pan, 2018), 金融风险管理 (Härdle et al., 2016; Zou et al., 2017) 等。但是由于模型对于所有网络节点只包含了一个同质的网络自回归系数 (即), 导致其在实际中的应用比较受限。为了增强模型的灵活性, 一种被广泛应用的方法是对于面板数据模型的系数考虑分组结构 (Ke et al., 2015; Su et al., 2016; Ando and Bai, 2016; Guðmundsson and Brownlees, 2021)。具体地, 这些模型对面板数据回归的系数赋予分组异质性, 其中的组别信息是不可观测的, 需要使用数据信息进行估计。例如, Su et al. (2016) 通过使用 C-Lasso 惩罚的方法将个体参数缩减成分组参数, 从而实现同时估计样本分组和分组参数。 Bester and Hansen (2016) 研究了带有交互的固定效应分组面板模型, Bonhomme and Manresa (2015) 研究了系数带有时变特点的情况。在实际数据的应用场景中, Su and Ju (2018) 将分组面板模型应用在中国大中城市近 10 年房价粘性研究中。 Guðmundsson and Brownlees (2021) 探索了美国金融体系中机构的溢出群结构。而在网络数据应用方面, Zhu and Pan (2018) 考虑了分组网络自回归 (GNAR) 模型。具体而言, 将节点分成若干组, 同一组内的节点共享一组公共参数, 因此节点的分组标签完全由节点系数决定, 节点的分组信息和分组的回归系数都需要估计。

另一类针对网络数据中分组结构的研究使用了网络图信息 (例如邻接矩阵)。在这些研究中, 分组结构一般也被称作社群结构, 主要的估计方法是社群检测方法 (Zhao et al., 2012; Lei and Rinaldo, 2015; Rohe et al., 2011)。随机块模型 (SBM) 是一种流行的社群结构模型, 其中同一群组内部的节点相连概率更高, 属于不同群组的节点连接概率更低。在贝叶斯分析领域, 研究者使用非参数贝叶斯方法对节点进行聚类 (Sewell and Chen, 2017; Geng et al., 2019; van der Pas and van der Vaart, 2018; Geng and Hu, 2021), 从模型角度来看, 这些研究也基于群组内部节点相连概率更高的设定。特别地, Geng and Hu (2021) 直接将邻接矩阵 嵌入到先验信息中, 这与本研究的建模目标更相近。同时, 作者也发现 SBM 的生成机制不能自然地嵌入到狄利克雷过程中,因此不能直接作用于贝叶斯估计的过程中。此外, 虽然已有的社群检测方法在网络数据研究的应用中较为广泛, 但是这些方法在建模时通常忽略了 的动态性。

因此, 为了对网络节点观测 的异质性建模, 需要解决以下三方面的问题。 首先, GNAR 模型末考虑网络节点的图信息, 并且已有的群组检测方法忽略了网络节点观测的动态性。因此需要考虑如何将图信息纳入 GNAR 模型的建模过程。图信息蕴含着不同节点之间的连接模式, 将在一定程度上确定节点的分组。特别地, 本文在非参数贝叶斯混合模型框架 (Geng and Hu, 2021) 下利用图信息, 从而距离较近的节点有更高的概率被分在同一个组内。其次,第二个主要的问题是提出对分组配置和分组参数同时进行估计的方法。现有的基于频率学派的方法很难对参数估计有概率解释。最后一个重要问题是如何确定分组的数量。大多数现有的方法都需要提前指定组的数量, 然后估计节点的分组结构。分组的数量往往通过某些信息准则或者指定的方法来决定, 这些方法在决定分组数量时缺乏对分组数量估计不确定性的量化, 这同时也是 GNAR 模型未能很好解决的一个重要问题。

本文贡献

本研究的贡献主要在以下三个方面:

  1. 首先, 本研究对 GNAR 模型进行了改进, 能够在不预先指定组数的情况下利用图信息进行估计;
  2. 其次, 通过采用贝叶斯框架, 本研究能够对分组结果给出有意义的概率解释;
  3. 最后, 本文提出的吉布斯抽样算法对组的数量进行积分, 避免了复杂的可逆跳跃马尔可夫链蒙特卡罗 (MCMC) 算法 (Green, 1995) 或分配抽样带来的较高计算量, 因此本研究提供的抽样方案提供了更为高效的计算途径。

理论模型

分组网络自回归模型 (GNAR)

考虑一个具有 个节点的网络, 其相应的邻接矩阵由 表示。假设节点聚集成 个潜在组, 将 表示为 生成的 域。给定 , 假设时间点 的观测是独立的, 并遵循具有 个分量的高斯混合分布。给定组数 和邻接矩阵 , GNAR 模型可以表示为混合模型,

其中 是正态分布的密度函数, 第 个分量分布的均值为 , 方差为 是混合权重, 满足 是待估参数。模型 (1)-(3) 将 的条件均值分解为四个组成部分。第一部分为基础效应 (截距项) ; 第二部分是网络成分, 反映了节点关注的 “邻居” 在某个时刻对该节点的平均影响, 因此 也被称作分组网络效应; 第三部分是动量成分, 刻画了节点在当前时刻的表现如何受到历史时刻的影响, 被称作分组动量效应; 第四部分是协变量成分, 其中节点的协变量是不随时间变化的。在模型 (1)-(3) 中, 同一组的节点共享一组参数, 因此同一组内的节点具有相似的动态特性。和 Zhu et al. (2017) 相比, GNAR 模型能够从分组层面捕捉到节点异质性, Zhu and Pan (2018) 使用 EM 估计方法对模型参数以及节点分组信息进行估计。

尽管 GNAR 模型应用广泛,但其仍然有三方面的局限性。

  1. 其一,若数据的时间长度较短,则估计结果较为不稳定,这在实际应用中有一定的缺陷;
  2. 其二,在估计节点分组数目时,网络结构的信息没有得到较为充分的利用;
  3. 其三,分组数量 需要提前指定,无法在估计参数的过程中同步更新。

鉴于以上三点局限性,本研究考虑在贝叶斯框架下估计此类问题,引入图信息辅助的先验,进而能够在估计节点分组时考虑节点间的连接结构。

贝叶斯图辅助先验

对于每个节点 , 假设它携带一个潜在的组别 , 其中 表示第 个节点来自于第 组。给定 和参数 , 可以写出高斯混合模型 Marin et al. (2005) 如下,

其中 。对于末知的节点分组信息, 模型先验可以设置为如下贝叶斯分层模型的形式,
其中, 服从参数为 的类别分布, 服从参数为 的狄利克雷分布, 是分组参数的联合先验分布。当 已知时, 令 趋向于正无穷, 那么 (4)-(6) 可以写成狄利克雷过程混合模型 (DPMM, Ishwaran and Zarepour (2002))。 DPMM 是一个能够有效估计密度函数的方法, 但是在模型存在分组结构时, 该方法存在以下三个问题: 首先, DPMM 后验采样往往能够估计出较多只包含少量样本的组别, 使得模型估计结果的可解释性变差; 其次, DPMM 对于分组数量的估计并不是一致估计 (Miller and Harrison, 2018)); 最后, DPMM 并没有利用网络结构信息, 无法使得相连节点以更高的概率分为一组。为了解决上述问题, 本研究在贝叶斯框架中引入图信息辅助的先验。假设节点的组别 是从加权狄利克雷过程中有序生成的。假设在生成第 个节点的组别时, 其余 个节点 已经构成了 组, 则 的条件概率为
其中 是基于邻接矩阵 计算得到的权重矩阵。 衡量了节点 和节点 之间的连接强度, 控制了新组别的生成概率。因此, (7) 意味着一个节点更有可能被估计至与它相连的节点所在的类别。(7) 的所定义的 生成过程可以保证节点分组的可交换性。可以看出, 图结构信息被嵌入在公式 (7) 中。 类似地, 若干已有研究也通过引入贝叶斯先验进行建模, Pan et al. (2020) 引入贝叶斯先验对空间面板数据进行建模, 但其末引入图结构信息, Lu et al. (2018) 通过使用加权的 CRP 来解决传统 CRP 过度分类的问题, 但是该研究忽略了网络结构与动态性。此外, 有若干研究也使用了类似于 (7) 的建模方法, 将加权的 CRP 用在网络结构数据上。例如, Blei and Frazier (2011) 提出使用距离决定的 CRP (ddCRP) 来对由网络结构组成的文档进行建模, Chen et al. (2016) 将加权贝叶斯先验与节点属性值引入 Newman's 混合模型 (Newman and Leicht, 2007), Geng and Hu (2021) 使用引入图信息的 CRP 进行网络节点分组研究。尽管已有研究对加权 CRP 与网络数据进行了结合, 但是在进行网络节点分组的过程中忽略了图信息或节点观测的动态信息。

需要说明的是, 在概率贝叶斯模型下, 一般使用较为复杂的搜索算法 (例如可逆跳跃 MCMC 方法 (Green, 1995)), 但是这类方法的计算复杂度较高。在本研究的框架下, (7) 的设定允许节点的分组是序列化生成的, 当节点 时, 代表估计出一个新的组别, 因此避免了提前指定分组数目, 而是在所有节点分组 全部估计后, 就得到 的估计。

为一个定义在 上的连续概率测度, 定义如下 **的满条件分布为

其中, 是密度函数, 为除去第 个节点之外其他节点构成的分组数目, 个不同的参数取值, 是示性函数。在实际使用中, 本研究设置基本分布 为正态倒伽马分布。

借鉴 Geng et al. (2019) 在生存模型中提出的图辅助中餐馆过程 (gaCRP), 本研究定义 为节点 和节点 之间的图距离, 即两个节点之间的最短路径。如果两个节点在有限的步长内没有连接, 则 。具体地, 可以被如下定义

本研究将上述 gaCRP 记作 。其中 可以表示权重矩阵的 “平滑系数”, 权重 刻画了节点 之间的紧密程度。 时, gaCRP 退化为传统的中餐馆过程, 而容易对节点进行过多分类; 时, 节点选择新的类别的概率更小, 同样容易过多分类, 因此如何选择更优的 是一个关键问题。尽管带有图结构权重的中餐馆过程已经被 Geng et al. (2019) 研究, 但是其模型是基于 Cox 回归, 并应用生存数据分析, 而没有讨论节点观测 的动态时序相关性。因此, 本研究建立的模型可以被表示为如下的分层模型:

其中 **是参数 基本分布的超参数, 服从参数为 的正态倒伽马分布 。不失一般性, 在模拟实验和实际数据实验过程中设置 。模型 (10)-(12) 记作图辅 助分组网络自回归模型 (GAGNAR)。

贝叶斯估计

本节讨论对 GAGNAR 模型的估计方法。节点分组信息记为 。当节点分组信息已知时, 则 (1)-(3) 模型参数可以使用最小二乘方法进行估 计, 但在实际中 是无法观测到的, 因此传统最小二乘方法不再适用。因此本 研究使用马尔科夫链蒙特卡洛方法对参数和分组信息进行同时估计。

MCMC算法

首先, 推导待估参数和节点分组信息的后验分布, 记 。给定观测数据 , 分组 和参数 的联合后验分布可以写为,

其中 表示 “正比于”, 分别表示 的先验分布, 记 , 则给定 , 有

的先验分布是 (7) 定义的 。此外, 指定 的先验分布为正态分布 , 指定 的先验分布为常用的倒伽马分布 , 其中 是超参数。

给定联合后验分布 (8), 可以得到每个节点分组和对应参数的条件后验分布, 从而进行 MCMC 估计。记 , 并且记 的满条件分布为 。此外, 定义 以及 , 则有

其解析形式在命题1给出。

通过 的形式可以看出第 个节点属于已经有的分组 的概率和网络权重矩阵 关系密切。 表示其连接朋友属于第 组的加权平均 比率, 表示了第 个节点邻域对第 组的 “粘性”。粘性水平越高, 则 的条件概率越高。这就是采样过程中网络拓扑信息的作用。节点被分至一个新的 组别的概率正比于 , 这个概率和先验信息以及数据信息相关。 接下来讨论参数 的满条件分布。记 的后验分布为 , 在命题 2 中得到其具体形式。

以上两个命题的证明详见附件态倒伽马分布, 密度函数表示为 。通过 的表达式 可以看出, 第 组参数的密度函数与参数先验信息和属于第 组的观测数据信 息 有关。根据命题回和命题区, 可以循环对满条件分布 进行 Gibbs 抽样。在节点分组计算的过程中, 通过数学计算被积分, 这样可以避免复杂的可逆跳转 MCMC 算法或分配采样方法。算法国总结了 GAGNAR 模型的 Gibbs 抽样过程。

后MCMC估计

为 burn-in 之后的第 次迭代估计结果, 对应地, 记 为网络节点分组在第 轮迭代的估计结果。特别地, 注意到在不同的迭代轮次, 分组数量 的估计是不完全一样的, 因此, 无法对全部的迭代结果进行参数后验估计。为了解决上述问题, 本研究采用 Dahl's 方法 (Dahl, 2006), 通过最小二乘准则来选择最佳的后 burn-in 迭代轮次, 该轮次的估计结果则作为后 MCMC 估计量。

具体地, 作者采用共同分组矩阵来选取最佳迭代轮次。定义共同分组矩阵 , 其中 。因此矩阵 的第 个元素表示第 个节点是否和第 个节点属于同一组。共同分组矩阵不受到不同轮次估计的组数 和节点分组标签交换的影响, 因此最佳迭代轮次按照如下方式选择,

其中 是 burn-in 后第 次迭代估计的共同分组矩阵, 并且 。 最佳的迭代轮次为距离平均共同分组矩阵 最近矩阵所对应的轮次, 对应的分组数量记为 , 参数估计记为

平滑参数的选择

选择平滑参数的问题同样可以视作模型选择问题。具体地, 本研究使用基 于条件预测坐标 (CPO) (Gelfand et al., 1992; Geisser, 1993; Gelfand and Dey, 1994) 伪边际似然 (LPML) (Ibrahim et al., 2014) 来选择

给定  , LPML 定义为

其中 **是节点 的 CPO 值, 定义为 (Pettit, 1990), 且 。可以看出, LPML 表达式是一个伪对数似然函数, 因此本文选择能够使得 LPML 最大的 。借鉴 Chen et al. (2012) 的思路, 得到 CPO 的蒙特卡洛估计为
其中 是蒙特卡洛模拟迭代的总次数, 并且,
是第 个节点的似然函数。因此,得到 LPML 的估计值 , 选择最优
图2:GAGNAR模型Gibbs抽样算法

实际数据分析

本研究进行了两个实证案例研究。第一个真实数据案例使用市级财政收入 (Fiscal Revenue, FR) 数据来研究地方政府的经济竞争现象。第二个真实数据案例研究上海和深圳证券交易所交易的股票的动态模式。在附件中, 本文还做了中国城市 GDP 增速的类似研究。

中国财政收入分析

  1. 背景与数据描述

本研究首先讨论了城市财政收入与相邻城市及其过去的历史观测之间的关系。本文从 2005-2016 年《中国市县财政统计数据》中收集了 151 个城市的公共财务报表。该数据由中华人民共和国财政部国有出版社一一中国财经出版社出版。它们收集了市级财政统计的详细信息, 如财政收支、转移支付和财政支持的人口等 (Yu et al., 2016)。本研究中的观测变量是财政收入与地方 GDP 的比值 (FR/GDP)。基于 Zhang and Zou (1998); Devereux et al. (2007); Lv et al. (2020) 的研究, 本文考虑四个协变量, 分别是 POP (年末人口)、GDP1st (第一产业占 GDP 的比例)、SAV (城乡居民年底储蓄) 和 FOR (实际外资)。

  1. 模型估计与解读

接下来, 将 GAGNAR 模型 (10)-(12) 应用到中国财政收入数据中。首先, 使用 2005-2016年的数据作为训练集进行参数估计。选取 为平滑参数 , 令 。对于每个 , 运行 1500 次 MCMC 迭代, 并设置 burn-in 前 500 次迭代结果。LPML 选取的最佳 为 2 , 估计组数为 。在 下的城市分组结构展示在图 5.4 的左上角。第一类城市主要来自位于中国南部的广东省、江西省和浙江省, 以及中国中南部的安徽省, 因此第一组城市主要由中 国中部偏南的地区构成。第二组城市主要来自山东省 (中国东部) 和河南省 (中国中部偏东) 的城市, 且平均 FR/GDP 水平最低, 如图 7 右上方所示。辽宁省、吉林省、黑龙江省等的大部分城市构成第三类, 这些城市主要分布在东北地区。 江苏省的部分城市处于第四组, 平均 FR/GDP 值最高。从图 7 右上部分可以看出, 四组城市呈现出不同的经济特征, 四组城市的平均 FR/GDP 呈现出不同的水平。

图 6 展示了 LPML 准则选择的最优 对应模型所估计的参数。可以看出, 四组之间的网络效应和动量效应是明显不同的。其中, 第二组和第三组城市具有正向的网络效应, 即与空间相邻的城市可能存在相互 “模仿” 的经济策略。与之相反, 第一组和最后一组的城市与相邻城市呈负相关关系。这意味着他们倾向于采取与邻近城市相反的经济决策。四组城市的观测均存在正动量效应, 说明各个城市的历史表现与其当期经济状况呈正相关关系。此外, 协变量对财政收入有不同的影响。例如, 人口对第一组和第二组城市的财政收入有负向影响, 而对其他城市则有正向影响。外商投资代表了一个城市的开放程度, 其对第四组城市的财政收入有负面影响, 而对其他城市则有正面影响。

为了进一步推断各参数的后验分布, 本文使用最高后验密度 (HPD) 区间 (Chen and Shao, 1999; Kruschke, 2014) 来得到各参数的后验分布, 结果展示在图 7 的中间面板左侧。这里选取四个分组内具有代表性城市 (北京市、临沂市、 抚顺市、泰州市), 计算每个城市特定参数的 95% HPD 区间。从结果可以看出, 虽然四组之间的 POP 系数相似, 但其他参数在四个城市之间有明显的区别。为了更好地理解各组之间参数估计的差异, 对于每个参数收集其对应各个城市在 burn-in 后 1000 次迭代的估计。将同一组内的城市估计值进行整合, 可以得到图 7 最下方的箱线图。具体地, 图中展示了网络效应和动量效应, 可以看出, 大多数城市的动量效应是正向的, 而网络效应在第 3 组中最高, 在第 4 组中最低, 这意味着第 3 组城市具有正向溢出效应, 第 4 组城市具有负向溢出效应。

接下来, 作者将估计结果与其他分组方法进行比较,包括 CRP (Pitman, 1995)、 GNAR (Zhu and Pan, 2018) 和 SBM (Wang and Wong, 1987) 模型, 这几种方法都可以估计出城市分组结构。将每个组内连接用不同颜色标记的邻接矩阵可视化, 如图 4 所示, 其中城市根据其对应的分组组内平均密度重新排序。可以看到, SBM 估计的分组组内连接最密集, 而 GNAR 模型估计的分组则没有明显的模式。这主要是因为 SBM 仅利用邻接矩阵进行分组结构估计, 而 GNAR 模型完全忽略图信息, 仅使用 进行节点聚类。GAGNAR 模型和 CRP 模型结果相似, 因为其在 SBM 和 GNAR 模型之间取得了平衡。为了进一步证实这一观点, 作者计算了每个模型的组内和组间密度, 详细结果图 3。可见 GAGNAR 模型组内平均密度略高于 CRP 模型, 组间平均密度略低于 CRP 模型。此外, 作者在图 5 中展示了 SBM 分类后的城市平均因变量的箱线图。可以看到, 第 2-4 组的平均 FR/GDP 非常接近, 说明 SBM 对不同组的 缺乏区分能力。

最后, 本文将 GAGNAR 模型与 CRP、GNAR、NAR 以及传统的时间序 列模型 AR 和 ARMA 的预测精度进行了比较。用 分别表示训 练集和测试集的时间长度。为了评估预测精度, 计算均方预测误差 MSPE = , 其中, **为第 个节点在时刻 的预测响应 值, 为测试集的时间点。定义 **为基准的 MSPE, 其中 为训练集中第 个节点的平均响应值,则相对预测误差定义为

本文采用了滚动窗口方法。首先, 用 年为训练数据。然后, 使 用每个点向后推一年的 年进行预测评价。随后, 作者使用滚动窗口方法 对每一年进行预测, 预测结果见图 7 右边中间的折线图。可以看到, GAGNAR 模型 (橙色) 的预测精度明显高于 NAR、AR 和 ARMA 模型。例如, 对于 2008 年 开始的预测, GAGNAR 模型的 ReMSPE 为 0.1375 , 低于 CRP 模型 (ReMSPE = 0.1435), 且远优于其他模型。由于 2010 年 GNAR 的 ReRMSE 较大, 本文剔除了图 7 中的 GNAR 模型。整体而言, GAGNAR 的预测精度与其他方法可比, 并且在滚动窗口设置下保持了较高的稳定性。这表明节点之间的关系结构可以为预测任务提供有效信息。

图3:在 GAGNAR, CRP, GNAR 和 SBM 模型下估计的 4 个组的平均组内密度、平均整体组内密度与平均组间密度。
图4:151个城市的邻接矩阵可视化, 其中有颜色的格子表示对应的两个城市之间有连接。在每个子图中, 城市顺序按照分组组内平均密度由高到低的顺序排列, 四个组分别用深红色、蓝色、粉色和黄色表示, 灰色格子表示组间产生连接的城市。
图5:SBM 拟合分组下的平均 FR/GDP
图6:用最优 h = 2 对应的模型对中国财政收入数据集估计的参数
图7:左上方展示了 GAGNAR 在 h = 2 下估计的城市分组结构。第 1-4 组的节点分别以黄色、深蓝色、绿色和粉红色标记。右上方展示了四个组对应的城市的平均 FR/GDP。中间左侧展示了四个城市不同组的 95% HPD 区间, 中间右侧展示了不同起始时间点的滚动窗口方法预测的 ReMSPE。最下方箱线图展示了四个组的网络效应和动量效应, 通过将属于该分组的所有城市估计值进行整合得到

股票数据分析

  1. 背景与数据描述

近年来, 网络信息作为分析金融时间序列的一个重要因素被众多研究者进行建模分析。例如, Zhu et al. (2019) 研究了具有共同股东网络的股票市场的金融扩散现象。为了提高股票收益率的可预测性, Leung et al. (2017) 使用 Yahoo.com 上的股票共同搜索网络定义了基于搜索的聚类方法。本研究旨在通过共同持股网络分析股票回报率。具体地, 本研究收集了在上海和深圳证券交易所交易的 384 只股票, 是 2020 年共 52 周的每周股票回报率。在 Fama and French (2015) 的启发下, 考虑了与企业经营相关的六个协变量, 分别是 SIZE (市值的对数)、 (账面市值比)、PR (年增量利润率)、AR (年增量资产比)、LEV (杜杆率) 和 CASH (现金流量)。

  1. 模型估计与解读

为了刻画股票收益的动态特征, 使用 GAGNAR 模型研究股票之间的分组模式。作者使用 52 个交易周的数据, 使用 周作为训练集, 剩余的 作为测试集。平滑参数从 中选取。 对于每个 , 运行 1500 次 MCMC 迭代, 并且同样将前 500 个 MCMC 迭代作为 burn-in 处理。LPML 选取的最佳 为 0.6 , 估计组数为 。分组结构展示在图 11 的左上角面板中。图 11 右上的面板显示股票收益率在六组中是明显不同的, 第四组的平均周收益率最高, 而第一组和最后一组的股票收益率相对较低。

类似地, 为了说明 GAGNAR 模型估计的节点分组的合理性, 将分类结果与 CRP、GNAR 以及 SBM 模型进行比较。CRP 将节点过度分类为 10 组, 这与理论部分的观察是统一的。与上一个例子不同的是, 信息技术产业和交通设备制造业的股票构成了三个分组中的大多数股票类别。在这个例子中,本文也 计算了组内密度和组间密度, 具体结果见图 11 底部的箱线图。类似的观察可以发现, GAGNAR 模型在仅使用因变量信息 (即 CRP 和 GNAR 模型) 的分组方法与仅使用图形信息 (即 SBM 模型) 的分组方法之间取得了平衡。 参数估计结果如图 10 所示。正如前文所述的结果, 六个组之间的网络效应和动量效应是不同的。总体而言, 大多数分组具有负向的网络效应和动量效应。在金融社会股票市场的实证研究中也发现了相反地网络效应 (Borgatti et al., 2009; Peng and Dey, 2013; Chen et al., 2019)。除了第四组以外, 其余分组的动量 效应都为负数, 这表明它们当期的收益率与历史收益率负相关。此外, 观察到协变量对响应有不同的影响。例如, 第 2-6 组股票的市场价值 (SIZE) 对交易回报有正面贡献。第 5 组股票的现金流量 (CASH) 与收益率呈负相关, 而其他 5 组股票则并非如此。图 11 的左边中间面板中绘制了 6 只不同分组的股票 的 95% HPD 区间, 从图中可以看出, 不同分组的股票之间的网络效应和动量效 应存在明显的差异。此外, 对于每一组, 使用 1000 次迭代收集每个股票在 burn-in 后的参数估计结果, 将所有股票的估计值的估计整合起来, 绘制图 11 中底部对应的 6 组股票的网络效应和动量效应箱线图。不同组的效应估计意味着本文提出的模型可以捕捉到不同节点的细微差别。

最后, 为了评估 GAGNAR 模型的样本外预测性能, 本文也设置了大小为 1 的滑动窗口, 通过每个 周来拟合模型, 并使用 周进行预测,图 11 的中间右侧绘制了 ReMSPE。可以看到, GAGNAR 模 型的预测精度明显高于 CRP、GNAR、AR 和 ARMA 模型, 具有更强的稳定性, 这进一步说明了 GAGNAR 模型在实际场景预测中的较强适用性。

图8:606 只股票的邻接矩阵可视化, 其中有颜色的格子表示对应的两只股票之间有 连接。在每个子图中, 股票顺序按照分组组内平均密度由高到低的顺序排列, 不同的股票 分组分别用不同颜色表示。灰色格子对应组间产生连接的股票。
图9:GAGNAR, GNAR 和 SBM 模型估计得到的 6 组股票的各组平均组内密度, 整体平均 组内密度和整体平均组间密度。
图10:用最优 h = 2 对应的模型对股票收益率数据集估计的参数 (×10)。

图11:左上角展示了 GAGNAR 估计在 h = 2 以下的股票分组模式。第 1-6 组的节点用黄色、深蓝色、绿色、粉色和天蓝色和灰色标记。右上展示了六个组对应的股票的平均回报 率。左边中间面板展示了六个股票的 95% HPD 区间, 这六支股票由股票代码从小到大排序的六个组的第一个股票构成的, 滑动窗设置下的预测 ReMSPE 展示在右边中间面板。最下方箱线图展示了六个组的网络效应和动量效应, 通过将属于对应分组的所有股票估计值整合得到。

总结

本文提出了一种新的贝叶斯非参数分组方法 GAGNAR 来学习网络数据动 态模式的异质性特征。该方法能够同时进行模型参数估计、分组数量估计和节 点分组推断。在 gaCRP 框架的基础上, 本研究开发了一个用于有效贝叶斯推理 的 Gibbs 抽样方法。具体地, 作者采用 Dahl 的方法进行后 MCMC 推断, 并引入 LPML 方法进行平滑参数选择。数值模拟结果表明, 该方法能够同时推断出分组数量和不同分组的参数, 并且具有较高的估计精度。与 Zhu and Pan (2018) 的 EM 算法和两步法估计等传统方法相比, 本文提出的方法能够提高分组的估计准确度, 特别在节点分组包含一定图形信息时更为适用。最后, 以中国财政收入分析和股票收益预测两个实际数据为例, 说明了 GAGNAR 模型的有效性, 结果表明, 在分组过程中加入图形信息将提高结果的可解释性和预测能力。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存