多元霍克斯过程(Hawkes, 1971)是一个用于如本文示例数据这一类事件时间数据的经典模型,它已被广泛应用于对犯罪学(Linderman and Adams, 2014)、金融学(Bacry et al., 2013)、信息扩散(Farajtabar et al., 2017)和社会研究(Zhou et al., 2013; Fox et al., 2016)等多个领域多种类型的事件时间建模。而在网络结构的前提下,现有研究主要分为两类,其中一类利用观测到的事件时间数据恢复未知的网络结构(Zhou et al., 2013; Xu et al., 2016; Achab et al., 2018; Bacry et al., 2020)。与此相反,另一类研究假设网络结构是给定的,并将其纳入事件时间数据的建模框架中(Fox et al., 2016; Farajtabar et al., 2017; Zarezade et al., 2018)。在第二类研究框架中,模型参数被假设为是特定于节点的,因此参数数量会至少随节点数量呈线性增长。这时若网络中有很多节点只产生稀少的事件时间,就会出现问题,图1中的情况就是如此。
在此基础上,本文提出群组网络霍克斯过程(GNHP),通过在网络节点之间引入潜在群组结构来模拟网络的同质性。假设同一群组中的节点具有相似的节点特征,任何两个相连节点之间的互动模式都由其群组成员身份决定。对于每个潜在的群组,背景强度随时间变化,并由样条基函数非参数近似。与所有网络节点都被视为不同的现有模型(Fox et al., 2016; Farajtabar et al., 2017; Zarezade et al., 2018)相比,本文所提出的模型更加简洁,但潜在的群组结构和观察到的网络结构仍然使我们能建立足够灵活的多元霍克斯过程网络模型。此外,本文提出的GNHP模型允许一个等效的分支过程结构,使我们能够开发易于解释的数值度量来量化网络内的相互作用。这种分支结构还使我们能够开发出一种计算高效的EM算法来进行模型的估计。最后,估计出的群组成员身份以数据驱动的方式将网络中的节点聚类为多个子群体,从而能够进一步深入了解网络的动态活动。因此,本文提出的GNHP模型是对现有网络中事件时间数据分析方法的重要补充。
假设1是多元霍克斯过程平稳性的充分条件,已经于现有文献中被广泛应用,例如:Hansen et al. (2015); Chen et al. (2017)。对于GHNP模型,它也是一个充分条件,保证了在任何网络节点上由母事件触发的子事件数量的期望都是有限的。
2.3.GNHP模型的分支结构
Hawkes and Oakes(1974)为经典的Hawkes过程式(1)提供了一个等效的分支结构表示,它将观察到的事件分为两个不相交的过程:强度为的母泊松过程,以及由历史事件触发的子过程。经典霍克斯过程的分支结构如图2中的左图所示。
参考Rasmussen(2013)和Halpin et al.(2013)的研究,可以推导出GNHP模型的分支结构,通过将所有节点聚合的点过程记作,作为[0, T]中一个标记的点过程,其中所有的标记都是发生事件的节点的索引。具体来说,中的事件时间可以分为两种类型:母事件和子事件。设是节点的母事件集合,,其中是由一个母事件产生的子事件的集合。注意由于网络之中的交互,可能包含了其他节点的事件时间。分支结构的定义如下,图2中的右图是该分支结构的形象描述。
对多元霍克斯过程的研究有很多(如Zhou et al., 2013; Bacry et al., 2013; Chen et al., 2017),条件强度的模型一般可以表示为:
其中是节点的背景率,是节点和节点之间的转移函数。现有的多元霍克斯过程模型的区别主要是围绕的构建。一种流行的建模策略是假设,, 带有一些参数的。该模型总共涉及的参数,这限制了其只适用于相对较小的应用(例如,Bacry et al., 2013). 当建模一个大型网络时,需要对施加一些稀疏结构,在这种情况下,非零的意味着节点i直接受到节点的影响,估计的可能有助于恢复潜在的网络结构(例如,Xu et al., 2016; Bacry et al., 2020). 虽然这方面的大多数工作缺乏严格的理论,但最近也有一些关于m发散时这类模型的理论研究,如Hansen et al.(2015), Chen et al.(2017)和Cai et al.(2020)。
现有研究中也存在大量关于网络节点集群识别的文献(如Zhao et al., 2012; Amini et al., 2013),通常被称为“社区发现”。需要注意社区发现文献中的“社区”概念与所提出的GNHP模型中的“群组”有根本上的不同。在社区发现中,假设网络的邻接矩阵是一个由伯努利随机变量组成的随机矩阵,节点社区的识别主要依赖于条件概率。然而,GNHP中的邻接矩阵被认为是确定性的,并且没有与之相关的概率。相比之下,GNHP中的群组是通过最大化从所有网络节点收集到的事件时间的似然函数而形成的,并且同一群组中的节点必须共享相似的节点特定特征,如和. 尽管最近社区发现文献中的一些研究也利用节点特征来帮助识别社区(Yan and Sarkar, 2021; Zhang et al., 2021; Weng and Feng, 2022),但这些模型的核心部分仍然是。当所有节点相互孤立(即中所有元素为0)时,差异最为明显,手动设置为0时GNHP仍然有效,但由于此时不再存在网络,社区发现不再有效。此外,最近Matias et al.(2018)的工作在扩展连续时间内周期性相互作用事件的随机块模型时也同时考虑了潜在群组结构。他们的工作和本文之间的关键区别在于,他们要求每个观察到的事件时间与一个标签相关联,表明该事件是哪两个节点之间的相互作用。然而,这些信息在GNHP建模的事件时间中是不可用的,与之不同GNHP关注的是发生在单个节点上的事件建模,但可能存在一些相关性。事实上,正如第2.3节中有关分支结构的部分所述,识别GNHP中一个事件的触发源头是最具挑战性的任务。类似地,在极端情况下,当每个节点上只存在自活动,但任何一对节点之间都不存在交互时,Matias et al.(2018)不适用,但当设置为0时,GNHP模型仍然有效。
第二类研究的重点则是利用已知网络结构通过参数化来分析网络活动(例如Fox et al., 2016; Farajtabar et al., 2017; Zarezade et al., 2018)。例如,Fox et al.(2016)模拟了网络中的电子邮件通信,通过假设,其中和是未知参数,使未知参数的总数减少为了。Farajtabar et al.(2017)和Zarezade et al.(2018)也研究了类似但更加复杂的模型。
则MLE(11)可以通过使用完整似然(15)的EM算法得到,Veen and Schoenberg(2008);Halpin et al.(2013);Fox et al.(2016)等研究中也使用了类似的方法。由于似然(10)是非凹的,因此群组成员身份和模型参数的初始值是至关重要的,本文建议结合使用K-means算法和随机EM算法来生成合理的初始值。
Achab, M., Bacry, E., Gaiffas, S., Mastromatteo, I., and Muzy, J.-F. (2018), “Uncovering causality from multivariate Hawkes integrated cumulants,” Journal of Machine Learning Research, 18, 1–28.
Amini, A. A., Chen, A., Bickel, P. J., and Levina, E. (2013), “Pseudo-likelihood methods for
community detection in large sparse networks,” The Annals of Statistics, 41, 2097–2122.
Bacry, E., Bompaire, M., Ga¨ıffas, S., and Muzy, J.-F. (2020), “Sparse and low-rank multivariate
Hawkes processes,” Journal of Machine Learning Research, 21, 1–32.
Bacry, E., Delattre, S., Hoffmann, M., and Muzy, J.-F. (2013), “Modelling microstructure noise
with mutually exciting point processes,” Quantitative Finance, 13, 65–77.
Cai, B., Zhang, J., and Guan, Y. (2020), “Latent network structure learning from high dimensional multivariate point processes,” Working Paper.
Chen, F. and Hall, P. (2013), “Inference for a nonstationary self-exciting point process with an
application in ultra-high frequency financial data modeling,” Journal of Applied Probability,
50, 1006–1024.
Chen, S., Shojaie, A., Shea-Brown, E., and Witten, D. (2017), “The multivariate Hawkes process
in high dimensions: Beyond mutual excitation,” arXiv preprint arXiv:1707.04928.
Farajtabar, M., Wang, Y., Gomez-Rodriguez, M., Li, S., and Zha, H. (2017), “COEVOLVE: A
joint point process model for information diffusion and network evolution,” Journal of Machine
Learning Research, 18, 1–49.
Fleming, T. R. and Harrington, D. P. (2011), Counting processes and survival analysis, vol. 169,
John Wiley & Sons.
Fox, E. W., Short, M. B., Schoenberg, F. P., Coronges, K. D., and Bertozzi, A. L. (2016), “Modeling e-mail networks and inferring leadership using self-exciting point processes,” Journal of the American Statistical Association, 111, 564–584.
Halpin, Peter, F., Boeck, D., and Paul (2013), “Modelling dyadic interaction with Hawkes processes,” Psychometrika, 78, 793–814.
Hansen, N. R., Reynaud-Bouret, P., Rivoirard, V., et al. (2015), “Lasso and probabilistic inequalities for multivariate point processes,” Bernoulli, 21, 83–143.
Hawkes, A. G. (1971), “Spectra of some self-exciting and mutually exciting point processes,”
Biometrika, 58, 83–90.
Hawkes, A. G. and Oakes, D. (1974), “A cluster process representation of a self-exciting process,”
Journal of Applied Probability, 11, 493–503.
Linderman, S. and Adams, R. (2014), “Discovering latent network structure in point process
data,” in International Conference on Machine Learning, pp. 1413–1421.
Liu, R., Shang, Z., Zhang, Y., and Zhou, Q. (2020), “Identification and estimation in panel
models with overspecified number of groups,” Journal of Econometrics, 215, 574–590.
Matias, C., Rebafka, T., and Villers, F. (2018), “A semiparametric extension of the stochastic
block model for longitudinal networks,” Biometrika, 105, 665–680.
Mohler, G. O., Short, M. B., Brantingham, P. J., Schoenberg, F. P., and Tita, G. E. (2011), “Selfexciting point process modeling of crime,” Journal of the American Statistical Association, 106, 100–108.
Ogata, Y. (1978), “The asymptotic behaviour of maximum likelihood estimators for stationary
point processes,” Annals of the Institute of Statistical Mathematics, 30, 243–261.
— (1988), “Statistical models for earthquake occurrences and residual analysis for point processes,” Journal of the American Statistical association, 83, 9–27.
Rasmussen, J. G. (2013), “Bayesian inference for Hawkes processes,” Methodology and Computing in Applied Probability, 15, 623–642.
Sch¨utze, H., Manning, C. D., and Raghavan, P. (2008), Introduction to information retrieval,
vol. 39, Cambridge University Press Cambridge.
Su, L., Shi, Z., and Phillips, P. C. (2016), “Identifying latent structures in panel data,” Econometrica, 84, 2215–2264.
Veen, A. and Schoenberg, F. P. (2008), “Estimation of space-time branching process models in
seismology using an EM-type algorithm,” Journal of the American Statistical Association, 103,
614–624.
Weng, H. and Feng, Y. (2022), “Community detection with nodal information: likelihood and
its variational approximation,” Stat, 11, e428.
Xu, H., Farajtabar, M., and Zha, H. (2016), “Learning granger causality for hawkes processes,”
in International Conference on Machine Learning, pp. 1717–1726.
Yan, B. and Sarkar, P. (2021), “Covariate regularized community detection in sparse graphs,”
Journal of the American Statistical Association, 116, 734–745.
Zarezade, A., De, A., Upadhyay, U., Rabiee, H. R., and Gomez-Rodriguez, M. (2018), “Steering
social activity: a stochastic optimal control point of view,” Journal of Machine Learning Research, 18, 1–35.
Zhang, J., He, X., and Wang, J. (2021), “Directed community detection with network embedding,” Journal of the American Statistical Association, 1–11.
Zhao, Y., Levina, E., Zhu, J., et al. (2012), “Consistency of community detection in networks
under degree-corrected stochastic block models,” The Annals of Statistics, 40, 2266–2292.
Zhou, K., Zha, H., and Song, L. (2013), “Learning social infectivity in sparse low-rank networks
using multi-dimensional hawkes processes,” in Artificial Intelligence and Statistics, pp. 641–649.
Zhou, S., Shen, X., Wolfe, D., et al. (1998), “Local asymptotics for regression splines and confidence regions,” Annals of Statistics, 26, 1760–1782.
Zhu, X., Pan, R., Li, G., Liu, Y., and Wang, H. (2017), “Network Vector Autoregression,” The
Annals of Statistics, 45, 1096–1123.
Zhu, X., Wang, W., Wang, H., and H¨ardle, W. K. (2019), “Network quantile autoregression,”
Journal of econometrics, 212, 345–358.
Zhu, X., Xu, G., and Fan, J. (2022), “Simultaneous estimation and group identification for network vector autoregressive model with heterogeneous nodes,” arXiv preprint arXiv:2209.12229.