其他
社会网络分析的潜在空间方法
今天要跟大家分享的主题是潜在空间模型(Latent Space Model),它的主要思想是为网络中的节点寻找一个潜在的向量空间,该潜在空间能够体现原网络的结构、特征或者其他信息。这个想法与近几年研究比较多的“Network Embedding”的目的不谋而合。
今天主要介绍发表在Journal of the American Statistical Association上的一篇比较经典的文章及其后续研究。
Hoff P D, Raftery A E, Handcock M S. Latent space approaches to social network analysis[J]. Journal of the american Statistical association, 2002, 97(460): 1090-1098.
背景介绍
社交网络数据通常是由个参与者和关系纽带组成的,衡量了每一对有序的参与者之间的关系。这个框架在社会和行为科学领域有很多应用,例如,流行病的行为、万维网的互联性和电话通话模式。一个简单的例子,是一个二元变量,表示存在或不存在某种特殊关系,如友谊、合作、信息传播或疾病等。这些数据通常用的矩阵表示。在二元关系的情况下,数据也可以被认为是一个图(graph),其中节点是参与者,边集是。如果在边集中,则记作。如果关系是无向的,则对所有的,,当时,记作。然而,即使在有向关系的情况下,关系也往往是互反的和可传递的。因此,网络关系的概率模型通常允许关系之间存在某种依赖性。然而,这些模型是有限制的,因为它们假设个是独立的。 在一些社交网络数据中,当两个个体的特征变得更加相似时,他们之间存在联系的可能性有可能会增加。如果群体中有一部分个体之间存在大量的社会联系,则表明这些个体在特征空间或“社交空间”中拥有相近的位置。社交空间指的是在网络关系中代表潜在传递倾向的、未被观察到的潜在的特征空间。对这些未观察到的特征进行概率度量,就会得出一个模型。在这个模型中,两个个体之间的联系取决于其他联系的存在。这样建模的关系本质上是概率传递的。和的观测表明和在社交空间上的距离不会太远,因此更有可能有联系。潜在位置方法(Latent Position Methods)
建模数据包括一个的矩阵,表示参与者到参与者之间关系的值,以及其他协变量信息。我们主要关注二元值关系,不过本文中的方法可以使用广义线性模型的思想扩展到更一般的关系数据。有向关系和无向关系都可以用我们的方法进行分析,尽管模型的特征在这两种情况下略有不同。作者采用条件独立的建模方法,假设两个个体之间的联系的存在或不存在独立于系统中所有其他联系,给定两个个体在社会空间中未观察到的位置,
其中和是观测到的特征,它们可能是pair-specific和vector-valued,和是要估计的参数和位置。1.距离模型(Distance Models)
一个方便的将参数化的模型是逻辑回归模型,其中一个联系的概率取决于和之间的欧氏距离,以及度量这个dyad特征的协变量,这个模型有一个简单的解释:当两个参与者和与的距离相等时,与的log odds ratio是。 注意可以用任意满足三角形不等式的距离集合来代替。半参数建模方法不会对距离施加进一步的约束,因此参数空间将包括个距离来估计,受不等式约束。一般来说,出于简化和易于模型解释的原因,我们倾向于将建模为某些低维欧氏空间中参与者之间的距离。2.投影模型(Projection Models)
前面介绍的距离模型本质上是对称的,因为。然而,在许多网络中,这种对称性是无法满足的。例如,当参与者发出大量的联系,而只向接收发出的联系中的一小部分参与者发出联系。在这种情况下,我们希望建模和是“相似的”,但更“socially active”。 假设每个参与者有一个相关的单位长度的维特征向量。这些特征可以看作是单位半径的维球面上的点。我们可以想象,如果和之间的夹角很小,他们就容易产生联系;如果角度是直角,他们产生联系的概率是neutral;如果角度是钝角,它们就不容易产生联系。这三种情况分别对应,和。换句话说,如果和的特征在同一方向,那么和更有可能产生联系,而如果它们的特征在相反方向,那么它们产生联系的可能性就很小。为每个节点添加一个参数允许不同级别的activity等同于拥有潜在的不同长度的向量:令为参与者的活跃水平,则到的概率模型依赖于的大小,或者等价于,其中。为方便起见,到的概率同样使用逻辑回归模型,估计
条件独立模型的对数似然相对简单,其中是参数、未知位置和可能已知的解释变量的函数。因此,基于似然的估计方法,如极大似然和贝叶斯推断是可行的。估计参数的步骤如下所示:其中,对于距离模型,的范围涵盖了一组旋转、反射和平移;对于投影模型,的范围涵盖了一组旋转和反射。实例
Sampson (1968)收集了18位僧侣之间各种各样的人际关系数据。每个和尚都被问及他是否与其他和尚都有积极的关系。根据网络和其他数据,Sampson最初将每个僧侣归为四个群体:loyal opposition(僧侣2-6),young Turks(僧侣8-14),outcasts(僧侣16-18),或waverers (僧侣1、7和15)。随后的数据分析显示,1号和7号僧侣属于loyal opposition,15号僧侣属于outcasts。作者使用2.1提出的距离模型:其中。注意,数据的概率只取决于距离,而距离在反射、旋转和位移下是不变的。因此,个模型参数中有3可以被固定,因此该模型有个参数(包括)。 每对节点之间的距离首先计算为每对节点之间两个有向路径长度的平均值。然后利用多维尺度对潜在位置进行粗略估计,并将结果作为R语言中非线性最小优化器的初始值。从正态分布中随机抽取初始值会产生相同的结果。 文章中表1展示了三个模型的结果。基于位置的模型优于Wang and Wong (1987)的随机块模型,这表明由于关系确实在一定程度上是可传递的,因此将它们建模可以提高模型的拟合程度。由距离模型得到的僧人位置的极大似然估计如图1(a)所示。 条件独立模型相对容易进行贝叶斯分析。对于和可以用先验公式表示,然后用后验推断。特别地,这为社交空间中参与者的位置提供了一种构造置信区间的手段。文章对和使用均值为0,标准差为100的扩散独立正态先验,通过马尔可夫链中次扫描进行了贝叶斯分析。 马尔可夫链在和节点之间的成对距离中混合得相当快,但在中混合得相当慢,如图2(b)所示。每2000次扫描保存一次链的输出,并在图1(b)中绘制每个保存的扫描的不同僧侣的位置(每个僧侣的绘图颜色是基于他们与x轴正半轴的平均角度和他们到原点的平均距离)。距离模型验证了在本节开始时给出的僧人分类,因为在僧人位置的后验分布中组与组之间的重叠很少。此外,这个模型能够量化一些参与者(如僧侣15)在其他参与者群体之间的程度。 通过对中的距离模型,即对于,检验了通过增加潜在空间维数来提高模型的拟合程度。有趣的是,拟合程度不能通过继续增加潜在空间维数来改善。具体原因可以参考文中4.1节所述。 文章还介绍了两个实例,分别是Florentine Families和Classroom Data。感兴趣的同学可以去阅读文中4.2和4.3节。讨论
文章提出了一种新的基于空间表示的社交网络模型,极大似然和贝叶斯推断可用于该模型的实现。与现有的社交网络模型和推理过程相比,该方法具有一定的优势。首先,该方法提供了一种基于模型的可视化、可解释的网络关系空间表示方法。其次,它改进了现有的方法,允许对社交空间中统计不确定性进行量化和图形化表示。第三,它是灵活的,可以很容易地进行推广以考虑多种关系、具有不同强度的联系(使用广义线性模型)和时变关系(通过将潜在位置建模为随机过程)。第四,它容易处理缺失数据,至少在节点之间联系信息随机缺失的情况下:似然只包括与观察到的关系相对应的项。最后,模型本质上是可传递的。因此当关系在本质上具有可传递性时,我们可以期待对缺乏这种结构的模型(如随机块模型)进行改进拟合。 在模型中考虑进一步的依赖性是可取的。例如,数据可能表现出比模型估计更多或更少的相互性()。在这种情况下,可以通过将每个dyad()看作是独立于其他dyad来扩展模型,在给定位置和参数和的时候,其中代表一个dyad内关系之间的依赖关系。在缺乏这样一个模型的情况下,可以来衡量欠拟合。 对数似然作为潜在位置函数具有非凹性,这给参数的极大似然估计带来了困难。似然需要仔细检查,以区分全局和局部极大值。在这方面,MCMC方法是一个有用的工具。 该文章没有详细讨论潜在位置的先验分布的选择。在例子中呈现的扩散独立正态先验虽然简单,但可能不能准确地体现关于社交网络结构的先验信念。更合适的方法可能是集群点过程(clustered point processes)或成分数目未知的正态混合(mixtures of normals with an unknown number of components)。这样的先验允许在不指定集群成员的情况下合并关于集群倾向的先验信息。 作为文章提出的模型的替代方案,多维尺度(multiple-dimensional scaling,MDS)是一种广泛使用的表示社交网络空间结构的方法。作者比较了所提出的模型与MDS,并总结出两个优点。 正如文章作者所说,LSM模型是一个非常灵活的模型,可以很容易地进行推广。小编接下来就介绍几种LSM模型的推广。正如文章作者所说,LSM模型是一个非常灵活的模型,可以很容易地进行推广。小编接下来就介绍几种LSM模型的推广。Hoff P D. Random Effects Models for Network Data[C].Dynamic Social Network Modeling and Analysis: Workshop Summary and Papers. 2003. Hoff在2003年又提出了一个加入随机效应的LSM模型:其中和分别表示独立分布的发送方和接收方的效应。这些效应的分布被认为是零均值的正态分布,方差由数据估计。Hoff P D. Bilinear mixed-effects models for dyadic data[J]. Journal of the American Statistical Association, 2005, 100(469): 286-295. Hoff在2005年又将LSM扩展到广义线性混合效应模型。Handcock M S, Raftery A E, Tantrum J M. Model‐based clustering for social networks[J]. Journal of the Royal Statistical Society: Series A (Statistics in Society), 2007, 170(2): 301-354. Handcock等人在2007年对LSM进行了扩展,考虑了基于模型的潜在空间位置聚类,提供了一种检测参与者群体即社区结构的方法。其中代表一个参与者属于第个社区的概率,因此且。 然而上述模型均不能同时模拟社交网络数据的四个共同特征:同质性、传递性、社区结构和参与者程度的异质性。因此,Krivitsky在2009年提出了潜在集群随机效应模型(the latent cluster random effects model),该模型通过在Handcock等人在2007提出的潜在位置聚类模型中加入Hoff在2005年提出的发送方和接收方或社交随机效应,明确地模拟了所有四个特征。Krivitsky P N, Handcock M S, Raftery A E, et al. Representing degree distributions, clustering, and homophily in social networks with latent cluster random effects models[J]. Social networks, 2009, 31(3): 204-213.Chang X, Huang D, Wang H. A popularity-scaled latent space model for large-scale directed social network[J]. Statistica Sinica, 2019, 29(3): 1277-1299. Chang X等人在2019年提出了一个考虑节点受欢迎程度的潜在空间模型(a popularity-scaled latent space model,PSLSM),该模型考虑了每个节点的受欢迎程度,在分析上易于处理且计算简单。其中代表的受欢迎程度,,独立同分布于一个标准正态分布。Zhang J, He X, Wang J. Directed community detection with network embedding[J]. Journal of the American Statistical Association, 2021: 1-11. Zhang J等人在2021年提出了一个可用于有向网络中社区发现的模型。该模型也采取了LSM的思路,但与LSM不同的是:(1)所提出的模型考虑了每个节点不同的发送和接收模式,而LSM只允许每个节点有一个潜在位置向量,因此完全忽略了发送和接收边的差异;(2)将网络嵌入(network embedding)及其社区结构进行联合估计,使得这两个对等体相互作用,从而提高了网络嵌入和社区发现的准确性。虽然没有明确说明,但是LSM只是估计每个节点的潜在向量,社区发现是在对潜在向量单独聚类的步骤中进行的,需要分为两个过程。其中和是out-node 和 in-node 的潜在向量。 除了上述在有向和无向网络中估计参与者的潜在空间位置的研究,近些年不少学者也探究了在“高阶网络”(higher-order networks)中寻找参与者的潜在空间。这里的“高阶网络”包括多层网络(multi-layer networks)、超图网络(hypergraph networks)和动态网络(dynamic/temporal networks)。例如,Zhang et al. (2020)研究了多层网络中参与者的潜在空间;Zhen and Wang (2021)研究了超图网络中参与者的潜在空间;Sewell and Chen (2015)和Sewell and Chen (2016)研究了动态网络中参与者的潜在空间;Lyu et al. (2021)为研究高阶网络中的潜在空间模型提出了一个统一的框架。感兴趣的读者可以阅读相关文章。