网络中心性:多种中心性指标的定义与对比 | 集智百科
目录
一、中心性指数的定义与特性二、重要限制三、度中心性四、紧密中心型五、调和中心型
六、中介中心性七、特征向量中心性八、使用邻接矩阵发现特征向量中心性九、卡兹中心性
十、网页排名中心性十一、渗滤中心性十二、跨团中心性十三、弗里曼中心度十四、基于相异性的中心性度量十五、编者推荐
十六、百科项目志愿者招募
在图论和网络分析中,中心性 centrality 指标用于识别图中最重要的顶点。其应用包括在社交网络中识别出最有影响力的个人,在因特网或城市网络中识别出最为关键的基础设施节点,以及识别疾病的超级传播者。中心性的概念最初是在社交网络分析中发展起来的,许多用于衡量中心性的术语都反映出了它们的社会学起源。中心性不应与节点影响度相混淆,后者意在量化网络中每个节点的影响。
中心性指数的定义与特性
中心性指数 centrality indices是对“重要顶点的特征是什么?”这一问题的回答。这个回答是以图中顶点的实值函数的形式给出的,可根据产生的函数值排序以确定最为重要的节点。
“重要性”的含义十分广泛,因此导致了许多不同的中心性定义方式,我们可以将各种不同的定义方式划分为如下两类。
“重要性”可以被设想为与网络中的某种流动或传输有关。这允许根据重要的流动的类型对中心性进行分类。“重要性”也可以被设想为与网络的内聚力 cohesiveness有关。这允许根据内聚力的度量方式对中心性进行分类。这两种方法在不同类别中划分了中心性。进一步的结论是,适用于某一类别的中心性在应用于另一类别时往往会“出错”。
当根据内聚力方法对中心性进行分类时,很明显大多数中心性都将被划分于同一类别。起始于给定顶点的步数总和仅取决于步数的定义以及计数方式。这种分类方式的不足表现为它仅能较弱的描绘中心性特征,即按照一步步长(度中心性)到无穷步步长(特征向量中心性)的方式将中心性置于一种光谱状的分类中。观察到许多中心性共享这种家庭关系,这或许能解释这些指数之间的高阶相关性。
网络流特征
一个网络可以被看成是对某种物体流动的路径描述。这允许基于流动的类型和由中心性编码的路径类型进行表征。流可以基于传输,即每个不可分割的项目从一个节点到另一个节点,就像一个包裹从配送站传递到客户的房子。第二种情况是串行复制,在这种情况下,一个项目被复制以便源头和目标节点都拥有它。例如通过流言传播信息,信息以私有方式传播,并在流程结束时通知源节点和目标节点。最后一种情况是并行复制,即项目同时被复制到几个链接,就像无线电广播一次性向多个听众提供相同的信息。
同样,路径类型可以被限定为测地线 geodesics(最短路径)、路径(对顶点的访问不超过一次)、小径(可以访问多次顶点,没有边被访问超过一次)或者步子(可以多次访问/穿过多次顶点和边)。
行走结构特征
可以从中心性的构造方式推导出另一种分类方法。这又分成了两个类。中心性可以是径向的,也可以是中间的。径向中心性计算从给定顶点开始/结束的步数。度中心性和特征向量中心性是径向中心性 Radial centralities的例子,计算长度为一或无穷大的步数。中间中心性 Medial centralities计算通过给定顶点的步数。典型的例子是Freeman的中介中心性 Betweenness centrality,即通过给定顶点的最短路径的数量。
同样地,计数可以记录行走的数量或长度。量是给定类型的总步数。上一段的三个例子就属于这一类。长度则给出从给定顶点到图中其余顶点的距离。Freeman的接近中心性 Closeness centrality,即从一个给定顶点到所有其他顶点的总测地线距离,是最著名的例子。请注意,这种分类独立于步行计数的类型(即:步行,小道,路径,测地线)。
Borgatti和Everett提出,这种类型为如何最好地比较中心性度量提供了见解。在这个2×2分类中,放在同一盒子中的中心性足够相似,可以做出合理的选择; 人们可以合理地比较哪个对于给定的应用更好。然而,不同盒子中的度量方法是截然不同的。只有在预先确定哪个类别更适用的情况下,对相对适应性的评估才会发生,这使得比较变得毫无意义。
光谱上存在的径向量中心
步行结构的特征表明,几乎所有广泛使用的中心性都是径向量的衡量。这得出结论顶点的中心性是与之相关联的顶点中心性的函数。中心性根据如何定义关联而不同。
Bonacich指出,如果联想是根据行走来定义的,那么可以根据考虑的行走长度来定义一个中心性家族。度中心性计算长度为1的行走,特征向量中心性计算长度为无穷大的行走。关联的其他定义也是合理的。阿尔法中心性 Alpha centrality允许顶点有一个外部影响源。Estrada的子图中心性 Subgraph centrality提出只计算封闭路径(三角形、正方形等)。
这些度量方法的核心是这种现象:图中邻接矩阵的幂给出了由该幂给出的步长的数目。同样,矩阵指数也与给定步长的数目密切相关。邻接矩阵的初始转换允许对步行计数的类型进行不同的定义。无论采用哪种方法,顶点的中心性都可以表示为无穷和
矩阵幂或者
矩阵指数,其中
k为步长
AR是邻接矩阵的转秩
β是保证收敛的折扣参数。
Bonacich的一系列度量并没有改变邻接矩阵。阿尔法中心性用它的解决方案替代了邻接矩阵。子图中心性用它的踪迹取代了邻接矩阵。一个令人吃惊的结论是,不管邻接矩阵最初的转变是什么,所有这些方法都有共同的限制行为。随着β系数趋近于零,指数收敛到度中心性。随着β系数接近其最大值,指数收敛到特征向量中心性。
博弈论中心性
上述大多数标准度量的共同特点是,它们通过只关注一个节点本身所扮演的角色来评估确定节点的重要性。然而, 在许多应用中,这种方法是不充分的,因为可能会发生协同作用
如果将节点的功能分组考虑。
例如,考虑阻止流行病的问题。看看上面的网络图像,我们应该给哪些节点接种疫苗?基于前面描述的度量,我们希望识别在疾病传播中最重要的节点。仅仅基于中心性的方法,即关注节点的个别特性,可能不是一个好主意。红色方块中的节点,单独不能阻止疾病的传播,但把它们作为一个群体来考虑,我们清楚地看到,如果疾病在节点v1,v4和v5中开始,它们就能阻止疾病的传播。博弈论中心性试图利用博弈论中的工具来研究所描述的问题和机会。本文提出的方法使用了 Shapley 值。由于 Shapley 值计算的时间复杂性,这一领域的大部分工作都集中在实现新的算法和方法,这些算法和方法依赖于网络的特殊拓扑结构或问题的特殊性质。这种方法可以将时间复杂度从指数级降低到多项式级。
同样,权限分配的解决方案采用 Shapley-Shubik 幂指数,而不是 Shapley 值来衡量参与者之间的双边直接影响。这种分布确实是一种产生特征向量中心性的类型。它用于对 Hu (2020)中的大数据对象进行排序,比如美国大学排名。
重要限制
中心性指标有两个重要的局限性,一个显而易见,另一个则不易察觉。显而易见的局限性是,对于一个应用最优的中心性对于另一个应用常常是次优的。事实上,如果不是这样,我们就不需要这么多不同的中心性。克拉克哈特风筝图为这一现象提供了一个例证,对于这个图,三个不同的中心性概念给出了最中心顶点的三种不同选择。
更不易察觉的限制是通常会错误地认为顶点中心性表示顶点的相对重要性。中心性指数被明确地设计来产生一个指出最重要顶点的排名。在刚才提到的限制下,他们做得很好。它们通常不用来度量节点的影响力。最近,网络物理学家已经开始开发点影响力度量 Node influence metrics来解决这个问题。
错误有两方面。首先,一个排名只根据顶点的重要性排序,它并不对节点重要性的不同水平进行量化区分。这可以通过将弗里曼中心度 Freeman centralization应用到中心性度量来缓解,这可以根据节点的中心度得分差异对节点的重要性提供一些见解。此外,弗里曼中心度使人们能够通过比较几个网络的最高中心度得分来比较它们。然而,这种方法在实践中很少见到。
其次,用以(正确地)识别给定网络/应用中最重要顶点的特征并不一定适用于其余顶点。
对于大多数其他网络节点,排名可能是没有意义的。这就解释了为什么,例如,谷歌图片搜索只有前几个结果以合理的顺序出现。网页排名是一个非常不稳定的度量,在对跳转参数进行小的调整之后显示了频繁的秩逆转。
虽然中心性指数未能推广到网络的其他部分,乍看起来似乎是违反直觉的,但它直接遵循上述定义。
复杂网络具有异构的拓扑结构。如果最佳度量取决于最重要顶点的网络结构,对于这些顶点最优的度量对于网络的其余部分是次优的。
度中心性
同一幅图中的实例A)中介中心性,B)紧密中心性,C)特征向量中心性,D)度中心性,E)调和中心性,F)卡兹中心性
历史上第一个并且概念上最简单是度中心性,它定义为一个节点上事件的链接数量(即一个节点拥有的关系数量)。度可以解释为节点捕获的任何流经网络的东西(例如病毒或某些信息)的直接风险。在有向网络的情况下(关系有方向) ,我们通常定义两个独立的度中心性的度量,即 入度 Indegree和出度 Outdegree。因此,入度是指向该节点的关系数,出度是该节点指向其他节点的关系数。当关系与一些积极的方面如友谊或合作有关时,入度通常被解释为一种受欢迎的形式,而出度则被解释为一种合群的形式。
对于给定的图G:=(V,E)与|V|顶点和|E|边,顶点的度中心性定义为
计算一个图中所有节点的度中心性,在图的密集邻接矩阵表示中采用
在边的稀疏矩阵表示中采用
节点级中心性的定义可以扩展到整个图,在这种情况下,我们指的是图的中心度。设v*为G中度中心性最高的节点。让X:=(Y,Z)是|Y|图,最大化下列数量(y*是X中度最高的节点) :
相应地,图形G的度中心度如下:
当图形X包含与一个所有其他节点都连接的中心节点(一个星形图)时,H的值最大化,在这种情况下
所以,对于任意的图G:=(V,E)
紧密中心性
在连通图中,节点的标准紧密中心性(或贴近性)是节点与图中所有其他节点之间最短路径的平均长度。因此,一个节点越是中心,它就越接近所有其他节点。
Alex Bavelas (1950)将贴近性定义为相对于距离的倒数,即that is:
其中d(x,y)是顶点x和y之间的距离。然而,当谈到紧密中心性时,人们通常会提到它的标准化形式,一般是以前的公式乘以N-1,其中N是图中的节点数。这种调整允许比较不同大小图形的节点。
从所有其他节点或到所有其他节点的距离在无向图中是不相关的,但是在有向图中可能产生完全不同的结果(例如:一个网站可以从传出链接获得高的紧密中心性,而从传入链接获得低的紧密中心性)。
调和中心性
在一个(不一定是连通的)图中,调和中心性反转了紧密中心性定义中的和互反运算:
其中1/d(x,y)=0如果没有来自y到x的路径 。调和中心性可以通过除以N-1来标准化,其中N是图中的节点数。
调和中心性是由Marchiori和Latora (2000)提出的,然后由德克 Dekker (2005)以“有价值的中心性”之名独立提出的,再由罗切特 Rochat提出(2009)。
中介中心性
色调(从红色 = 0到蓝色 = max)表示节点中介性
中介性是图中顶点的中心性度量(也有边中介性,这里没有讨论)。中介中心性量化了一个节点沿着其他两个节点之间的最短路径充当桥梁的次数。在Linton Freeman的概念中,它是作为一种量化一个人对社交网络中其他人之间交流控制的度量被引入的,在两个随机选择的顶点之间随机选择的最短路径上出现概率高的顶点具有很高的中介性。
在一个图G:=(V,E)与V的顶点中介性计算如下:
对于每一对顶点(s,t),计算它们之间的最短路径。
对于每对顶点(s,t) ,确定通过该顶点(这里是顶点 v)的最短路径的分数。
对所有顶点对(s,t)求这个分数的和。
更确切地说,中介性可以表示为:
其中σst是从节点s到节点t的最短路径总数,σst(v)是通过v的路径数。中介性也许可以通过除以不包括V的顶点对的数目被规范化,对于有向图是(n-1)(n-2),对于无向图是(n-1)(n-2)/2。例如,在一个无向星图中,中心顶点(包含在每个可能的最短路径中)的中介性为(n-1)(n-2)/2。(1,如果标准化) ,而叶节点(包含在没有最短路径中)的中介性为0。
从计算的角度来看,图中所有顶点的中介中心性和紧密中心性都涉及到计算图中所有顶点对之间的最短路径,采用O(V^3)时间和 弗洛伊德-沃肖尔 Floyd-Warshall算法。然而,对于稀疏图,约翰逊 Johnson算法的效率可能更高,采用O(V^2logV+VE)时间。在不加权图的情况下,可以用布兰德斯 Brandes 的算法进行计算,该算法需要O(VE)时间。一般情况下,这些算法假定图是无向的,并且连通图中允许有圈和多条边。当专门处理网络图时,图通常没有环或多条边来维持简单的关系(其中的边表示两个人或顶点之间的联系)。在这种情况下,使用 Brandes 的算法将最终的中心性分数除以2来计算每条被重复计算的最短路径。
特征向量中心性
特征向量中心性(也称为特征中心性)是对网络中节点影响的一种度量。它将相对得分分配给网络中的所有节点,这是基于这样一个概念: 连接得分高的节点比连接得分低的节点对得分贡献更大。谷歌的网页排名和卡兹中心性是特征向量中心性的变体。
使用邻接矩阵发现特征向量中心性
对于一个给定的图G:=(V,E)与|V|的顶点数 让A=(av,t)成为邻接矩阵。即,如果顶点v与t相连,而av,t=0不然。顶点v的相对中心性评分可以定义为:
其中M(v)是v的相邻集合,而λ是一个常量。通过一个小的重新排列,这可以用向量符号重写为特征向量方程。
一般情况下,存在许多不同的特征值λ,对于这些特征值存在一个非零特征向量解。由于邻接矩阵中的项是非负的,所以由 佩龙-弗罗贝尼乌斯 Perron- Frobenius定理得出,它有一个唯一的正实数最大特征值。由这个最大的特征值得出期望的中心性度量。相关特征向量的xth分量给出了网络中顶点v的相对中心性评分。特征向量只定义了一个公共因子,所以只有顶点中心性的比例是明确定义的。要定义一个绝对分数,必须对特征向量进行标准化,例如,使所有顶点的和为1或顶点的总数n。幂迭代是许多特征值算法之一,可以用来找到这个主要特征向量。此外,这推广,使得 A中的项可以是表示连接强度的实数,就像在随机矩阵中一样。
卡兹中心性
卡兹中心性是度中心性的推广。度中心性度量的是直接相邻节点的数量,卡兹中心性度量的是通过一条路径可以连接的所有节点的数量,而远处节点的贡献会受到削减。在数学上,它被定义为
其中α是(0,1)中的衰减因子。
卡兹中心性可以看作是特征向量中心性的一种变体。卡兹中心性的另一种形式是
与特征向量中心性的表达式相比,xj被xj+1所代替。
结果表明,主特征向量(与A,邻接矩阵的最大特征值相关)是卡兹中心性的极限,当α从下接近1/λ>时 。
网页排名中心性
网页排名满足下面的等式
其中
是节点j(或有向图中出站链接的数量)的相邻节点数量。与特征向量中心性和卡兹中心性相比,尺度因子L(j)是一个主要的区别。网页排名中心性和特征向量中心性的另一个区别是网页排名中心性向量是一个左手特征向量(注意因子aji具有相反的索引)。
渗滤中心性
在复杂网络中,存在大量的中心性度量来确定单个节点的“重要性”。然而,这些度量单纯从拓扑学的角度来量化节点的重要性,节点的值并不以任何方式依赖于节点的状态。不管网络动态如何,它都保持不变。即使对于加权的两者之间的度量也是如此。然而,一个节点可能很好地位于中介中心性或其他中心性度量的中心位置,但可能不是位于有渗滤的网络的上下文中的中心位置。在许多情况下,复杂网络中都会出现“传染”的渗滤现象。例如,病毒或细菌感染可以通过人们的社交网络传播,也就是所谓的接触网络。还可以在更高的抽象层次上考虑疾病的传播问题,设想通过公路、铁路或空中连接起来的城镇或人口中心网络。计算机病毒可以通过计算机网络传播。关于商业活动和交易的谣言或新闻也可以通过人们的社交网络传播。在所有这些情况下,一种“传染病”在一个复杂网络的链接上传播,随着它的传播,无论是可恢复的还是不可恢复的,都会改变节点的“状态”。例如,在流行病学方案中,随着感染扩散,个人从”易感”状态转变为”受感染”状态。在上面的例子中,随着传染的扩散,每个节点可以采取的状态可以是二进制的(例如接收/没有接收到一条新闻)、离散的(易感/受感染/康复) ,甚至是连续的(例如一个城镇中受感染的人的比例)。这些情景的共同特点是,传染的扩散导致网络中节点状态的改变。'渗滤中心性 Percolation centrality就是基于这个思想而提出的,它特别地度量了节点在协助网络渗滤方面的重要性。这种度量是由皮拉维南 piraveanan等人提出的。
渗滤中心性定义为在给定时间内一个给定节点的渗滤路径的比例。“渗滤路径”是一对节点之间的最短路径,其中源节点被渗滤(例如,被感染)。目标节点可以是渗滤的或非渗滤的,或处于部分渗滤状态。
其中σsr是从节点s到节点r的最短路径总数,σsr(v)是通过v的路径数。在时间t时节点i的渗滤状态用xti表示,两个特殊情况是当xti=0表示在时间上是非渗滤状态,而当xti=1表示在时间上是完全渗滤状态。两者之间的值表示部分渗滤状态(例如,在一个城镇网络中,这是该城镇感染者的百分比)。
渗流路径的权重取决于分配给源节点的渗滤水平,前提是源节点的渗滤水平越高,源节点的路径就越重要。因此,位于源自高渗滤节点的最短路径上的节点可能对渗滤更为重要。PC 的定义也可以扩展到包括目标节点的权重。渗滤中心性计算运行在O(NM)时间,高效的实现采用了布兰德斯快速算法,如果计算需要考虑目标节点的权重,最坏情况下时间为O(N^3)。
跨团中心性
复杂图中单个节点的跨团中心性决定了一个节点与不同团的连通性。具有高度跨团连通性的节点有利于信息或疾病在图中的传播。团是一种子图 Subgraphs,团中的每个节点都与团中的其他节点相连。对于一个给定的图G:=(V,E)与|V|顶点和|E|边的跨团连通性,定义为X(v)其中X(v)是v所属的顶点团数。这个度量应用日久,但是在1998年由埃弗莱特 Everett 和博加提 Borgatti 首次提出,他们称之为派系重叠中心性 Clique-overlap centrality。
弗里曼中心度
任何网络的中心度都是衡量其最核心的节点相对于其他所有节点的集聚程度的标准。中心度的度量方法是: (a)计算网络中最中心的节点与所有其他节点之间的中心性差异之和; (b)将这个数量除以理论上相同规模的任何网络中这种差异之和的最大值。因此,每个中心性度量都可以有自己的中心度度量。正式定义,如果Cx(pi)是点i的中心性度量,如果Cx(p*)是网络中最大的中心性度量,如果:
是具有相同节点数的任何图的点中心性Cx的最大差值之和,然后网络中心度是:
基于相异性的中心性度量
在图示的网络中,绿色节点和红色节点最不相似,因为它们之间不共享相邻节点。因此,绿色的节点比灰色的节点对红色节点的中心性的贡献更大,因为红色的节点只能通过绿色访问蓝色的节点,而灰色的节点对于红色的节点是多余的,因为它可以直接访问每个灰色的节点,而不需要任何中介。
为了在给定网络节点的排序中获得更好的结果,在复杂网络中使用了相异性度量(特定于分类和数据挖掘理论)来丰富中心性度量。用特征向量中心性来说明,通过求解特征值问题来计算每个节点的中心性。
这里Wij=AijDij (coordinate-to-coordinate product)和Dij 是一个任意的不相似矩阵,通过一个相异性度量来定义,例如,Jaccard相异性由以下给出。
这种度量允许我们量化每个节点对给定节点中心性的拓扑贡献(这就是为什么我们称之为贡献中心性) ,对那些相异性较大的节点有更多的权重/相关性,因为这些节点允许给定的节点访问那些它们自己不能直接访问的节点。
值得注意的是,W是非负的,因为a和d都是非负矩阵,所以我们可以使用Perron–Frobenius定理来确保上述问题对于 c 非负的λ = λmax 有唯一的解,这样我们就可以推断出网络中每个节点的中心性。因此,i-th 节点的中心性为
其中n是网络中的节点数。在所研究的案例中,为了获得改进的结果,测试了一些相异性度量和网络被测试。
编者推荐
书籍推荐
《图论导论》封面
《图论导论》
Douglas B.West教授是伊利诺伊大学数学系的资深教授,长期从事图论理论和组合优化方面的研究工作,发表了100多篇论文。本书旨在介绍图论的基本概念、基本定理和算法,帮助读者理解并掌握图的结构和解决图论问题的技巧。另外,本书包含很多图论的新研究结果,并介绍了一些悬而未决的图论问题.证明与应用并举是本书的一个重要特点。
《图论及其应用》
该书籍主要介绍了图论的基本知识、相关定理等,并对于不同图,给出实际应用,如与对集有关的人员分派问题、与Hamilton图有关的旅行售货员问题等,通俗易懂。
集智文章推荐
集智文章:种群结构如何影响自然选择?| 图论对进化生物学的启发
集智斑图:Graph theory in the information age 信息时代的图论
https://pattern.swarma.org/paper?id=d25fb568-16f8-11ea-91b3-0242ac1a0005
集智斑图:Graph Theory and Metro Traffic Modelling 图论与地铁交通模型
https://pattern.swarma.org/paper?id=24dc7004-2808-11ea-a1e5-0242ac1a0007
种群结构如何影响自然选择?图论对进化生物学的启发
课程推荐
图神经网络是深度学习领域的前沿热点议题,尤其是图网络(GraphNetworks)提出以来,深度学习有了实现因果推理的潜力。为了持续追踪相关领域的前沿进展,集智俱乐部联合北师大系统科学学院张江课题组,组织了以图网络为主题的线上读书会,研讨最新论文,孕育研究思路。下面从图网络的不同方面进行了讨论交流。
图网络解决优化问题
(https://campus.swarma.org/course/1169)
图网络中的对抗学习问题
(https://campus.swarma.org/course/1172)
GNN 算法变体
(https://campus.swarma.org/course/1168)
GNN算法应用
(https://campus.swarma.org/course/1170)
图网络算法原理探究
(https://campus.swarma.org/course/1167)
关系推断问题
(https://campus.swarma.org/course/1171)
图网络读书会
百科项目志愿者招募
如果你有意参与更加系统精细的分工,扫描二维码填写报名表,我们期待你的加入!
来源:集智百科
编辑:王建萍
自由度:系统状态相空间的维数 | 集智百科 量子信息与量子计算预读班:追踪量子信息革命交叉前沿 豪斯多夫维数:怎样度量分形 | 集智百科 什么是蒙特卡罗模拟 | 集智百科 朗顿的蚂蚁:NetLogo实现 | 集智百科 《张江·复杂科学前沿27讲》完整上线! 成为集智VIP,解锁全站课程/读书会
点击“阅读原文”,阅读词条网络中心性原文与参考文献