请点击上面“思影科技”四个字,选择关注我们,思影科技专注于脑影像数据处理,涵盖(fMRI,结构像,DTI,ASL,EEG/ERP,FNIRS,眼动)等,希望专业的内容可以给关注者带来帮助,欢迎留言讨论及转发推荐,也欢迎了解思影科技的课程及数据处理服务,可添加微信号siyingyxf或18983979082咨询(咨询电话18580429226,杨晓飞)。(文末点击浏览)
人脑是自然界中最复杂的系统之一, 在复杂系统研究方面,网络研究的方法在21世纪以来被深度应用在多个领域,在神经科学研究领域中,无论从微观的多个神经元、神经元集群的角度看还是从宏观的多个脑区相互连接成庞杂的结构网络和通过相互作用构建的功能网络看,网络方法都已经延伸到了神经科学研究中的方方面面。在网络研究中,通过图论方法来表征复杂网络的拓扑关系是研究网络中不同节点、不同连边以及网络的整体特性的重要手段。但在实际的研究中,研究者往往根据自己的研究目的特定地选择网络属性,因而导致很多研究人员无法全面的了解图论研究中多种指标的实际含义,同时,随着图论方法的发展,许多新的指标也不断出现。全面和准确的理解图论指标对于使用图论方法研究复杂网络具有重要的意义,只有选对指标才能更好地说明你的研究问题,达到事半功倍的效果。因此,思影科技汇总了当前网络研究中被研究者经常使用的图论指标,并结合图表示、数学公式的严格定义以及解析的方法对每个指标进行了详述,以更好的帮助各位希望使用网络方法和图论指标进行脑科学研究的研究者。首先我们来简单的回顾下网络中的不同对象,以便在后文阅读中能够清楚不同术语所描述的网络对象。下图是一个由11个节点组成的网络,即圆圈,它们表示了网络中的基本对象,连接不同的节点的连线被称为“边”(在脑网络研究中,节点是被按照不同分割依据所分割的脑区,连边在功能网络中往往通过对不同脑区的时间序列信号的相关计算所得,而结构网络中分为DTI连接和基于灰质变化的协变网络连边。本文主要是对图论指标的解析,因此,关于脑网络中的网络构建方法请看思影科技的文章):《大话脑成像》系列之十四 -- 功能连接
在这个小的网络中,我们可以看到不同节点由数量不等的连边互相连接起来,为了能够全面的分析这个网络的拓扑结构,我们需要使用不同的图论指标。接下来我们来一起了解不同的网络指标。
在网络研究中,最基本和最广泛使用的度量指标是“度”,对于给定节点,度就是与它连接的邻居个数。第i个节点的度计算公式是:
这里,Cij表示节点i和节点j之间的连接状态,当节点i和节点j之间有连接时,Cij=1,当节点i和节点j之间无连接时,Cij=0; 此度量只适用于二值网络(加权网络应用该指标时,作为二值化网络来考虑),它只考虑连接的存在或不存在,不考虑任何权重信息。
参照上图,节点内的值代表节点度,即和此节点有连接的节点个数(或者该节点存有的边的数目,两者是一致的)。节点度是图论中一个基础的指标,许多指标在计算中都要使用节点度的信息来描述网络中更高阶的拓扑关系。节点强度和节点度密切相关,原因是节点强度也会计算给定节点的邻居个数,但是会把连接权重(例如平均FA值等)考虑进去; 第i个节点的强度被定义为连接到它上的所有边的权重之和。
参照上图,节点内的值代表节点强度,由连接到它们的边(粗线为1,细线为0.5)的权重决定。在实际研究中,对加权网络会常常使用节点强度来度量节点的重要性。如果我们考虑一个迭代过程,将网络中具有某一度值的节点依次从网络中剥离,会得到一个具有最小度值为k的子网络--被称为k度核;如果一个节点属于k度核,但是不属于k+1度核,那么它的节点核心就等于k。
参照上图,第一步移除所有度值为1的节点,第二步移除所有度值为2的节点,留下了一个最小度值为3的网络;外侧4个节点(红色)的节点核心等于3,因为它们属于3度核,而且不属于4度核。节点核心指标可以表示网络中所有节点的节点度特性,往往被用在核心网络发现和节点排序中。 (4)富人俱乐部系数(rich club coefficient)富人俱乐部指的是网络中度值高的节点之间的连接,往往表示出比度值低的节点之间的连接更加紧密的趋势,这些高度值的节点在大脑全局交流中具有重要的作用。在实际应用中,我们往往通过k度核的方法筛选出那些高度值的节点作为富人俱乐部的成员节点,因此,整个网络就可以被分为rich节点和非rich节点。一种衡量的方法是连接形式,将rich-club节点之间的连接称为Rich-club连接;将rich-club与非rich-club节点之间连接称为Feeder连接;将非rich-club节点之间的连接称为Local连接。而为了更好的研究rich-club节点之间的连接,可以计算富人俱乐部系数。该指标是通过将网络分割成等度的节点,然后使用k度节点之间的连接数除以k度节点之间所有可能的连接数,将这个比值作为富人俱乐部系数,该系数越大表明rich-club节点之间的连接更加紧密。 同配系数建立在度值矩阵的基础之上,因为它描述了连接节点对的度之间的相关性。在不改变节点度分布的情况下,可以使度大的节点倾向于和其它度大的节点连接。网络中的这个重要的结构特性,称之为节点之间的相关性(Correlation)。如果网络中的节点趋于和它近似的节点相连,就称该网络是同配的(Assortative);反之,就称该网络是异配的(Disassortative)。网络同配性(或异配性)的程度可用同配系数(也称Pearson Coefficient----皮尔森系数)r来刻画。r>0表示整个网络呈现同配性结构,度大的节点倾向于和度大的节点相连;r<0表示整个网络呈现异配性;r=0表示网络结构不存在相关性。
参照上图,第一张图里的红色节点同配系数是正值,因为它与和自身有相同度的节点连接;而第二张图里的红色节点同配系数是负值,因为它连接的节点,其度值和自身不相似,因为它自身的度值比它连接的度值小的多(注意,大的多时也是一样的情况,总之就是要衡量是否是相同度值的节点互相连接)。 路径长度是网络分析中使用的一种距离,它描述了连接一对节点所需的“步骤”的数量, 例如,下图中节点A和B之间的路径长度值为3意味着它们之间有3条边。
节点对之间通常有多个可能的路径,有时计算最短可能的路径长度-即最少边数,也被称为最短路径长度。
参照上图,可以看出节点A与B之间的最短路径长度用2条红色边表示。特征路径长度是指所有节点对之间所有最短路径长度的平均值。为了获得特征路径长度的表达式,首先对网络中所有节点之间的最短距离(D)求和,以获得总路径长度CT。
为了得到特征路径长度,需要计算CT的平均值。一个节点连接到除它自身外其他所有节点,这样每个节点会有n-1个连接(n是网络中的节点数)。因此,特征路径长度为:
特征路径长度是网络的全局特征,特征路径长度越小表明网络的信息传输速度越快,该指标往往被用在计算“小世界”属性这一指标。
“全局效率”是信息流的标量度量,被定义为给定网络中所有最短路径长度的逆。局部效率和全局效率的计算方法类似,不过它是在单个节点水平上计算,而不是在整个网络水平上计算的。全局效率度量了网络的全局传输能力 。
偏心率是给定节点与网络中任何其他节点之间的最大路径长度。
参照上图,可以看出节点A与B之间最长路径为4,这被定义为偏心率:
“直径”和“半径”是整个网络水平度量,分别定义为给定网络中所有节点偏心率的最大值和最小值:
在图论研究中,网络的偏心率、直径和半径用来定义网络的规模,在脑网络研究中这三个指标使用较少,少有研究者涉及,这主要和脑网络的规模大小往往是一致的有关。介数中心性是一个度量与某个节点相连的不同节点之间的连接能力的度量指标(也就是说你的朋友们他们互相是否是朋友)。在数学计算上依赖于将图形解构成路径长度,它是通过给定节点的最短路径条数与网络中所有其他节点之间的最短路径总数之比求得的。
例如,参照上图,可以看到位于中心的节点参与了绿色节点对、红色节点对、黄色节点对和蓝色节点对的最短路径。因此,位于中心的节点就有高介数中心性。第i个节点的介数中心性可以通过对网络中所有节点对的最短路径求和来计算:
这里,Di(j,k)表示通过节点j和节点k之间通过节点i的最短路径数目,D(j,k)表示节点j和节点k之间所有最短路径数目。为了比较不同大小的网络,可以将介数中心性进行标准化。对于第i个节点的介数中心性,由于第i个节点被排除在外,对于无向图,一共还有(N-1)*(N-2)/2个节点对。因此,标准化的介数中心性为:
一个点的介性中心度较高,说明其他点之间的最短路径很多甚至全部都必须经过它中转。假如这个点消失了,那么其他点之间的交流会变得困难,甚至可能断开(因为原来的最短路径断开了)。因此,介数中心度和前文提到的节点度类似,都是衡量节点的重要度量指标。 近年来,随着互联网搜索引擎网页排序算法的兴起,一种新的图形度量指标得到了相当大的关注,它是“特征向量中心性”。这个度量是自身参考的,如果节点连接到其他本身就很重要的节点,那么就赋予节点高度的重要性。简单来说,特征向量中心性表示的是一个节点的相邻节点的度值高低的指标。也就是说,与你连接的人越重要,你也就越重要。网络中第i个节点的特征向量中心性可以通过二值或者加权的邻接矩阵进行计算。在加权邻接矩阵的情况下,进一步以高中心性节点间连接强度的形式进行维数划分有助于分类。 第一个节点的特征向量中心性等于其所有邻居的特征向量中心性之和:
这里aij表示节点i和节点j之间的连接状态,λ表示比例常数。这还可以写为特征向量方程:
有多个值使得这个特征向量方程的解存在。然而,我们可能会限制lambda必须为正值,因为负连接状态不是一个合理的场景。Perron-Frobenius定理表明方阵的元素如果都是正值,那么存在最大特征值,并且特征向量的每个元素都是正的。因此,与最大特征值相关的特征向量的第i个分量给出了第i个节点的特征向量中心性。对网络的模块化进行分析的指标往往依赖于最优群落结构的估计。先来看模块化的概念,模块化指的是网络中内部连接密集但对外连接稀疏的节点集团(如下图)。一个网络可以被划分为不同的模块,模块中的节点相互之间比与网络中其他节点之间的连接更加紧密。这些子网络可以通过计算最优群落结构找到。后者产生的模块中,模块间连接的数量被最小化,模块内连接被最大化。
参照上图,可以看出有5个高度互连的节点簇,彼此之间有稀疏的连接。如上图所示,这种图的最优群落结构是被分成5个模块。在对网络的模块化程度进行探索时,这种方法是快速有效的,它能够帮你快速地确定脑网络中的最优估计的模块化个数。 参与系数是根据最优社区结构定义的描述单个节点嵌入其局部模块的深度的度量, 它被计算为A在其模块内的连接数与整个网络内的连接数之比。这个值越大,表明这个节点在模块内的连接更多。
参照上图,相比于右图,左图中红色节点的参与系数较高,因为在它的所有连边中,与自身模块内的连边更多,与模块外的连边只有一条。第i个节点在模块m内的连接与其连接总数的比率R可以写如下:
这里Di是第i个节点的度,然后把所有模块的比率加在一起:
然后,我们对所有模块中节点i的模块内连接与总连接的比率进行标准化,并将结果定义为节点i的参与系数P:
从上式可以看出,参与系数P的取值范围为0 ≤ P <1,其中P=0表示第i个节点仅连接到其自己模块中的节点的情况,即Dmi=Di。另一方面,当第i个节点与自身模块的连接强度与其他模块的连接强度一样时,P趋向于1,例如Dmi <<Di。
节点倾向于聚集在一起的程度由‘集聚’度量量化。集聚系数被定义为节点水平上的三角形数量。对于一个包含N个节点的网络,第i个节点Ni最多有N-1条入边,因为它可以连接除它自身以外的所有节点。把网络中N个节点求和,共有N(N-1)条连接。对于无向网络中的节点,和其他一个节点之间的入边和出边被看做是同一条边,所有一共有N(N-1)/2条无向边。所以对于一个无向网络,最大连边数是N(N-1)/2。局部聚类系数是实际存在的连边数与最多可能连边数之比:
C是实际存在连边的数量,N是节点数目。集聚系数是网络的局部特征,反映了相邻两个人之间朋友圈子的重合度,即该节点的朋友之间也是朋友的程度。这个指标往往被用来结合特征路径长度来计算“小世界属性”。对于规则网络,任意两个点(个体)之间的特征路径长度长(通过多少个体联系在一起),但集聚系数高。对于随机网络,任意两个点之间的特征路径长度短,但集聚系数低。而小世界网络,点之间特征路径长度小,接近随机网络,而聚合系数依旧相当高,接近规则网络。在脑网络的研究中,“小世界属性”是一个重要的度量指标,以往研究表明大脑的结构网络和功能网络都具有“小世界属性” “转移性”是聚类系数的标量描述符,定义在网络水平,而不是在单个节点水平。转移性是基于triplet和三角形结构,triplet细分为两种:开放的(open triplet)和封闭的(closed triplet).如果三个节点之间有2条边,则称为Open triplet;如果存在3条边,则为Close triplet.
例如,在上图中,Open triplet有C-B-E , A-B-E , E-B-D, Close triplet有A-B-C , B-C-A , C-A-B 。后一组闭合的triplet是三角形,由此可知:
网络中的三角形数目可以通过所有节点对之间的连接状态求和来计算:
这里,aij代表第i个节点和第j个节点的连接状态,如果它们之间有连接,连接状态就为1,如果没有连接,连接状态就为0。等式右边的1/2是因为在分数各向异性的情况下网络是无向的,因此入边和出边被看做是一条边。转移性为closed triplet 的数量与所有open triplet 、closed triplet数量和之比。在当前的脑网络研究中,使用这一指标的研究还相对较少。过度拟合是统计分析中一个常见的问题,当模型描述数据中的噪音而不是有意义的信号时就会发生。因此,过度拟合的模型无法做出准确的预测,这通常是由于相对于观察(例如,受试者)而言,预测因子(例如,图度量)的数量过多。为了处理预测模型中的过拟合,人们开发了各种技术。这些技术试图通过最小化模型中冗余预测因子的影响来创建有效的模型。最近的一种技术被称为弹性网络,它是之前两种技术的组合,即最小绝对收缩和选择算子方法(LASSO)和岭回归(Tibshirani, 1996)方法的结合。如果一个给定的数据集包含多个高度相关的预测因子(在我们的研究中就是这种情况),岭回归将同时降低这些预测因子组的影响,但不会将它们一直降到零。这对我们的研究没有用处,因为我们希望从模型中完全消除冗余的图度量,以便只留下最有价值的。另一方面,LASSO能够将预测能力很低的因素置为0,但一次只能消除一个冗余预测因子。这对于我们的目的来说也不是很理想,因为被移除的单个预测因子可能与许多其他预测因子高度相关,而LASSO将在模型中保留这些预测因子。弹性网络方法能够同时惩罚一组高度相关的预测因子,同时将它们从模型中完全排除。因此,弹性网络利用了LASSO和岭回归的特性,创建了一个非常适合我们这样的研究的混合模型。在实际的计算中,这种方法可以帮助我们更高效地选择机器学习中用于分类或者预测的特征,是有效的特征降维方法。本文对当前网络研究中常用的图论指标进行了计算方法和度量意义的汇总和简介,其中一些指标是已经在脑网络研究中长期被使用并具有固定研究方法的,如节点度、介数中心度“小世界属性”、特征路径长度等等。这些指标虽然常用,但是也需要研究者清晰地了解其计算过程才能准确运用。除此以外,本文还介绍了一些在脑网络研究中较少被使用的指标,如特征向量中心性、转移性等指标,这些指标有着被进一步应用在脑网络研究中的潜力,可以更多的发掘脑网络中的拓扑信息。总而言之,本文对图论属性进行了简要的汇总和介绍,如果需要更加深入地了解图论在脑网络研究中的具体应用,欢迎参加思影科技内容丰富的网络班及机器学习班:第十六届磁共振脑网络数据处理班(南京,8.12-17)
微信扫码或者长按选择识别关注思影
非常感谢转发支持与推荐
欢迎浏览思影的数据处理业务及课程介绍。(请直接点击下文文字即可浏览思影科技所有的课程,欢迎添加微信号siyingyxf或18983979082(杨晓飞)进行咨询,所有课程均开放报名,报名后我们会第一时间联系,并保留已报名学员名额):
第三十二届磁共振脑影像基础班(南京,9.21-26)
第十六届磁共振脑网络数据处理班(南京,8.12-17)
第十一届脑影像机器学习班(南京,8.25-30)
第九届磁共振脑影像结构班(南京,8.6-11)
第十三届磁共振弥散张量成像数据处理班(南京,9.15-20)
第六届小动物磁共振脑影像数据处理班(南京,9.1-6)
第七届磁共振ASL数据处理班(南京,10.12-15)
第六届任务态fMRI专题班(南京,10.16-21)
第二届弥散磁共振成像数据处理提高班(南京,10.24-29)
第三十一届磁共振脑影像基础班(重庆,9.14-19)
第三十三届磁共振脑影像基础班(重庆,10.11-16)
第十七届磁共振脑网络数据处理班(重庆,10.20-25)
第十届磁共振脑影像结构班(重庆,11.2-7)
第九届脑电数据处理入门班(重庆,9.22-27)
第八届眼动数据处理班(重庆,10.26-30)
第二十一届脑电数据处理中级班(南京,9.7-12)
第七届脑电信号数据处理提高班(南京,11.18-23)
第八届近红外脑功能数据处理班(南京,8.18-23)