网络分析之基本概念和名词解释
The following article is from 红皇后学术 Author 红皇后学术
写在前面
今天开始准备用一个系列的推文介绍一下网络分析在微生物群落研究中的具体应用和实现方法。
目前的网络分析方法基本上都是基于相关性的分析,由于微生物群落数据相对丰度的特殊性,在使用网络分析的方法时可能需要特别注意。
目前已经有多种工具可以实现网络分析,包括Cytoscape、Gephi等图形化界面工具,MENAP等在线工具,以及igraph等基于R语言的工具等等。
本篇文章将介绍一下网络分析中涉及到的一些基本概念,具体的软件使用工具以及针对不同数据情况如何选择合适的网络分析方法等内容将会在之后的几篇推文中逐步介绍,希望大家持续关注!!
Network相关概念
Network是一个系统中所有可能相互作用单元的集合,以边连接节点构成。
节点(nodes):组成系统的各个单元,在微生物群落研究中就是不同的物种或者功能基因,可以用不同个颜色代表不同的分组,比如物种的系统发育、功能基因的分类等等。
边(edges):节点之间具有某种相互作用,可以没有方向,也可以应用箭头表示相互作用的施加者和承受者,没有箭头的网络称为undirected,有箭头的网络成为directed,在微生物群落研究中,通常边是没有方向的,因为通常来说我们无法分辨微生物之间相互作用的因果关系,可以使用边的宽度表示相互作用的强弱,通常为不同微生物或功能基因间的相关系数。
相关点(Neighbors):通过边与一个节点相连的其它节点,称为这个节点的neighbors。
度/连通性 (Degree/Connectivity):一个节点与其它节点相连接的边的数目,在directed网络中degree分为in-degree和out-degree。
hub:在网络中degree最高的节点称为hub,其可以代表与其相连的其它节点。
Density:网络中真实存在的边与理论上可能存在边 (所有节点两两相连) 的比例。
Centralization:评估网络中只有一个hub的趋势。
Heterogeneity:评估网络中含有多个hub的趋势。
Degree Distribution:网络图中所有节点degree的频数分布,网络图中所有节点的相互作用是随机连接节点产生时,degree distribution符合柏松分布,如果一个网络的Degree distribution与柏松分布有明显的差异,则此网络不是随机产生的。
Scale-free:如果一个网络的degree distribution接近一个power-law k-α分布,称这个网络为scale-free,α为degree常数。当α>3时,不同的hub之间不具有相关性;当2<α<3时,hub之间具有等级层次;当α=2时,最大的hub与几乎所有的节点相连。
Neighborhood connectivities:一个节点的所有neighbors的connectivity的平均数。
Shortest path:网络中连接两个节点边最少的路径的边数目。
Eccentricity:一个节点的shortest path的最大值。
Diameter:网络所有shortest path的最大值。
Radius:网络中所有shortest path的最小的非0值。
Average shortest path/characteristic path length:网路中所有节点shortest path的平均值。
Modularity:用于表示网络是否可以分为若干个模块的参数,参数在0-1之间,Average clustering coefficient distribution是对从具有2-n个neighbor的节点的平均clustering coefficient的分布排列,用于鉴定网络中的modularity。
Clustering coefficient:一个节点的一个neighbor可以不通过这个节点就到达另外一个neighbor的比例。
Hierarchy:表示网络可以分为若干个层次聚类的模块,应用clustering coefficient进行评估。
Topological coefficients:与一个节点至少具有一个共有neighbor的其它节点与该节点共有neighbor的平均数,与该节点neighbor数目的比值,用于评估该节点在网络中具有共有neighbor的趋势。
Closeness:评估信息从该节点传播到网络中其它节点的速度。
Betweenness:反应一个节点对网络中其它节点的控制力的大小。
Robustness:外界环境条件的改变或干扰对网络结构的影响,如一些节点degree的改变或完全丢失,对整体的网络结构影响的大小。
Small world:表示网络中节点之间的平均距离很短,意味着网络中的节点总是与其它节点紧密相关。
今天就写这些吧,除了以上概念之外,网络分析中还有很多其它的参数概念,并且要想深入理解这些概念需要一定的拓扑学基础,实话说很多概念我也不知道是什么回事,不过对于微生物群落研究来说,很多网络参数基本上也没怎么应用。
在下一篇推文中将给大家介绍基于相关性的网络分析并使用Gephi进行可视化的方法流程。
扩展阅读
高通量测序基础知识 微生物群落数据分析教程 抗生素抗性基因相关 转录组测序技术和结果解读 红皇后学术文献解读列表 基本分子生物学实验 PAST:最简便易用的统计学分析软件教程目录 每天学习一点R系列 微生物研究相关工具 微生物研究投稿期刊简介