转录组专题-WGCNA分析
随着技术的改进,测序成本的降低,二代测序技术逐渐进入寻常百姓家。但是,相对应得测序数据却飞速增加,给分析数据解释生物学问题造成很大困难。
加权基因共表达网络(WGCNA)描述
加权基因共表达网络构建(Weighted Gene Co-Expression Network Analysis, WGCNA)是一种从高通量数据中挖掘模块(module)信息的算法。在该方法中module被定义为一组具有类似表达谱的基因,如果某些基因在一个生理过程或不同组织中总是具有相类似的表达变化,那么我们有理由认为这些基因在功能上是相关的,可以把他们定义为一个模块(module)。
这似乎与聚类分析所得到的结果有那么一点相似,但不同的是,WGCNA的聚类准则具有生物学意义,它是对基因间表达量的相关系数取n次幂,使得相关系数数值的分布逐渐符合无尺度分布,可以将基因按照表达模式进行分类,将模式相似的基因归为一个模块(module),而非常规的聚类方法,因此该方法所得出的结果具有更高的可信度。当基因module被定义出来后,我们可以利用这些结果做很多进一步的工作。
原理
在共表达网络中,每一个基因在一个特定时间或空间的表达情况被视做一个点(node),为了得到基因间的关联情况,我们需要计算任何两个基因间的相关系数(Person Coefficient),第i个基因和第j个基因的Person Coefficient,即两个基因的表达相似性。为了知道两个基因的表达谱是否具有相似性,需要人为规定一个阈值,只有当基因间的Person Coefficient达到这一阈值后(如0.8)我们才认为这两个基因是相似的,否则则不相似。但是这种分析方法存在一个很明显的局限,即我们没有理由认为Person Coefficient为0.8的两个基因与Coefficient为0.79的两个基因是有显著差别的,但是以上算法却无法避免这一处境,WGCNA采用了一种基于软阈值的判定方法很好地避免了这一问题。
网络的数学名称是图,在图论中对于每一个节点有一个重要概念,即:度。一个点的度是指图中该点所关联的边数。无尺度网路具有这样的特点,即存在少数节点具有明显高于一般点的度,这些点被称为hub。由少数hub与其它节点关联,最终构成整个网络。这样的网络的节点度数与具有该度数的节点个数间服从power distribution。这为我们寻找最佳参数提供了理论依据。生物体选择scale-free network而不是random network是有它进化上的原因的,显然对于scale-free network,少数关键基因执行着主要功能,只要保证hub的完整性,整个生命体系的基本活动在一定刺激影响下将不会受到太大影响。
计算完相关系数之后理论上可以将基因按照表达模式进行分类,将模式相似的基因归为一个模块。这样做有什么好处呢? 上文中我们提到理论上表达模式相似的基因可能就会参与相似的通路,或有相似的功能。通过这样的分类,信息量就被简化了。原来是成千上万个基因,现在被分成了几十个模块。下图就是将基因分为不同模块的结果图,每种颜色都代表一个模块。
研究策略
功能富集
各个模块都进行 KEGG、GO等功能富集分析,找出与我们研究性状(比方说光合作用或形态建成等等)相关通路相关性最强的模块进行深入挖掘。
性状之间的相关性
模块的本质上就是一群表达模式相似的基因的大集合。我们可以利用数学的方法,算出这群基因表达量的综合值来代表这个模块,将这个值叫做“模块特征值”。也可以这么理解,每个模块就是一个 “超级基因”,它的表达量是所有成员共同作用的结果。假设最初测序的样本是50只体重各异的小鼠, 而现在分析后得到30个“超级基因”,那么到底哪个“超级基因”值得我们后续研究呢? 答案很简单,计算这些超级基因与体重之间的关系,找到相关性高的那个“超级基因”就是我们后续要重点研究的模块。
模块与样本间的相关系数
如果我们研究的不是单一性状那该如何分析呢?比如,草莓花发育的12个时期,6个不同的花组织。我想知道在每个时期每个组织中发挥作用的“超级基因”,那该如何下手呢?这个时候我们就需要计算每个模块的特征值与样本间的相关性,来研究每个模块最喜欢在哪个样本中表达。以下图为例,每一行代表不同的模块,每一列代表不同样本。相关性由低到高用由蓝到红的颜色来表示。从图中我们可以直观的看出每个模块和各个样品间的关联结果,比如Lightgreen和样品Anther_7-8相关性最强。
功能与应用
基因共表达网络分析(Gene Co-expression Network Analysis)是根据基因表达信号值的动态变化,计算基因间的共表达关系,来建立基因转录调控模型,得到基因间的表达调控关系及调控方向,从而寻找一个或多个物种在不同发育阶段,或者不同组织在不同条件或处理下的全部基因表达调控网络模型以及关键基因,从而系统的研究生物体复杂的生命现象。
寻找核心基因(上文提到的hub)
模块中的各基因成员在关系上并非是平等的。我们把处于调控网络中心的基因称为核心基因(hub gene),这类基因通常是转录因子等关键的调控因子,是值得我们优先深入分析和挖掘的对象。而周边那些打酱油的成员,优先级可以往后放一放;
预测基因功能
在网络中,被调控线连接的基因,其表达模式是相似的,我们可以认为它们有相似的功能。所以,在这个网络中,如果线条一端的基因功能是已知的,那么就可以预测线条另一端功能未知的基因也有相似的功能,这就为我们下一步功能验证未知基因打开了一扇窗户。
在了解这么多WGCNA的相关内容之后,有没有发现它是多么的强大有用!这时候,打铁趁热,请大家继续阅读转载的两篇文章,获得与WGCNA相关的实战经验。
References
本文内容,主要整理于生信技能树论坛的ydchen所发布的WGCNA和共表达网络一文。http://www.biotrainee.com/thread-646-1-1.html
还有更多文章,请移步公众号阅读
如果你生信基本技能已经入门,需要提高自己,请关注上面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。
如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。