高分文章中都在用的找核心基因的神器—WGCNA你确定不了解下吗?
在大样本中,差异分析或趋势分析无法对基因进行有效分类。例如,比较组太多的时候,维恩图无能为力;STEM类型的聚类软件在样本构成复杂的情况下,也不能做高效、简洁的分类;另外,由于KEGG的pathway都来源文献已报到的调控关系,如果您关注的调控关系在已有数据库未录入或还没被报道,依赖这些分析难以找到线索......那如何解决这些问题呢?福利来喽!
WGCNA适用于复杂的数据模式,一般可应用的研究方向有:不同器官或组织类型发育调控、同一组织不同发育调控、非生物胁迫不同时间点应答、病原菌侵染后不同时间点应答。一般要求15个样本及以上(3-5组及以上)。
WGCNA中两个关键的概念是模块与核心基因。
把基因聚类成模块后,可以对每个模块进行三个层次的分析:
1. 功能富集分析查看其功能特征是否与研究目的相符;
2. 模块与性状进行关联分析,找出与关注性状相关度最高的模块;
3. 模块与样本进行关联分析,找到样品特异高表达的模块。
1.相似表达模式的基因可能存在共调控、功能相关或处于同一通路;
2.基因网络符合无尺度分布。
应用组学有转录组、转录组+代谢组、转录组+甲基化等;领域有生长发育、肿瘤发生机制、不同品系的比较、新基因注释、目标基因潜在相关基因的筛选、药物作用靶点研究等。广泛来讲可使用于任何组学和领域。
准备输入文件:
①表达矩阵:可使用FPKM、RPKM、TPM等基因表达量。
②临床信息或者其它表型,即样本的属性。
STEP1:去除缺失值较多的基因和样品
STEP2:离群样本查看及过滤
2.1先查看是否有离群样本
无离群样本
2.2去除离群样本 (若存在明显离群样本,设定阈值,进行去除)
有离群样本
STEP3:确定软阈值
软阈值:6
如果R2没有到达0.85,0.9以上时,beta值则取经验值。
nSamples < 20 软阈值选取9;20 <= nSamples < 30 选取8;30 <= nSamples < 40选取7
STEP4:模块挖掘(每个模块中基因以及K值的输出)
一个模块中的所有基因为一个颜色,左图的上边部分是对所有基因进行的聚类,下边部分为基因聚类的热图,可以看到,有一些基因虽然属于一个模块,但从聚类上来看并不一定聚到一起,这跟样本相关性分析一样,同样处理的生物学重复样本不一定相关性系数高。这里用不同的颜色来代表那些所有的模块,其中灰色默认是无法归类于任何模块的那些基因,如果灰色模块里面的基因太多,那么前期对表达矩阵挑选基因的步骤可能就不太合适。STEP5:基因共表达可视化
基因间表达相似度越高,颜色越深。如果是把全部基因画上去,可以很清楚的看到各个区块颜色差异,但是如果基因过多,就非常耗费资源和时间。一般情况下,绘制此图会获取部分基因绘制,默认随机取400个基因。STEP6:基因和模块的相关性(MM值)
有些文章或者介绍里面,会使用MM值来筛选hub gene。主要方法就是计算所有基因和各模块特征值的相关性,然后每个模块中筛选出MM值较大的gene作为hub gene。STEP7:模块之间的相关性STEP8:模块与样本相关性热图
除了可以分析模块与性状的关系,样本与性状的关系之外,还可以进行模块和样本的分析,这个可以为没有表型数据的客户提供研究思路,通过分析模块和样本的关系,得到模块与样本之间的相关性系数,如下图所示, 颜色越深,表示模块和样本之间越相近,进而挑选出与某一类样本相近的模块,再进行其模块的基因表达情况,功能情况等进行后续的研究。STEP10:模块与性状关联分析(必须要有表型数据才可以进行分析)
通过模块与各种表型的相关系数,可以很清楚的挑选自己感兴趣的模块进行下游分析。这个图就是把moduleTraitCor这个矩阵使用热图可视化颜色越深表示模块与性状越相关,P值越小。通过此分析,可以挑选与性状相关性较高的模块。此图可以与性状与样本的关系图一起结合,可以先挑选出与性状最相关的样本,再次挑选出与性状最相关的模块,通过分析此模块中的基因在这些样本中的表达情况,为什么如此相关等等后续研究。STEP11:模块与样本特性(处理条件/临床特征等)相关项
STEP12:MM和GS相关性散点图
MM表示基因和模块相关性,GS表示基因与性状相关性,绘制MM和GS的散点图,可以深入探究不仅和对应模块高度相关,也和对应性状高度相关的基因。STEP13:导出网络图数据(包括模块中两两基因间权重)
将主要模块里面的基因直接的相互作用关系信息导出到cytoscape绘制网络图。注意:分析中不要急,step5: 基因共表达可视化和step13.导出网络图数据等过程分析较慢,耐心等待。
相关阅读
点击下方图片进入云平台资料汇总:
所见即所得,figure有bi格
联川云平台,让科研更自由