一招帮你搞定WGCNA分析
WGCNA小课堂
加权基因共表达网络分析(WGCNA)是一种从表达数据中挖掘基因模块(module)信息的算法,用于分析各种表达谱数据。从方法上来讲可分为表达量聚类分析和表型关联两部分:表达量聚类分析是通过基因之间的相关系数构建分层聚类树,聚类树的不同分支代表不同的基因模块;表型关联是指将分类好的模块与表型关联,通过模块的特征向量与表型的相关系数或者模块的显著性P值将每个模块与性状关联起来。
前言
应用场景:WGCNA中提取出不同的基因模块,解析基础代谢途径、转录调控途径、翻译水平调控途径等生物学过程。例如:不同器官/组织类型发育调控,同一组织不同时期发育调控,非生物胁迫不同时间点应答,病原物侵染后不同时间点应答。适用于复杂的数据模式,推荐5组以上的数据。
适用数据类型:适用于芯片数据和二代测序数据得到的表达量数据。
应用思路:在不同处理条件下,记录处理过程中植株的表型变化情况,如小麦的5个处理时间过程中表型观测值分别以F1、F2、F3、F4、F5表示,利用WGCNA对所有样品中基因构建共表达网络分析,通过计算基因间相关性系数可以将这些基因分为不同的模块(Module,M1、M2、M3。。。),之后计算每个基因模块与表型之间的相关性,结合代谢通路及基因调控网络分析,最终确定控制表型的关键基因(如:经计算发现基因模块M1与表型F1极度相关,对M1内基因进行通路分析,最终可以找到与条件处理相关的关键基因A)。
第三方软件:R language, WGCNA package
工具教程
操作步骤:
登录百迈客云首页(www.biocloud.net)——分析——工具——加权基因共表达网络分析(WGCNA)
操作方法
1、 输入
输入文件: 表达量总表, 文本格式.
输入目录: 输入存放各个样品表达量的文件夹,文件夹下有五个以上样品表达量文件,命名为 '样品名.geneExpression.xls' , 均为文本格式。
注1: 表达量文件的标题行必须以"#", "GeneID" 或"ID" 开头, 否则无法正确读取。正确的标题行示意:
注2:若没有Trait 文件,表达量文件中除样品表达量以外的列(如 FDR)需要去掉。
2、 Output Dir
WGCNA结果输出路径。
3、 Trait file
样本特征文件选择。
4、 User_trait file (仅自定义特征文件时)
样本特征文件(文件以tab分割,行名为样品ID,列名为分组名称。用1和0代表样品分组情况)。
注意,特征文件的行名必须是样品ID,且必须和表达量文件中的样品ID一致。特征文件格式示意如下:
5、 enrichment
物种对应的注释目录,一般为注释的Result目录,包含:*.ko; *.path; *.GO_tree.xls。
通常使用物种对应参考基因组的注释目录。
6、 FPKM
阈值筛选——基因表达量均值meanFPKM(默认:1)。
7、 Fold
阈值筛选——Module内基因的倍数筛选值(默认:0.5)。
8、 minModuleSize
阈值筛选——Module内最小基因个数(默认:30)。
9、 ntop
阈值筛选——Cytoscape和VisANT互作网络中展示的基因数目上限。(默认:150)。
结果说明
扬州大学对鸡腹部脂肪前体细胞分化过程中lncRNA和mRNA表达的研究中应用了百迈客云平台的WGCNA分析小工具,研究成果发表在G3 (Bethesda)杂志上。
结果说明
结果文件打包在Result.zip中,包含多种图片和相关的数据文件。其中,readme文件是一个说明文档,对分析原理、分析步骤及结果目录进行了详细介绍。
主要图片如下:
Fig.1.hclust:基于基因表达量的样本层次聚类图;
Fig.2.PCA_result.2D:PCA分析二维结果图;
Fig.2.PCA_result.3D:PCA分析三维结果图;
Fig.4.sample_correlation_pheatmap:样本间相关性热图;
Fig.5.Sample dendrogram and trait heatmap:样本聚类和样本特征结合混合图;
Fig.6.Scale Free Topology and mean:参数选择图(用于加权的相关性分析软阈值);
Fig.7.1.Gene clustering on TOM-based dissimilarity:利用TOM计算结果树状聚类图;
Fig.7.2.Gene dendrogram and module colors:TOM树状聚类图和module颜色混合图;
Fig.7.3.Dynamic Tree Cut:合并module后树状图和module颜色混合图;
Fig.8.Clustering of module eigengenes:合并相似module内基因的参数图示;
Fig.8.1.networkHeatmap:基因共表达网络热图;
Fig.9.Module-Trait Correlation:module与样本类型相关性热图;
Fig.10.1.meta-module hclust and heatmap:module间聚类与相关性混合图;
Fig.11.1.gene_dendrogram_with_trait:TOM树状图和基因与样本间相关性热图;
Fig.12.[...].Module membership vs gene significance:各个module内的MM值与显著性值对比图;
Fig.13.module_heatmap:各module内的热图及lncRNA与mRNA的比例结果。
百迈客云平台是由北京百迈客生物科技有限公司开发,集生物信息分析软件、数据库以及云计算为一体的生物大数据分析平台。WGCNA分析小工具就介绍到这里了,欢迎关注百迈客云微信公众号,后期会有更多小工具的介绍和操作指引,如果您在使用过程中遇到任何问题都可以联系咱们的云客服,欢迎登录平台点击右下方客服图像进入咨询环节。
参考文献
1. Zhang T, Zhang X, Han K, et al. Genome-Wide Analysis of lncRNA and mRNA Expression During Differentiation of Abdominal Preadipocytes in the Chicken[J]. G3 (Bethesda). 2017, 7(3):953-966.
转录调控事业部
图片来自网络,侵删