查看原文
其他

一招帮你搞定WGCNA分析

李娜 百迈客基因 2019-12-12

WGCNA小课堂

加权基因共表达网络分析(WGCNA)是一种从表达数据中挖掘基因模块(module)信息的算法,用于分析各种表达谱数据。从方法上来讲可分为表达量聚类分析和表型关联两部分:表达量聚类分析是通过基因之间的相关系数构建分层聚类树,聚类树的不同分支代表不同的基因模块;表型关联是指将分类好的模块与表型关联,通过模块的特征向量与表型的相关系数或者模块的显著性P值将每个模块与性状关联起来。


前言


应用场景:WGCNA中提取出不同的基因模块,解析基础代谢途径、转录调控途径、翻译水平调控途径等生物学过程。例如:不同器官/组织类型发育调控,同一组织不同时期发育调控,非生物胁迫不同时间点应答,病原物侵染后不同时间点应答。适用于复杂的数据模式,推荐5组以上的数据。


适用数据类型:适用于芯片数据和二代测序数据得到的表达量数据。


应用思路:在不同处理条件下,记录处理过程中植株的表型变化情况,如小麦的5个处理时间过程中表型观测值分别以F1、F2、F3、F4、F5表示,利用WGCNA对所有样品中基因构建共表达网络分析,通过计算基因间相关性系数可以将这些基因分为不同的模块(Module,M1、M2、M3。。。),之后计算每个基因模块与表型之间的相关性,结合代谢通路及基因调控网络分析,最终确定控制表型的关键基因(如:经计算发现基因模块M1与表型F1极度相关,对M1内基因进行通路分析,最终可以找到与条件处理相关的关键基因A)。


第三方软件:R language, WGCNA package


哇塞,看着好腻害的样子呀!想做,但没有生信基础,囧......

没有生信基础也没关系,来来来,让我告诉你一种快速、便捷的方法.....


工具教程

操作步骤:

登录百迈客云首页(www.biocloud.net)——分析——工具——加权基因共表达网络分析(WGCNA)



操作方法

1、 输入

输入文件: 表达量总表, 文本格式.

输入目录: 输入存放各个样品表达量的文件夹,文件夹下有五个以上样品表达量文件,命名为 '样品名.geneExpression.xls' , 均为文本格式。

注1: 表达量文件的标题行必须以"#", "GeneID" 或"ID" 开头, 否则无法正确读取。正确的标题行示意:


注2:若没有Trait 文件,表达量文件中除样品表达量以外的列(如 FDR)需要去掉。


2、 Output Dir

WGCNA结果输出路径。

3、 Trait file

样本特征文件选择。

4、 User_trait file  (仅自定义特征文件时)

样本特征文件(文件以tab分割,行名为样品ID,列名为分组名称。用1和0代表样品分组情况)。

注意,特征文件的行名必须是样品ID,且必须和表达量文件中的样品ID一致。特征文件格式示意如下:


5、 enrichment

物种对应的注释目录,一般为注释的Result目录,包含:*.ko; *.path; *.GO_tree.xls。

通常使用物种对应参考基因组的注释目录。

6、 FPKM

阈值筛选——基因表达量均值meanFPKM(默认:1)。

7、 Fold

阈值筛选——Module内基因的倍数筛选值(默认:0.5)。

8、 minModuleSize

阈值筛选——Module内最小基因个数(默认:30)。

9、 ntop

阈值筛选——Cytoscape和VisANT互作网络中展示的基因数目上限。(默认:150)。



结果说明


扬州大学对鸡腹部脂肪前体细胞分化过程中lncRNA和mRNA表达的研究中应用了百迈客云平台的WGCNA分析小工具,研究成果发表在G3 (Bethesda)杂志上。


结果说明

结果文件打包在Result.zip中,包含多种图片和相关的数据文件。其中,readme文件是一个说明文档,对分析原理、分析步骤及结果目录进行了详细介绍。

主要图片如下:

Fig.1.hclust:基于基因表达量的样本层次聚类图;

Fig.2.PCA_result.2D:PCA分析二维结果图;

Fig.2.PCA_result.3D:PCA分析三维结果图;

Fig.4.sample_correlation_pheatmap:样本间相关性热图;

Fig.5.Sample dendrogram and trait heatmap:样本聚类和样本特征结合混合图;

Fig.6.Scale Free Topology and mean:参数选择图(用于加权的相关性分析软阈值);

Fig.7.1.Gene clustering on TOM-based dissimilarity:利用TOM计算结果树状聚类图;

Fig.7.2.Gene dendrogram and module colors:TOM树状聚类图和module颜色混合图;

Fig.7.3.Dynamic Tree Cut:合并module后树状图和module颜色混合图;

Fig.8.Clustering of module eigengenes:合并相似module内基因的参数图示;

Fig.8.1.networkHeatmap:基因共表达网络热图;

Fig.9.Module-Trait Correlation:module与样本类型相关性热图;

Fig.10.1.meta-module hclust and heatmap:module间聚类与相关性混合图;

Fig.11.1.gene_dendrogram_with_trait:TOM树状图和基因与样本间相关性热图;

Fig.12.[...].Module membership vs gene significance:各个module内的MM值与显著性值对比图;

Fig.13.module_heatmap:各module内的热图及lncRNA与mRNA的比例结果。

学会了吗?登录百迈客云,让你也成为生信分析专家~~

嗯嗯嗯,有一种“柳暗花明又一村”的喜悦......,老板再也不用担心我的数据分析啦~\(≧▽≦)/~

百迈客云平台是由北京百迈客生物科技有限公司开发,集生物信息分析软件、数据库以及云计算为一体的生物大数据分析平台。WGCNA分析小工具就介绍到这里了,欢迎关注百迈客云微信公众号,后期会有更多小工具的介绍和操作指引,如果您在使用过程中遇到任何问题都可以联系咱们的云客服,欢迎登录平台点击右下方客服图像进入咨询环节。



点击下方“阅读原文”立即试用


参考文献

1. Zhang T, Zhang X, Han K, et al. Genome-Wide Analysis of lncRNA and mRNA Expression During Differentiation of Abdominal Preadipocytes in the Chicken[J]. G3 (Bethesda). 2017, 7(3):953-966.


  延伸阅读:

小RNA数据分析教程

GO、KEGG富集图绘制教程

聚类热图分析教程

转录因子(IF)预测教程

excel技能试用教程

差异可变剪切rMATS试用教程

Perl画图-SVG基础篇

转录组组装Trinity试用教程                   


转录调控事业部

图片来自网络,侵删

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存