查看原文
其他

WGCNA得到模块之后如何筛选模块里面的hub基因

生信技能树 生信技能树 2022-06-06

我在生信技能树多次写教程分享WGCNA的实战细节,见:

通常是介绍到,把输入的top5000 MAD的基因根据WGCNA算法划分为多个模块,然后不同模块都可以去和临床形状看相关性。

首先看样本性状和模块的关系

如下图,如下要看懂下面的图需要理解3个概念:

  • gene significance (GS) was defined as mediated p-value of each gene (GS = lgP) in the linear regression between gene expression and the clinical traits.

  • module eigengenes (MEs) were defined as the first principal component of each gene module and the expression of MEs was considered as a representative of all genes in a given module.

  • module significance (MS) were defined as the average GS of all the genes involved in the module

首先,每个模块都有一个MEs,模块的MEs能够代表模块本身去跟性状进行计算相关性(基于样本),这个相关性值就体现在了下面的热图里面:

step5-Module-trait-relationships

可以很清楚的看到,疾病进展的3个阶段,都是有非常显著的模块与之相关。举个例子,假如我们现在关心的是phase1,那么就可以深入查看,我们全部模块里面的所有基因,跟我们的phase1这个性状的相关性系数。


可以看到,基本上就是等价于前面的模块基因集与性状特征的相关性热图。只不过是把其中一个性状,也就是phase1单独拿出来仔细看而已。

比如看black这个模块里面的基因, 这些基因在phase1这个性状里面的的GS值都比较高,意味着这个black模块跟phase1这个性状的MEs会比较高,对应前面的模块基因集与性状特征的相关性热图。

然后看基因和模块的关系

既然这个性状phase1有3个关联性比较好的模块,例子里面是 black, blue, turquoise, 那么就需要下游分析这3个模块里面的基因集。但是每个模块基因数量毕竟是太多,如下:

as.data.frame(table(mergedColors))
   mergedColors Freq
1         black  140
2          blue  572
3         brown  401
4         green  237
5   greenyellow   74
6          grey  203
7       magenta   85
8          pink  103
9        purple   76
10          red  190
11          tan   62
12    turquoise 2591
13       yellow  266

所以需要探索每个模块里面的基因,到底跟性状有什么样的关系,如何从模块里面继续挑选感兴趣的基因。

绘制如下  Module membership vs. gene significance 的图,然后挑选右上角的点所代表的基因即可。


这个策略被很多文章采用,比如发表在:Front. Oncol., 11 September 2018 | https://doi.org/10.3389/fonc.2018.00374的文章:

Based the cut-off criteria (|MM| > 0.8 and |GS| > 0.2), 42 genes with high connectivity in the clinical significant module were identified as hub genes.

可以看到,这个文章里面对GS的阈值设置的很低哦,具体一点是:

  • The connectivity of genes was measured by absolute value of the Pearson's correlation.

  • Genes with high within-module connectivity were considered as hub genes of the modules (cor.geneModuleMembership > 0.8).

  • Hub genes inside a given module tended to have a strong correlation with certain clinical trait, which was measured by absolute value of the Pearson's correlation (cor.geneTraitSignificance > 0.2).

再辅助生存分析,就可以进一步缩小基因范围啦

Among them, CCNB2, FBXO5, KIF4A, MCM10, and TPX2 were negatively associated with the overall survival and relapse free survival

为什么这篇文章是这样操作的呢,其实是WGCNA官网推荐的,因为Module membership (MM) is a measure of intra-modular connectivity.


那么connectivity到底是什么呢?

既然大家都是Module membership (MM) is a measure of intra-modular connectivity.所以筛选NM和GS值就好了,为什么还会有一个专门的connectivity呢?

就需要再去理解 connectivity 定义了,搜索到一个介绍:https://www.researchgate.net/post/How_should_I_interpret_the_connectivity_measures_kTotal_kWithin_kOut_kDiff_in_WGCNA

  • 1) kTotal - connectivity of the each gene based on its r-values to all other genes in the whole network

  • 2) kWithin - connectivity of the each gene within a single module based on its r-values to all other genes within the same module

  • 3) and 4) kOut and kDiff mathematical derivatives from 1) and 2)

WGCNA官网说明很简单:The function intramodularConnectivity computes the whole network connectivity kTotal, the within module connectivity kWithin, kOut=kTotal-kWithin, and kDiff=kIn-kOut=2*kIN-kTotal

因为这个概念很少有人知道,所以大家使用WGCNA把基因划分好模块之后,通常并不是计算这个指标,但是WGCNA官网推荐使用这个指标来挑选模块内部最重要的基因!

Finding genes with high gene significance and high intramodular connectivity in interesting modules

亲爱的读者,你觉得呢?

WGCNA分析免费做

我们推文里面提到的各种各样的数据分析环节都是我非常有经验的,比如我在lncRNA的一些基础知识 ,和lncRNA芯片的一般分析流程 介绍过的那些图表,以及下面的目录的分析内容 对我来说是举手之劳,希望可以帮助到你!

同样的,本次活动我可以帮你免费做一次甲基化信号矩阵差异分析,但是呢,我也没办法保证结果咋样,有时候数据集就是这样。而且,你需要挑选一下你的阈值哦!

还是老规矩,发送数据分析要求,以及简短的项目描述到我的邮箱 jmzeng1314@163.com

邮件正文最好是加上你是啥时候认识生信技能树的哦,或者其它一些寒暄的话,自我介绍也行。主要是考虑到可能想免费分析数据的朋友很多,所以会根据你的来信,我主观判定一个优先级哦。目前我有20多个愿意长期在我的指导下进行数据探索的学徒,等我的团队扩大到200人,我们应该是可以做到数据分析全部免费,敬请期待哈!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存