WGCNA-流程及原理细节直播互动授课(今晚八点)
疫情期间大家线下学习不方便,所以我们生信技能树举办了一系列免费公开课,大家的参与度还算OK吧,反正我看我们的二十多个免费的钉钉群都是满了1000人,传播生物信息学我们是认真的团队!
其中一个WGCNA课程不小心直播在了单细胞的钉钉群,但是单细胞免费公开课钉钉群早就满了1000人,所以我只能是再开通一个钉钉群来重新授课WGCNA,群就在:一个简单易学生物信息学速成指南,赶紧收藏!(钉钉群号: 35928729,名额不多了,赶快进去吧!)
我在生信技能树多次写教程分享WGCNA的实战细节,见:
一文看懂WGCNA 分析(2019更新版) (点击阅读原文即可拿到测序数据) 通过WGCNA作者的测试数据来学习 重复一篇WGCNA分析的文章(代码版) 重复一篇WGCNA分析的文章(解读版)(逆向收费读文献2019-19) 关键问题答疑:WGCNA的输入矩阵到底是什么格式
但是大家仍然是有千奇百怪的问题,所以才需要直播互动,有缘者赶快进去哦!下面的授课讲义是上一次直播讲师(也是优秀学徒)庄高建准备的,你可以看完简单认识一下WGCNA基本概念,如果要进去直播,在钉钉群,见:一个简单易学生物信息学速成指南,赶紧收藏!(名额不多了,赶快进去吧!)
1
WGCNA基本概念
加权基因共表达网络分析(WGCNA)是一种系统生物学方法,用于样品中基因之间的相关模式.WGCNA可用于查找高度相关的基因的簇(模块),使用module eigengene或intramodular hub gene对这些簇进行汇总,将模块与外部临床trait关联,并用于计算 module membership度量.挑选模块内hub基因,这些基因可以用于生物标志物或治疗靶标.它与只挑选差异基因相比,WGCNA可以从成千上万的基因中挑选出高度相关的基因的簇(模块),并将模块与外部临床trait关联,找出与临床trait高度相关的模块.然后就可以进行模块内分析.
1.Co-expression network(共表达网络)
共表达网络定义为无向的、加权的基因网络.这样一个网络的节点对应于基因,基因之间的边代表基因表达量的相关性,加权是将相关性的绝对值提高到幂β≥1(软阈值),加权基因共表达网络的构建以牺牲低相关性为代价,强调高相关性.具体地说,表示无符号网络的邻接关系.
2.Module(模块)
模块是高度互连的基因簇.在无符号共表达网络中,模块对应于具有高度相关的基因簇。
在有符号网络中,模块对应于正相关的基因。
这里的加权的网络就等于邻接矩阵。通过幂邻接转换,就强化了高相关性基因的关系,弱化了低相关性基因的关系。
3.Connectivity(连接度)
对于每个基因,连接性(也称为度)被定义为与其他基因的连接强度之和:在共表达网络中,连接度衡量一个基因与所有其他网络基因的相关性.
4.Intramodular connectivity(模块内连接度)
模块内链接度衡量给定基因相对于特定模块的基因的连接或共表达程度.
5.Module eigengene E
给定模块的第一主成分,代表整个模块的基因表达谱
6.Module Membership(MM)
对于每个基因,我们通过将基因表达谱与模块的Module eigengene相关性来定义Module Membership.
测量基因i与蓝色模块Module eigengene的相关性.如果MM blue(i)接近0,则i-th基因不是蓝色模块的一部分.另一方面,如果MM blue(i)接近1或-1,则它与蓝色模块基因高度相关.MM符号编码基因与蓝色模块Module eigengene之间是正相关还是负相关.
7.Hub gene
高度连接基因的缩写,根据定义,它是共表达网络模块内具有高连接度的基因.
8.Gene significance(GS)
2
基本分析流程
数据输入和清洗
网络构建和模块检测
量化模块和样本性状的关系
挑出感兴趣模块内部的基因
可视化TOM矩阵
将网络导出到外部数据进行可视化
3
数据分析的常见问题
1 需要多少个样本?
不建议对少于15个样本的数据集尝试WGCNA.与其他分析方法一样,更多的样品通常会导致更可靠和更精确的结果.
2 如何过滤掉探针?
探针集或基因可以通过均值、绝对中位差(MAD)或方差进行过滤,因为低表达或不变的基因通常代表噪声.用均值表达还是方差过滤是否更好尚有争议,两者都有优缺点.不建议通过差异分析过滤掉基因.
3 除了芯片数据,是否可以用RNA-seq数据进行WGCNA分析?
使用(正确归一化的)RNA-seq数据与使用(正确归一化的)微阵列数据并没有什么不同.也可以从标准化计数(或RPKM / FPKM数据)开始,并对数据进行log2(x+1)转换.
只要使用相同的方式处理所有样本,无论是使用RPKM,FPKM还是简单的归一化计数,对于WGCNA分析都不会产生很大的不同.
如果数据来自不同批次,需要去除批次效应.
4 挑选软阈值的问题?
如果合理的阈值(无符号或有符号的混合网络,小于15,有符号的网络,小于30)不能使无尺度拓扑网络系数R^2高于0.8,或者平均连接度降到100以下.可能是由于批次效应,生物学异质性(例如,由来自2个不同组织的样品组成的数据集)或条件之间的强烈变化(例如按时间序列表示)而导致的.应该查看是否存在样本异质性,导致异质性的原因以及是否应调整数据等.
如果事实证明由一个不想删除的有趣的生物学变量引起的(即调整数据),则可以根据样本数量选择适当的软阈值如下表所示.
4
WGCNA实战
分析流程
1. 数据输入、清洗、预处理:得到一个行为样本,列为基因的表达矩阵,另一个是样本对应临床trait的矩阵.
2. 提取GSE98622里面为IRI的31个样本的表达矩阵.
作者上传的数据是FPKM数据,得不到原始的count数据,所以对FPKM数据进行log转换,取 mad 前5000的基因
临床trait有:
datTraits:为所IRI之后10个不同的时间点的样本
days组:为IRI 组缺血48h,72h的样本
hours组:为IRI 组缺血2h,4h,24h的样本
months组:为IRI 组缺血6m,12m的样本
weeks组:为IRI 组缺血7d,14d,28d的样本
3. 得到样本聚类树和临床trait的热图
4. 一步构建网络和筛选软阈值(power)没有得到合适的阈值,所有使用R包作者提供的经验阈值7
5. 模块与临床trait的关系
6. 挑选感兴趣临床trait的模块
7. 对模块内的基因的进行GO富集分析
8. 可视化TOM矩阵
4.2
WGCNA分析结果
1. 样本聚类树和临床trait heatmap
2. 软阈值的挑选
挑选软阈值是为了构建无尺度network,使node的Mean Connectivity接近于0,没有得到合适的软阈值,所以根据样本挑选经验阈值7.
左图:各种软阈值(power)的网络拓扑分析.显示无尺度拟合指数(y轴)与软阈值(power)(x轴)的关系.右侧面板显示软阈值(power)(x轴)与平均连接性(度数,y轴)关系.
3. 模块的构建
挑选出来的基因聚类树状图,聚类时的距离为1-TOM值.
4. 量化模块和临床trait的关联
模块与trait的关系图.每行对应一个模块ME值,每列对应一个性状.每个单元格包含相应的相关性和p值.
5 将自己感兴趣的临床trait数据纳入ME,统一制作ME相关性的热图
6 模块内分析:选择自己感兴趣的模块(purple),作Module membership和 Gene significance的关系图
7 对感兴趣模块的基因进行GO分析
8 拓扑重叠矩阵的可视化
热图描绘了所有基因之间的拓扑重叠矩阵(TOM).浅色表示低重叠,逐渐变深的红色表示高重叠.
最后要感谢jimmy老师在我学习WGCNA过程中悉心的指导和解惑,让我少走了很多的弯路.
参考
https://horvath.genetics.ucla.edu/html/CoexpressionNetwork/Rpackages/WGCNA/Tutorials/index.html
不过,如果你完全没有如何基础,上面的图表以及统计学理论肯定是完全看不懂的。如果大家对这一系列“骚操作”感兴趣,欢迎报名我们的GEO数据挖掘课程哈,全年滚动开班,直播互动教学以及答疑,下一期是7月6号开课,可以花时间了解一下: