扩增子图表解读5火山图:差异OTU数量及变化规律
欢迎点击「宏基因组」关注我们!专业干货每日推送!
作者: 刘永鑫
日期:2017-7-1
阅读时长:10min
背景介绍(Introduction)
宏基因组学
宏基因组学目前的主要研究方法包括:微生物培养组学、16S/ITS/18S扩增子、宏基因组、宏转录组、宏蛋白组和宏代谢组,其中以扩增子研究最为广泛。
目的意义
本系列文章将带领大家结合较新的16S扩增子相关文献,来理解宏基因组16S扩增子文章中常用图表种类、图中包括的基本信息,以及作者想表达的结果。
主要内容
本系列文章内容包括:箱线图、散点图、热图、曼哈顿图、火山图、维恩图、三元图和网络图等。
学习思路
罗列知识点,熟悉专业名词,弄个脸熟,即使理解不深刻起码在阅读中不会有抵触情绪;
结合具体文章读图,实战两三次,基本就是专业人士了。
将来在大家可以很好理解相关文章图表的基础上,希望对分析、统计和绘图相关技术有进一步学习的小伙伴请积极回复并留言吧。如果本系统文章阅读过万,想学分析的留言过百。我还将详细讲解扩增子分析、统计和绘图各步骤的分析实例和源代码,希望大家多多鼓励和支持。
声明:文章的解读仅代表个人理解和观点,有不足处,请读者积极留言批评指正,互相学习,共同进步。
知识点(Method)
火山图 Volcano plot
在统计学上,火山图是一种类型的散点图,被用于在大数据中快速鉴定变化。由于它的形成像火山喷发的样子,所以被称为火山图。和上文讲的曼哈顿图类似。
In statistics, a volcano plot is a type of scatter-plot that is used to quickly identify changes in large data sets composed of replicate data.
火山图基本元素
火山图也有很多种样式,在生物学高通量测序结果中,常见有的X和Y轴分别为aboundance 和 fold-change,或p-value和fold-change两种样式。如上图中为p-value versus fold-change的样式,,先此为例进行图中基本元素解读:
X轴:通常为两组基因表达或OTU相对丰度比较的变化倍数取2的对数log2(Fold change)。 取log2的原因:由于两数相比,倍数取值范围为0 - 正无穷,上调的倍数为1 - 正无穷,比较容易理解;而下调倍数为0-1很难理解。如果取对数可将倍数以1为中心左右对称,取2的对数是因为经验上2倍差异比较常用,故取log2变换既可以使上调或下调数据对称(上、下调的类型同等重要,无偏好),而且坐标轴1个单位刻度的变化即为2倍差异(方便快速筛选差异足够大的点);
Y轴:两组基因表达或OTU相对丰度相比统计上显著性的Pvalue值,通常取负对数10变换 -log10(P-value)。取负对数与转换下调表达数值原理类似,将0-1范围P-value数据变为0-正无穷,且将越小越显著的P-value转换为与显著性正相关,方便观察显著差异目标。Pvalue取负对数10转换后,坐标轴数值2,3对应0.01和0.001的显著阈值,便于理解。有时也用-ln或-log2对Pvalue值进行转换。
图中点:代表每个基因或OTU在两组相比时差异倍数和显著性的值;通常将显著变化并且差异倍数大于指定阈值的点规定为显著差异的结果,常用颜色高亮显示(图中绿色点)。有些重点关注的点可以添加箭头或标签进一步突出显示(图中绿色箭头)。有时还会有点大小代表相关丰度,点的形状代表其它一些属性,如物种分类信息等。
火山图绘制
常用R语言的ggplot2绘制。接一来的统计和绘图课会有详细源代码和分析实例。
马上想绘图的朋友,推荐阅读生信宝曲的《R语言学习 - 火山图》。
看图实战(Result)
示例1. 各比较组间上/下调显著差异OTU的数量
Edwards, J., et al. (2015). PNAS Fig. 2A
这篇文章分析了水稻根不同区域的细菌组成,16S分析文章较系统的作品,两年被引用147次,推荐阅读。
图2.A 水稻根不同生态位相对于土壤中显著差异的OTU
图中元素解释:不同于上面例子,此图为Fold change versus Average Abundance样式,大家注意一下,常见就这两种。
X轴标签为Log10(Average Abundance),是相对丰度平均值 取10的对数,这里用X轴展示了OTU的丰度,而不是pvalue值。其实作者X标题明显错将Log2写成了Log10,因为OTU相对丰度分析常用百分、千分和百万分数,即使是最大的百万分数取Log10最大值仅为6,而不会坐标轴刻度至15,这种0-15的刻度是典型的Log2(RPM)百万分数的数据。
Y轴标签为Log10(Fold Change)是指两组间比较差异倍数经10的对数变换;标签也可能明显错误的,因为想让倍数对称必须取负对数,而且通常用-Log2,Log10的值为10就有上百亿倍,扩增子不可能有这么大的差异或深度(扩增子差异倍数为了防止分母为零需要加某值,因此也减小了差异倍数,不会有非常大的情况;扩增子测序深度一般只有几千至几十万,不可能有上亿的量)。
图中的每个点代表一个OTU,其中图上部有颜色的点为显著富集(enriched)的OTU,下部有颜色的点为显著下降(depleted)的OTU,黑灰色的点为没有显著差异的OTU;图中标记的数字为显著富集或下降OTU的数量;
图表结果:图中展示了从根际、根表到根内与土壤相比,所有OTU的相对丰度和差异倍数,其中高亮显示显著富集或下降差异OTU和数量;
图表结论和规律:从根际-根表-根内,从外到内,显著差异的OTU总数量是逐渐上升的,代表变化越来越大;其中根际有较多富集的OTU,而根表和根内则较多为下降的OTU;
经验和技巧:本图虽然有X/Y轴标签错误的小问题(2错误写成了10),但许多优点值得学习;
大家经常看到的看火山图都是竖起的,左、右部分高亮的为差异OTU,而作者将图像放倒(顺时针旋转90度),以Y轴零刻度为分界面,上部为富集OTU,下部为下降OTU也很直观,而且耳目一新;
图中差异OTU的数量标出,不用读者自己去估计,直接明了,感觉信息量更丰富;
三组图并排且变化明显,不用多説,读者自然会去比较差异,引导读者参与分析比较和规律发现。
附图注原文:
Fig. 2. Rhizocompartments are enriched and depleted for certain OTUs. (A) Enrichment and depletion of the 27,147 OTUs included in the greenhouse experiment for each rhizospheric compartment compared with bulk soil controls as determined by differential abundance analysis. Each point represents an individual OTU, and the position along the y axis represents the abundance fold change compared with bulk soil. (B) Numbers of differentially enriched OTUs between each compartment compared with bulk soil. (C) Numbers of differentially depleted OTUs between each compartment.
Reference
https://en.wikipedia.org/wiki/Volcano_plot_(statistics)
Edwards, J., et al. (2015). “Structure, variation, and assembly of the root-associated microbiomes of rice.” Proceedings of the National Academy of Sciences 112(8): E911-E920.
阅读本系列全部文章,请点此链接。
想了解更多宏基因组、16S分析相关文章,
快关注“宏基因组”公众号,干货第一时间推送。
系统学习生物信息,快关注“生信宝典”,
那里有几千志同道合的小伙伴一起学习。