查看原文
其他

扩增子图片解读7三元图:美的不要不要的,再多用也不过分

2017-08-29 刘永鑫 宏基因组

点击上方蓝色「宏基因组」关注我们!专业干货每日推送!


背景介绍(Introduction)

宏基因组学

宏基因组学目前的主要研究方法包括:16S/ITS/18S扩增子、宏基因组、宏转录组和代谢组,其中以扩增子研究最为广泛。

目的意义

本系列文章将带领大家结合较新的16S/ITS扩增子相关文献,来理解宏基因组扩增子文章中常用图表种类、图中包括的基本信息,以及作者想表达的结果。

主要内容

本系列文章内容包括:箱线图、折线图、柱状图、散点图、火山图、热图、曼哈顿图、维恩图、三元图和网络图等。

学习思路

  1. 罗列知识点,熟悉专业名词,弄个脸熟,即使理解不深刻起码在阅读中不会有抵触情绪;

  2. 结合具体文章读图,实战两三次,基本就是专业人士了。

将来在大家可以很好理解相关文章图表的基础上,希望对分析、统计和绘图相关技术有进一步学习的小伙伴请积极回复并留言吧。如果本系统文章阅读过万,想学分析的留言过百。我还将详细讲解扩增子分析、统计和绘图各步骤的分析实例和源代码,希望大家多多鼓励和支持。

声明:文章的解读仅代表个人理解和观点,有不足处,请读者积极留言批评指正,互相学习,共同进步。

知识点(Method)

三元图/三元相图 Ternary Plot

三元图有6种英文叫法,其中ternary plot最为常用。三元图是重心图的一种,它有三个变量,但需要三者总和为恒定值。在一个等边三角形坐标系中,图中某一点的位置代表三个变量间的比例关系。常用于物理化学、 岩石学、矿物学、冶金学和其它物理科学,用于表示在同一个系统中三组分间的比例。在群体遗传学中,它被称做Finetti图;在博弈论中,常被称为simplex图。
A ternary plot, ternary graph, triangle plot, simplex plot, Gibbs triangle or de Finetti diagram is a barycentric plot on three variables which sum to a constant. It graphically depicts the ratios of the three variables as positions in an equilateral triangle. It is used in physical chemistry, petrology, mineralogy, metallurgy, and other physical sciences to show the compositions of systems composed of three species. In population genetics, it is often called a de Finetti diagram. In game theory, it is often called a simplex plot.
在高通量测序分析领域中,最常用的是两组间的比较,展示的方式有火山图、曼哈顿图等,而三组互相两两比较需要展示三个图吗?就没有更好的展示方式了吗?三元图的引入解决了这一问题。近年来,常用于展示三组间的相对基因表达或OTU丰度,即美观,又有意义。

三元图的传统应用

上图示例是化学领域中传统应用,展示在空气中(氧21%,氮79%)中混入甲烷(可燃气体)时可燃的范围。图中蓝色线上的任意点,代表其中氧和氮始终保持21:79的比例关系,正是空气的基本性质,即使有甲烷混入氧氮的比例始终恒定;深黄色区域为甲烷在此区域范围内的含量条件下才可燃;而蓝线与深黄区域重合部分,表示只有在空气中混入这一浓度范围内的甲烷才是可燃的。
这部分是科普下背景,看不懂没关系,本文下面重点细讲在生物学扩增子分析中的应用。

三元图点位置的读法

快速看谁多谁少

快速理解位置意义:重心图,你看目标点离那个角近,就是它在相应的组中相对比例高;反之离某个角远,其相对比例也低。

精确读三组比例

1. 双平行线/小等边三角形法:由点向底边做两条平行线建立小正三角形,将底边分成三段,中间为顶部组所占比例,左段为右侧组比例,右段为左侧组比例。

  1. 垂线法:点向三条边做垂线,穿越的格数,即对角组中所占比例;

  2. 向各边零坐标方向作平行线法:按坐标系组的颜色和数值直接读各组比例;(图中所示方法,A和B均略大于0.3,而C接近0.4)

三元图规律

  1. 三角形边平等线上的点,在平行线对应的顶点组所占比例是恒定的。

  2. 顶点到底边直线上的点,上面任意点中两底角组相对比例恒定。

三元图点大小的意义

通常代表基因/OTU的相对表达/丰度,而且为了防止点过大或过小,数据通常还需要经过log2变换,将表达范围从0-1百万,转换为0-20的区间;如果是OTU的千分比,则转换为0-10的区间。

三元图优点

  1. 打破了普通两两比较火山图展示方式,可将三组两两比较和三组的相对关系展示在同张图中;

  2. 两组只能比较一次,三组可以比较三次,可説的结果非常多;

  3. 三是个非常好的数字,2组比较太常见且单调,4组及以上信息量大让人晕,三组正好高端大气上档次,而且还有内涵。

三元图绘制工具

我用过Sigmaplot可以轻松绘制,引文有origin的绘制教程。其实喜欢用R语言的朋友,有很多包可以选择,如grid、ggplot2、ggtern,其中以ggtern最为简便。

看图实战(Result)

示例1. 三元图展示底角两组共有和特有显著富集OTU

Bulgarelli, D., et al. (2015). Cell Host Microbe 17(3): 392-403. Fig. 3 
这篇文章分析大麦不同生态位和不同品种间细菌组间的差异。文中正文使用了3个三元图。

图3.A 展示大麦根部土壤、根际和根三种分态位间差异的OTU,并结合饼形图展示这些显著差异OTU的分类学门/纲水平信息。

  1. 图中元素解释

  • 图中三个顶点上、右、左,分别代表三个实验组,分别是土壤(Soil)、根际(Rhizosphere)、根(Root)

  • 图中的点代表每个OTU,作者只筛选了相对丰度高于0.5%的数百个OTU在图中展示(此图点超过300点重叠起来实在看不清);

  • 点的大小代表OTU的相对丰度,是三组所有样品的平均丰度,通常是千分比,再经log2变换,转换数值范围为0-10之间;

  • 图中点的颜色用于标出显著差异的OTU的类型;本实验以Soil为对照,分两次比较筛选到了Root和Rhizosphere中显著富集的OTU,再将这两组富含OTU中的共有部分标为青色(RR OTUS,即根和根际均富集的OTU);而只在Root中特异显著富含的标为蓝色(Root OUTs);只有Rhizosphere中特异富集的OTU标为粉色;

  • 图中的虚线和数字是各组的坐标系刻度,方便读出每个点在三者中的比例;

  • 图中点的位置代表该丰度在三个组中的相对比例;以图中唯一的粉色点为例,它偏向于右角的根际组,在此组中丰度最高,采用等边三角形法可读出Rhizosphere在三组间的比例为50%左右,相当于其它两者之和,因此为根际组中特异显著富集的OTU;

  • 三元图中用颜色标出了三组显著集的OTU,下面用饼形图进一步补充了这三组的物种分类门水平组成,便于观察变化的是那一类菌;

  1. 图表结果:与土壤相比,根中有许多特异富集的OTU,它们主要是beta或gama变形菌门;根际中富集的OTU大部分与根中相同,且主要来自于拟杆菌门(bacteroidetes);根际中特异富集的OTU只有1个,来自放线菌门(Actinobacteria)。

  2. 经验和技巧:本图实际上是用三元图代替了Root和Rhizosphere显著富集OTU比较的Venn图,图中青色为两组共有的部分,蓝和粉为特有的部分。同时将每个OTU在三组间的相对关系和平均丰度展示出来,信息量大,感觉上比Venn图更直观和可靠。结合饼形图可进一步显示差异OTU的分类情况,如门、纲、目、科或属等级别,使发现的规律一目了然。

常见问题

  1. 为什么有些点更接近各组的顶点,却不是显著富集的OTU?
    因为计算是否显著富集的OTU,不仅与OTU相比对照组富集倍数有关,还有测序量、组内样品间的重复情况等有关,只有综合多方面因素统计,并通过人为设计的显著性P-value值(常用0.05, 0.01或0.001)时才被记为显著富集的OTU。

  2. 物种分类学名称不认识
    我也认识的不多,见的越多,认识的越多。起码常见的几个高丰度的门要认识,如Proteobacteria变形菌门、Actinobacteria放线菌门、Bacteroidetes 拟杆菌门和Firmicutes厚壁菌门一定要认识。

  3. 上图中物种注释中有门、有纲,是怎么回事?
    除Proteobacteria以外都是门水平注释,由于Proteobacteria丰度极高,因此作者将变形菌门中高丰度的alpha, beta, gamma纲单拿出来进一步说明发现的规律,这种方法在分析结果中较常用。

附图注原文:
Figure 3. OTU Enrichment at the Barley Root/Soil Interface Ternary plots of all OTUs detected in the data set with RA > 0.5% in at least one sample in (A) Hordeum vulgare ssp. spontaneum, (B) H. vulgare ssp. vulgare Landrace, and (C) H. vulgare ssp. vulgare Modern. Each circle represents one OTU. The size of each circle represents its relative abundance (weighted average). The position of each circle is determined by the contribution of the indicated compartments to the total relative abundance. Dark blue circles mark OTUs significantly enriched in the root microhabitat (Root_OTUs, FDR, p < 0.05), magenta circles mark OTUs significantly enriched in the rhizosphere microhabitat (Rhizo_OTUs, FDR, p < 0.05), and cyan circles mark OTUs significantly enriched in both microhabitats (RR OTUs, FDR, p < 0.05).

示例2. 双三无图展示不同区域特异OTU,同对比较基因型间变化

Zgadzaj, R., et.al., 2016 .PNAS 
这篇文章分析了百脉根根瘤的微生物组成,同时在根瘤缺失突变体条件下发现根和根际微生物均有较大差异的变化。
文中正文两个组图中使用了3个三元图,附录中5个图使用了10个三元图。纯分析发的PNAS。可见三元图很有市场。

图4.A/B 三元图展示同一基因型百脉根不同取样区域/生态位(Compartment)中特异OTU。
C/D 用箱线图进一步展示上面发现的每类显著富集OTU的总体相对丰度

  1. 图中元素解释,以A图为例

  • 最上方的黑体加粗Wild-type表示此图的材料类型为野生型,与B图中的Mutant突变体对应;

  • 图中三角顶点分别为三种compartment,括号中数量为此组中显著富集的OTU数量;

  • 图中点的大小代表三组样品的组内平均值,再求平均值的相对丰度,

  • 位置代表在三组中相对比例,离那个顶点近就是其在此顶点组相对于其它组更高;

  • 颜色代表OTU在三组中两两比较的显著富集情况,与上图只比较了两次不同;此图比较了6次,以Soil特异富集的棕色OTU为例说明:先进行Soil与Root比较确定Soil中显著富集的OTU,再将Soil与Rhizosphere比较确定Soil中显著富集的OTU,再将这两组显著富集OTU取交集,并将图中相应的点标记为棕色;同理另外两组Root和Rhizosphere中标记显著富集的OTU,都是需要两次比较,再取并集得出来的。可见此图的计算过程有多大的工作量。图中其它非两次比较显著富集共有OTU均标为灰色,作为背景色。

  • 下面的箱线图对应上方的三元图,展示这些找到的各compartment特异的OTU在不同部分中的相对丰度分布;

  1. 图表结果:图中显示了各实验组中相对于其它两组特异富集的OTU的数量和相对丰度情况,而且看到了野生型(A)和突变体(B)中明显的变化,如突变体中根特异的OTU减少,而根际特异增加这种明显的样式,以说明该基因对根和根际微生物组的影响。

  2. 经验和技巧:三元图三组特异富集图(本图样式),本质上是6次两两比较和三次韦恩图比较的结果,信息高度概括,并从多方面展示,非常值得使用;同时两个三元图并列,让读者去找差异,即让读者参与,又让发现的差异深入人心;本图结合箱线图,进一步展示找到的差异,从丰度水平进行对比,结果更直观。

附图注原文:
Fig. 4. Ternary plots depicting compartment RA of all OTUs (>5 ‰) for WT samples (A; WT; n = 73) and mutant samples (B; nfr5-2, nfr5-3, nin-2, and lhk1-1; n = 118) across three soil batches (CAS8–CAS10). Each point corresponds to an OTU. Its position represents its RA with respect to each compartment, and its size represents the average across all three compartments. Colored circles represent OTUs enriched in one compartment compared with the others (green in root, orange in rhizosphere, and brown in root samples). Aggregated RAs of each group of enriched OTUs (root-, rhizosphere- and soil-enriched OTUs) in each compartment for the WT samples (C; WT; n = 73) and mutant samples (D; nfr5-2, nfr5-3, nin-2, lhk1-1; n = 118) are shown. In each compartment, the difference from 100% RA is explained by OTUs that are not significantly enriched in a specific compartment.

Reference

  1. http://baike.baidu.com/item/%E4%B8%89%E5%85%83%E7%9B%B8%E5%9B%BE

  2. https://en.wikipedia.org/wiki/Manhattan_plot

  3. Origin绘制三元图 http://jingyan.baidu.com/article/a24b33cd1226f919fe002b2c.html

  4. Bulgarelli, D., et al. (2015). “Structure and function of the bacterial root microbiota in wild and domesticated barley.” Cell Host Microbe 17(3): 392-403.

  5. Zgadzaj, R., Garrido-Oter, R., Jensen, D.B., Koprivova, A., Schulze-Lefert, P. and Radutoiu, S., 2016. Root nodule symbiosis in Lotus japonicus drives the establishment of distinctive rhizosphere, root, and nodule bacterial communities. Proceedings of the National Academy of Sciences, 113(49), pp.E7996-E8005.

想了解更多16S/ITS/18S扩增子、宏基因组、宏转录组文献阅读和分析相关文章,快关注“宏基因组”公众号,干货第一时间推送。

系统学习生物信息,快关注“生信宝典”,那里有几千志同道合的小伙伴一起学习。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存