该内容已被发布者删除 该内容被自由微信恢复
文章于 2017年8月9日 被检测为删除。
查看原文
被用户删除
其他

扩增子图表解读1箱线图:Alpha多样性,老板再也不操心的我文献阅读了

2017-07-19 刘永鑫 宏基因组


作者: 刘永鑫
日期:2017-6-17
阅读时长:10 min

宏基因组学

宏基因组学目前的主要研究方法包括:16S/ITS/18S扩增子、宏基因组、宏转录组和代谢组,其中以扩增子研究最为广泛。

目的意义

本系列文章将带领大家结合较新的16S扩增子相关文献,来理解宏基因组16S扩增子文章中常用图表种类、图中包括的基本信息,以及作者想表达的结果。

主要内容

主要内容包括:箱线图、折线图、散点图、柱状图、火山图、热图、曼哈顿图、维恩图和网络图等。

将来在大家可以很好理解相关文章图表的基础上,希望对分析、统计和绘图相关技术有进一步学习的小伙伴请积极回复并留言吧。如果本系统文章阅读过万,想学分析的留言过百。我还将分享扩增子分析、统计和绘图的各步骤的分析实例和源代码,希望大家多多鼓励和支持。

声明:文章的解读仅代表个人理解和观点,有不足处,请读者积极留言批评指正,互相学习,共同进步。

箱线图

箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在宏基因组领域,常用于展示样品组中各样品Alpha多样性的分布。

箱线图图示教程

想特别仔细学的去查各种百科,本图示教程来自斯坦福 医学统计课程第一单元第三节,PPT32-33页,直接上图。

第一种情况,最大或最小值没有超过1.5倍箱体范围;

第二种情况,最大或最小值超过1.5倍箱体范围,外位延长线外,即异常值(outliers);  

箱线图绘制方法

推荐阅读并实际操作陈同博士写的文章:

R语言学习 - 箱线图(小提琴图、抖动图、区域散点图)

R语言学习 - 箱线图一步法

Alpha多样性

知识背景:Alpha多样性计算方法
常见的丰度估计方法有Shannon, Chao1和Observed OTU和PD whole tree等。我最喜欢用Observed OTU结果为整数,但只有物种种类信息,没有丰度信息,数值范围一般为几百至几千不等,范围很大,与研究对象有关;大家最常用的Shannon index 数值为1-10左右的小数,是综合物种数量和丰度两个层面的结果;Chao1是根据出现1、2次的OTU来估算总体;还有PD whole tree是考虑物种进化关系权重,认为分类学上非常上近的物种存在一定相关性;详细计算方法见:Alpha diversity measures

示例1

Edwards, J., et al. (2015). PNAS Fig. 1B
这篇文章分析了水稻根不同区域的细菌组成,16S分析文章较系统的作品,两年被引用147次,推荐阅读。

图1.B 箱线图展示样品内的多样性(Alpha diversity)

  • 图中元素解释

    • Y轴标签Estimaated species Richness代表估计的物种丰富度信息,刻度范围从0-2000可能代物OTU数量,高低对应物种丰富度即数量的高低;根据我的理解Y轴的刻度应为Observed OTU(即直接统计测序样品中按97%聚类16S的种类,虽然作者説是Shannon);

    • X轴将标签放在了上方(更常见位于下方),分别代表三个地区,作者采用按地区先分组,因为不同地区环境差异较大,一般先把主要差异因素分开;其次,这篇文章更关注的是水稻不同部分的微生物组,不是部分要在同一地点下进行比较才是单因素变化的分析;

    • 右侧图例表示不同取样位置:从上到下分为土(Bulk Soil)、根际(Rhizosphere)、根表(Rhizoplane)和根内(Endosphere)四类,对应图中每个地区中箱体的不同颜色;

    • 图中颜色箱体代表该组数据中间50%的分布区间,中间线为中位数,上下延长线端点分两种情况:如果范围小于1.5倍箱体则为最大或最小值;否则最远为1.5倍箱体长度的线。详细讲解可观看斯坦福 医学统计课程第一单元

  • 图表意义:从不同地区看,可以看到多样性差别,代表土壤和环境条件可以影响微生物组;从取样的不同部分看,发现多样性差别极大,且不同地区有相同趋势;

  • 图观察规律或结论:从根际-根表-根内,细菌的多样性逐渐下降的。不同地区的差别小于不同部分的差别。

    附图注原文:
    (B) Within sample diversity (α-diversity) measurements between rhizospheric compartments indicate a decreasing gradient in microbial diversity from the rhizosphere to the endosphere independent of soil type. Estimated species richness was calculated as eShannon_entropy. The horizontal bars within boxes represent median. The tops and bottoms of boxes represent 75th and 25th quartiles, respectively. The upper and lower whiskers extend 1.5× the interquartile range from the upper edge and lower edge of the box, respectively. All outliers are plotted as individual points.

示例2

Beckers, B., et al. (2017). Microbiome 5(1): 25.  
这篇文章分析了白杨树不同区域的细菌组成和差异,16S分析中非常中规中矩,且而没有任何后续实验,但在今年还能发这么好的杂志,大家可以分析一下原因。 

图2. 箱线图展示细菌群体的Alpha多样性。四个箱体分别代表根际土(Rhizosphere soil)、根内生菌(Root endosphere)、茎内生菌(Stem endosphere)、叶内生菌(Leaf endosphere)。

  • (A) 采用Observed OTUs方法估计OTU丰富度(richess),即有多少物种;

  • (B) 采用Pielou方法估算OTU的均匀度(evenness),即各OTU相对丰度间关系;是一种常见enenness指数算法,计算方法是将Shannon-Wiener熵除以OTU数量的自然对数;一般生态学领域比较关注,功能研究者更关注最终的差异OTU;

  • (C) 使用反向Simpson指数计算多样性(diversity),是mothor中的方法,来自dominance指数的变形,而dominance计算为每个OTU比例平方再求合,与shannon的方法类似,原理是想用一个数代表整体群体中每个OTU的数量和丰度信息(richness和evenness),我更常用Shannon方法;

  • 差异分析:整体上使用ANOVA统计,存在显著差异,P<0.0001;图中字母代表组间组间Turkey两两比较的结果,相同字母的箱体代表组间无显著差异,而不同字母组间存在显著差异;有时会出现同一组出现2个字母的情况,是一种过渡状态,与这两个组均无显著差异。

  • 图片优点:(A) Observed OTU数量展示使用了截断图,因为根际土中微生物数量是非常大的,而内生菌种类很少,使用截断图减少图中留白更加美观;不同种组织的颜色选用与实物相近,使人产生亲切感(根深棕,茎浅绿和叶深绿);

  • 图片解读:根际土中细菌近千种;根中内生只有2-3百种(也有可能根没洗干净,技术上不容易区分根表还是根内);茎和叶百种左右(其中部分也可能只是来自于表面或污染);此外结果的排列给人传达了由外到内,由上到下有特种数量下降的趋势;

附图注原文:
Fig. 2 Alpha diversity estimates of the bacterial communities. a OTU richness estimates (number of observed OTUs). b Pielou’s evenness estimates. c Inverse Simpson diversity indices. Box plots display the first (25%) and third (75%) quartiles, the median and the maximum and minimum observed values within each data set. Alpha diversity estimates represent 15 biological replicates for the rhizosphere soil and root samples and 11 replicates for the stem and leaf samples and were calculated in mothur with 10,000 iterations. Data were analyzed by means of one-way ANOVAs and Tukey-Kramer post hoc comparisons. The overall plant compartment effects (F(DFn, DFd) and P value) are displayed at the top of each graph. Significant differences (P < 0.05) across plant compartments are indicated with lowercase letters

知识背景:主流的分析流程

  1. PNAS作者使用QIIME分析流程;2010发表在Nature Method上,被引7689次,是目前比较主流的分析方法,而且持续的维护和创新,目前正在开发QIIME2。

  2. Microbiome作者的分析流程为mothur,2009年发表目前被近7000次;

  3. 另外主流的的软件是Usearch,2010年发表在Bioinformatics,目前引用4947次;原来只是一个小小的高速序列聚类和比对软件,目前被作者开发成了扩增子分析流程,其中的关于序列聚类的算法UPARSE由作者单枪匹马发表在Nature method上,被引1424次;其实QIIME的聚类和比对默认都是使用此软件,核心算法是目前的主流;推荐使用。

    1. 优点:作者一直在更新;体积小巧;安装方便,依赖关系极少(安装过QIIME的应该都想哭);

    2. 缺点:64位版收费(这么好的软件,收费也值得买);部分功能还需使用QIIME脚本,过计将来可以全自己搞定,因为作者太强大;

Reference

  1. 箱线图百度百科 http://baike.baidu.com/item/%E7%AE%B1%E5%BD%A2%E5%9B%BE?fromtitle=%E7%AE%B1%E7%BA%BF%E5%9B%BE&fromid=10101649

  2. Alpha多样性维基百科 https://en.wikipedia.org/wiki/Alpha_diversity

  3. Edwards, J., et al. (2015). “Structure, variation, and assembly of the root-associated microbiomes of rice.” Proceedings of the National Academy of Sciences 112(8): E911-E920.

  4. Beckers, B., et al. (2017). “Structural variability and niche differentiation in the rhizosphere and endosphere bacterial microbiome of field-grown poplar trees.” Microbiome 5(1): 25.

  5. Caporaso, J. G., et al. (2010). “QIIME allows analysis of high-throughput community sequencing data.” Nat Methods 7(5): 335-336.

  6. Schloss, P. D., et al. (2009). “Introducing mothur: Open-Source, Platform-Independent, Community-Supported Software for Describing and Comparing Microbial Communities.” Applied and Environmental Microbiology 75(23): 7537-7541.

  7. Edgar, R. C. (2010). “Search and clustering orders of magnitude faster than BLAST.” Bioinformatics 26(19): 2460-2461.

  8. Edgar, R. C. (2013). “UPARSE: highly accurate OTU sequences from microbial amplicon reads.” Nat Meth 10(10): 996-998.

  9. http://scikit-bio.org/docs/latest/generated/skbio.diversity.alpha.html

  10. https://lagunita.stanford.edu/courses/Medicine/MedStats-SP/SelfPaced/about

  11. https://www.mothur.org/wiki/Invsimpson

  12. R语言学习 - 箱线图(小提琴图、抖动图、区域散点图)

  13. R语言学习 - 箱线图一步法

想了解更多宏基因组、16S分析相关文章,

快关注“宏基因组”公众号,干货第一时间推送。

系统学习生物信息,快关注“生信宝典”,

那里有几千志同道合的小伙伴一起学习。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存