扩增子SCI套路--1微生物群落结构差异分析
本文转载自“态昌基因”,已获授权。
今天小昌就先给大家理一理微生物群落结构差异分析方法与策略方面的知识。
1. 菌群整体结构分析及展示
首先,拿到数据后我们会对各个分类水平(门、纲、目、科、属、OTU)做物种丰度统计表,再用表格去做各种图形化展示,从而获得对各样本菌群的整体认识:如哪些菌是优势菌,同组样本及不同组样本菌群结构是否相似或是否有较大差异。
那么,我们先来看看如何图形化展示菌群结构:常见的有多样本的群落分布柱状图,样本少的话还可以放饼图;还有类似MEGAN输出的单样本或多样本总体分类学组成树状图、GraPhlAn软件做的物种组成树状图等等。
我们还是来一起看图说话吧。
上图是属水平的菌群组成图,数据来源于两个不同的个体不同时间段的肠道菌群分析结果,大家会发现,通过柱状图即可轻松看出两个个体优势菌群的不同。柱状图虽然简单,但却能比较直观的展示出样本的优势菌群组成,并能够做初步的比较,在文章中相当常见,可在各分类水平作图。文章中常见的为门、属或者科水平的作图。
上图是多样本总体分类学组成树状图,在各分类水平比较样本间物种组成。该图的优点是能够从多个分类水平展示及比较样本间的物种组成,缺点是一次能够展示的样本数较少,且信息较多,不容易说明问题。
上图是用GraPhlAn软件对组内所有样本或单个样本的OTU物种注释结果进行总体展示,可以从各分类水平境微生物的关系及丰度差异。一般展示的最低分类级别为属,一个门一种颜色,节点大小表示物种丰度,默认标注丰度在 1%以上的物种。
2. 样本中微生物复杂性评估(α-diversity)
做微生物群落结构分析时,一般会对样本中微生物复杂性评估,即通过一些指数(如OTU数目,α多样性指数)来了解样本中微生物的复杂度。主要从样本包含的微生物种类多少和丰度高低分布(均匀度)来评估,结果有观测到的OTU数目(Observed_otu)、预测的OTU数目(Chao和ACE) 和多样性指数值(Shannon指数和Simpson指数)等。常见的图示有Rarefaction曲线及Shannon曲线,通过曲线可粗略观察组内及组间样本的多样性是否有差异。如下图在作图时每组样本一种颜色,通过Rarefaction曲线可以看出,相比Con对照组,T处理组样本的物种丰富度更高一些;Shannon曲线显示出,相比Con组T组的多样性更高一些。
还可以进一步做组间α多样性指数来说明组间差异,结合结果来说明实际问题。如下图可说明T组相比Con具有更高的α多样性,且差异显著。
3. 如何灵活应用PCA,以及基于Bray-cuits, Weighted Unifac等距离的PCoA做菌群整体结构差异分析
这块涉及到很多人所津津乐道的β多样性。
β多样性是对不同样本/不同组间样本的微生物群落构成进行比较分析。我们可通过OTUs的丰度信息表进行样本间距离计算;也可以利用OTUs之间的系统发生关系,计算Unweighted Unifrac及Weighted Unifrac距离,然后,通过多变量统计学方法主成分分析(PCA, Principal Component Analysis),主坐标分析(PCoA,Principal Co-ordinates Analysis),非加权组平均聚类分析(UPGMA,Unweighted Pair-group Method with Arithmetic Means)等分析方法,从中发现不同样本(组)间的差异。
说人话就是:不同样本/不同组间比较常见的分析方法有PCA、PCoA、NMDS等,在分析过程中会用到Euclidean, Bray-cuits, Weighted Unifac, Unweighted Unifrac等多种距离算法。这些算法并没有高低之分,主要根据不同的研究目的而采用更为适合的方法进行数据展示。如果实在不知道哪一种方法更适合,可以同时使用多个方法进行分析,最终挑选最能解释生物学问题的方案。下面我们看看实际项目中如何灵活应用吧。
基于OTU水平的同一组数据,小昌分别选用PCA, 基于Bray_cutrtis, Unweighted Unifrac, Weighted Unifac的Pcoa及Nmds,共5种分析方法做了展示。
大家会发现效果不一,让我们先来透露下这些结果背后的数据的故事。这组数据来源对照组、两个不同时期的处理组。大家可以看到:PCA, 基于Bray_cutrtis, Unweighted_Unifrac距离的Pcoa,Nmds四种方法都能够将Con组与其它组分开,但PCoA效果要好于PCA;能将两个处理A和B区别开的,Bray_cutrtis、Unweighted Unifrac明显要好于其它方法。仔细观Bray_cutrtis和Unweighted_Unifrac两个结果会发现,Unweighted_Unifrac方法对于Con组的聚类效果要好于Bray_cutrtis组,而Bray_cutrtis算法对于B组的聚类效果更好些,为什么会出现这种结果呢,这就要进一步挖掘数据背后的原因了。对于Con组,由于是背景完全一致的小鼠,故肠道菌群的类型是基本相同的(即菌的进化关系较一致),Unweighted UniFrac考虑物种的进化关系及物种有无的变化,所以对于Con组,样本间距离更近;而A组和B组样本所用的处理方法比较剧烈,所以不论从菌的类型(菌的进化关系)及丰度上均发生很大的改变,所以Bray_cutrtis, Unweighted Unifrac两种算法都能较好的区分。细心的朋友可能还发现,这里面还有一个E图的坐标轴是PC2和PC3,这里是为了进一步说明Unweighted_unifrac Pcoa这种方法,能将A组和B组区很好的区分开来。
一般地,做了组间差异分析后,看文献时会发现其中还有一些显著性差异的计算。如相似性分析(Anosim)、多因素方差分析(Adonis)及多元响应置换分析(Mrpp)等,以上分析方法均可用于判断组间群落结构的差异是否显著。这些分析与PCoA、NMDS等分析结果配合使用,增加结果的说服力。
饭不能一口吃饱,话不能一次说完,欲知后续,且请听小昌下回分解。
猜你喜欢
写在后面
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外七十多位PI,七百多名一线科研人员加入。参与讨论,获得专业指导、问题解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职务”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。
学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”