查看原文
其他

凌波微课|扩增子研究第十四讲:扩增子测序结果中的环境因子关联

The following article is from 凌波微课 Author Bonnie

学生信,做分析,就上凌波微课

扩增子测序结果中的环境因子关联 
同学们,大家好!学生信,做分析,就上凌波微课!欢迎大家扫描下方的二维码关注“凌波微课”,加入凌波微课交流群,参与我们的课程和课下交流。
▼更多精彩,请关注我们▼

把时间交给阅读
我是主讲人Bonnie,今天我们给大家分享的内容来自公众号“红皇后学术”,主题为:

扩增子测序结果中的环境因子关联

对于一些实验室体系的研究来说,主要目的是探索特定的功能微生物或特定处理过程对微生物群落的影响。而对于现实环境的研究更多的希望了解微生物群落变化的影响因素是什么?什么因素调控了微生物群落?这一问题通常是通过微生物群落的数据与相关的环境因子进行关联来回答。

 

PART 1 环境因子关联分析
一般情况下,环境因子指的是样本的一些生理生化指标,常见的比如温度、pH、各种形态N浓度、磷酸盐、COD或者特定污染物比如重金属、石油类物质等等。

值得注意的是,环境因子关联中的环境因子可以是任何类型的数据,不要局限于我们常见的环境指标,比如同一环境样本中其它类型物种的组成结构,像水环境中的浮游动植物等,还有在动物共生微生物研究中,宿主动物相关基因的表达水平、代谢组学得到的代谢物组成数据等等,都是可以用来做关联分析。

因为环境因子的种类非常多样,就会出现定性数据和定量数据,在定量的数据之中,由于因子本身的差异,可能会导致数据之间差异特别的大,不同因子的数据之间可能会有几个数量级的差别。

我们知道大部分的统计学分析算法都是基于正态分布的数据进行的,因此当数据出现不符合正态分布情况的时候就会出现比较奇怪的结果。在进行环境因子关联分析之前,根据数据的实际情况,可能需要对其进行标准化和正态化的处理。

标准化和正态化标准化Standardization的过程可以消除不同因子变量标尺或单位不同所带来的差异,这个做法与之前讲到的物种组成丰度聚类热图中的标准化过程是一样的,通过这种处理,可以将原始的数据转换为不同数据之间的变化倍数,从而消除由于不同类型数据真实值之间过大的差异导致的统计学分析误差。

正态化Normalizing:对于偏离了正态分布的数据,可以通过一些转换对其进行校准,例如Helinger transformation或者Chord transformation。处理之后的数据会有效的提高关联分析的可靠性。

这里有一个环境因子关联所用到的多元统计方法的介绍和比较,大家可以自行了解一下。
在进行环境因子关联分析的时候,通常我们会有很多个不同的环境因子,但不是所有的环境因子都会对微生物群落产生实际的影响,尤其是当环境因子的数目过多的时候,部分无意义的环境因子可能还会影响最终的结果。因此,在进行环境因子关联之前,首先要对这些环境因子进行一个初步的筛选,剔除掉一些无效的因子
环境因子筛选最常见的方法

  • VIF分析
  • BioEnv分析

VIF分析是针对所有环境因子进行共线性分析,最后会给出每个环境因子的得分,VIF分析通常以10作为边界,当VIF得分大于10的时候,通常意义上就认为这个环境因子是无效的,可以从后续的分析中剔除。

BioEnv分析是计算不同环境因子组合与微生物群落之间的相关性,最后通过correlation的结果选出对微生物群落影响最大的环境因子组合。


PART 2 环境因子相关性分析方法

CCA/RDA分析

筛选完环境因子之后,我们就可以来进行环境因子与微生物群落之间的关联分析,最常使用的方法就是CCA和RDA,这两个方法其实是一个东西,只不过其所使用的模型不同,RDA是基于线性模型,而CCA是基于单峰模型。

我们在文章中经常会发现,有些研究使用的是RDA,而有些研究使用的是CCA,那么到底这两种方法如何选择呢?
这需要我们先对微生物群落进行一个DCA分析,根据DCA分析结果中的梯度长度指标进行选择,如果梯度长度小于3,则选择RDA分析,如果大于4,则选择CCA分析,如果在3-4之间,两种分析方法都可以
CCA和RDA也是一种降维分析,结果的形式与上一节说的PCA和PCoA大体上是一样的,在图中样本的微生物群落以不同的形状表示,样本点之间的距离同样表示样本微生物群落的相似性,横轴和纵轴的标签给出了环境因子对微生物群落变化的解释比例。
在CCA和RDA中,会以箭头的形式表示环境因子,箭头的长度表示环境因子对微生物群落变化的贡献程度,箭头越长,表明该环境因子对微生物群落的影响越大箭头的方向表示环境因子与微生物群落变化的关系,比如在这幅图中,我们可以看到pH的箭头指向绿色的样本,而COD的箭头却正好相反,那么我们就可以得出微生物群落向绿色分组转变可能是由于样本的pH增加而COD含量降低所导致的。



基于UniFracdb-RDA分析

有时我们使用CCA或RDA进行分析得到的结果可能并不理想,这可能是由于部分数据类型并不适合CCA或RDA的算法,此时可以尝试使用db-RDA,有可能会得到理想的结果。

db-RDA结果中各参数的意义与CCA和RDA是一致的,只不过db-RDA在计算的过程中首先进行了PCoA,然后使用PCoA得到的各样本主要PC数值代替了原本的微生物OTU丰度数据。



Aggregated boosted tree (ABT)分析

Aggregated boosted tree (ABT),可以用来评估环境因子对微生物群落差异的贡献大小,条形的长度代表贡献程度,能够用来识别对微生物群落影响最主要的环境因子。



多元回归树MRT

多元回归树MRT通过分析细菌相对丰度与环境因子的关系,能够给出样本根据环境因子进行区分的阈值,可以用来判断所研究的环境中,目标环境因子在什么范围以内对微生物群落影响较小,有点类似于污染物的环境标准。



VPA分析

上述介绍的这些分析结果给出了环境因子与微生物群落的关系,但是在一些研究项目中,尤其是环境因子能够被分为2类或者3类的情况下,打个比方,比如在一个研究市政和重金属的复合污染对微生物群落影响的项目中,我们分别测定了常规的市政污染指标,比如氨氮、COD等等,同时测定了样本中各种重金属的含量,此时我们很自然的就想要知道到底是哪一种污染对微生物群落的影响更强呢?

此时需要用到的分析结果就是VPA,也叫做pCCA或者pRDA,通过对环境因子进行分类,然后分别计算不同因子对于微生物群落变化的解释程度,同时评估不同类型因子的相互作用对微生物群落变化的解释,最终给出到底是何种因素对微生物群落的影响更强。
这个结果类似与Venn图,不同颜色的圆圈代表不同类型的环境因子,圆圈相交的部分表示不同类环境因子的相互作用,并且给出了不同位置对微生物群落变化解释的百分比。

不过由于这一结果要求对环境因子有明确的分类,因此在真正的研究中使用的频率还不是很高,反而是在关于抗生素抗性基因的研究中经常使用,用来确定环境因子、可移动基因单元以及细菌群落对于抗生素抗性组变化的贡献程度,这幅图也是来自于一个抗生素抗性基因的研究。



相关性分析

以上讲的几个分析结果都是用来分析环境因子与微生物群落整体结构的关系,如果想要知道具体哪些物种丰度的变化与环境因子有关,就需要用到相关性分析

最常见的结果展示方式就是相关性热图,在图中使用色块的颜色表示物种与环境因子的相关系数,如果相关性检验的p值小于0.05,则在色块中标注星号表示物种与环境因子显著相关。

与差异检验的统计学方法一样,相关性分析首先要求有两个变量,比如物种丰度和环境因子,而且这两个变量是要成对的,两个变量的数据要一一对应,并且两个变量都是连续变量,最后要求两个变量的标准差不为零,也就是说两个变量中不能出现一个变量所有的数值都是相等的情况。

相关性分析的方法常用的有两种,分别是Pearson和Spearman,如果两个分析变量均符合正态分布,则使用Pearson,如果其中一个不符合正态分布,则使用Spearman。
在使用相关性分析的时候,由于微生物群落数据的特点,物种非常多,但很多时候样本数目却并不是很多,所以可能会得到非常多的显著相关结果,这就需要在相关性分析的过程中,通过p值的校准来去除假阳性。

常用的p值检验方法有BonferroniFDR,FDR也就是常说的Q-value,Bonferroni更为严格,得到的结果可能更少,有时候校准之后可能一个相关的都没有了,各位根据自己数据的实际的结果进行选择就好,两种校准方法都是被认可的。

除了物种丰度与环境因子的相关性之外,还可以通过计算物种beta多样性距离与样本间环境因子差值之间的相关性,听起来好像比较绕口,但这是分析环境因子对微生物群落差异贡献程度的一种有效办法。

样本间的beta多样性距离就是样本间微生物群落的差异,而环境因子的差异就是样本间环境因子的差异,评估这两个差异之间的相关性有时要比直接分析物种丰度与环境因子的真实值更加有效。

此外还有一种评估微生物群落整体结构与环境因子相关性的方法,就是结构等效模型SEM,其通过一种类似网络的方式展示微生物群落与环境因子的关系,结果中箭头的方向代表作用方向,实线代表直接相关,虚线代表间接相关,线的粗细代表相关性的强弱,并且给出了相关系数和显著性检验结果。


PART 3 线性回归

相关性分析能够告诉我们物种丰度与环境因子有相关性,但是没法告诉我们是物种丰度先变还是环境因子先变,这一点在环境的研究中可能关注的比较少,但是在其它的研究中,比如疾病相关肠道菌群的研究中还是很重要的,需要判断是因为肠道菌群变化导致了疾病还是因为疾病导致了肠道菌群发生变化?

回归分析是判断是否能够通过一个变量预测另一个变量,也就是说在相关性分析的基础上添加了方向的概念。

回归的概念很大,这里只是简单的介绍一下最基础的线性回归,在实际的应用中,大家可以根据自身的目的合理选择。

今天的分享就介绍到这里~感谢来自“红皇后学术”的内容分享。玩转科研就来凌波微课,我们下期见!

往期精彩




END



扩展阅读

加群、交流和投稿

加群、投稿、转载、交流、合作等一切事宜!!



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存