查看原文
其他

凌波微课|扩增子研究第十五讲:扩增子测序结果中的个性化分析

Editor's Note

倒数第二讲了,下周这个系列就完结了~

The following article is from 凌波微课 Author Bonnie

学生信,做分析,就上凌波微课

扩增子测序结果中的个性化分析 
同学们,大家好!学生信,做分析,就上凌波微课!欢迎大家扫描下方的二维码关注“凌波微课”,加入凌波微课交流群,参与我们的课程和课下交流。
我是主讲人Bonnie,今天我们给大家分享的内容来自公众号“红皇后学术”,主题为:

扩增子测序中的个性化分析

这一讲主要包含一些个性化分析内容,通常在公司标准分析结果中不体现,在这里给大家简要介绍一下。

 

Mantel test和普氏分析

首先承接上一节的环境因子关联来先说一下Mantel test和普氏分析,这个分析可以评估两个多元数据之间的相关性,比如你的微生物群落数据和环境因子数据的整体相关性,或者细菌群落组成与抗生素抗性组的相关性,细菌群落与浮游动植物之间的相关性等等。
Mantel test的结果很简单,只有相关系数和显著性p值,p小于0.05就表明两个多元数据集之间具有显著的相关性。
这个图是普氏分析的结果,不同颜色的点分别代表两个不同的数据集,点之间的箭头表示这两个点来自于同一个样本。普氏分析同样会给出相关系数和显著性p值,同样是p值小于0.05表明两个多元数据集之间具有显著的相关性。

在Mantel test和普氏分析应用越来越多的时候,在一篇NCS上出现了这个图,将环境因子的相关性热图与Mantel test的结果相结合,一出现就成为了网红
这幅图的上三角是环境因子的相关性,颜色和大小代表相关系数,下三角是微生物群落结构与环境因子之间的Mantel test结果,线的颜色表示Mantel test的显著性,线的粗细代表Mantel test的相关系数。
 

样本与物种共线性分析

样本与物种共线性分析,这个结果也是目前比较热门的,本质上说的还是样本物种组成。

这个图分为两个半圆,一边代表不同的样本,另一边代表主要的物种,样本与物种之间通过连线连接,使用不同的颜色表示不同的物种,方便识别,连线在样本端的宽度代表该样本中该物种的相对丰度,连线在物种一端的宽度表示该样本中的这一物种在所有样本该物种中的比例。一般在文章中代替物种组成丰度条形图出现。
 

分组诊断模型预测

接下来介绍的这两项分析结果是通过筛选不同类型样本间的biomarker,进而利用这些biomarker来判断未知样本中某种不易被发现的性质。

这两项分析最常见的应用是在临床疾病的研究中,通过少数肠道微生物丰度判断病人是否具有某种疾病。而在生态环境领域的应用还不是特别普遍,主要应用是筛选biomarker从而通过少数微生物来预测整体的微生物群落,比如说可以尝试建立利用少数标志微生物的丰度评估某个环境的污染程度,但是要想实际应用可能还有待研究。

随机森林分析的主要结果是筛选到的biomarker,能够给出不同微生物对样本分组的重要程度,从而得到对样本分组影响最重要的物种作为biomarker。之后可以结合ROC曲线判断这些biomarker对位置样本分组区分的准确性,从而筛选得到最优的biomarker组合。
ROC曲线如下图,判断效果好坏的标准是AUC的值,曲线下方的面积就是AUC,范围在0.5-1之间,AUC越接近于1表明biomarker对样本的区分效果越好。
接下来到了看起来很酷炫的网络分析,网络分析展示的方式也是多种多样,但其实是相关性分析的另一种展示形式

在网络分析中节点、边和度的概念是大家需要了解的

  • 聚类网络系统中所有可能相互作用单元的集合,以边连接节点构成;
  • 节点 (node)系统中的各个单元,可以是某一物种、基因或环境因子;
  • 边 (edge)其相连的两个节点之间具有某种相互作用;
  • 度 (Degree)一个节点与其它节点相连接的边的数目,一个节点的度越高,那么与它相关的其它节点就越多,这个节点在整个的体系中的作用也越重要
  • 模块化 (Modularity)表示网络是否可以分为若干个模块的参数,同一模块 (Module) 内的节点具有相同的变化模式;
  • hub单一模块中具有最高degree的节点,可以作为该模块内其它节点的指示者,理论上可以用该节点所代表物种的丰度评估模块内其它物种的丰度;
  • 每个模块的hub可以作为该模块内其它节点的指示者;
  • 图中不同的颜色表示根据相关性将物种和关联基因聚为不同的模块,点的大小表示该节点degree的大小。
网络分析的方法有好多种,我们根据不同的情况应当选择适合于自身数据的网络分析方法,这样才能得到更加准备、合理的结果。

这其中主要是涉及到两个概念:一个是组成效应,另一个是稀疏度

先来说组成效应,因为我们的微生物群落数据是相对丰度,将所有物种的丰度都转换为在整个群落中的百分比,那么当其中一种物种丰度升高时,其它物种的丰度自然就会降低,这就造成了物种之间有一个天然的负相关,但是这种负相关是一种由于数据本身的性质所造成的假象,而不是真实的相关

再来说稀疏度,在我们的数据中,可能会有一部分物种只在少数样本中检出,而在大部分样本中丰度为0,那么进行相关性分析的时候,由于有很多个0的存在,就会导致本来不具有相关性的两个物种,可能就得到的显著相关的结果,这同样是一种假阳性的结果。这里给大家推荐一个网络分析方法选择的标准,大家可以根据自身数据的情况,选择最适合的方法进行分析。


微生物溯源SourceTracker

接下来是并不怎么常用但结果却挺有用的分析,首先来说一下微生物溯源,也就是分析样本中来源于不同环境的微生物的比例。
这个分析可以在QIIME中实现,也有专门的R包来做这个工作,得到的结果分别以饼图、条形图和面积图展示样本中不同来源物种的比例。使用这个分析有一个前提,就是要有作为来源的数据,打个比方,如果想要知道室内空气中的微生物有多少来自于人体,就要有人体共生微生物的数据作为来源文件;或者想要知道河口附近的微生物有多少来自于河流,就要有河流本身的微生物数据作为来源;如果想要知道一个污染排放点源下游有多少微生物来自于排放的污染物,就要有排放物本身和上有样本的数据作为来源。

随机性和确定性过程

随机和确定性过程对微生物群落作用的相对重要性,可能是得益于经过不断的研究,大家终于发现了现实环境的复杂性,不再过分强调自己原本研究的目的,所以越来越多随机因素决定微生物群落的研究结果被发表出来。
随机性过程主要包括物种的出生、死亡、迁移、扩散等过程,而确定性过程包括生境过滤和生态位分化,随机性和确定性过程之间的平衡可以由环境因素来调节。简而言之,一个是我们无法预测和判断的干扰,另一个是我们能够明确的影响因素。
这项分析是基于样本的NTI指数Nearest Taxon Index,最近种间亲缘关系指数)首先要计算各样本微生物群落的NTI指数,然后根据样本的分组情况进行判断,如果组内样本平均NTI值大于0,表示该组样本没有过度分散,可以进行后续的分析。之后计算不同样本间的NTI距离,有点类似于beta多样性的概念,根据各样本betaNTI的中位数评估分析的结果。

βNTI的中位数在-2~2之间,随机因素主导微生物群落变化。

βNTI的中位数大于2或小于-2,确定因素主导微生物群变化。
βNTI-2~2之间的数目与所有数目的比值为随机因素对细菌群落结构变化贡献的百分比。
βNTI大于2或小于-2的数目与所有数目的比值为确定因素对细菌群落结构变化贡献的百分比。

 

  • RCBray:微生物群落与随机群落的Bray-Crutis距离。
  • Variable selection:群落差异是由于不同样品所处环境差异的选择性导致的,βNTI>2。Homogeneous selection:群落差异是由于不同样品所处环境中一致的选择性导致的, βNTI<-2。
  • Dispersal limitation:群落差异是由于不同环境间有限制的物种交换导致的,-2 <βNTI<2,RCBray>0.95。
  • Homogenzing dispersal:群落差异是由于不同环境间的物种扩散导致的,-2 <βNTI<2,RCBray<-0.95。
  • Drift:群落差异不是由于选择性压力也不是由于物种扩散,-2 <βNTI<2,-0.95 <RCBray<0.95。
在此基础上,我们还可以进一步计算样本微生物群落与随机微生物群落的Bray-Crutis距离,通过该距离与betaNTI的结合,细化研究不同的随机和确定性因素对微生物群落变化的贡献,此处大家了解一下就好。
 

MicroPITA分析

最后再带来一个可能有用的分析,有时候我们会在基于16S rRNA扩增子测序结果的基础上进行宏基因组测序,但是由于宏基因组价格比较高,所以很多情况下我们无法对所有样本都进行宏基因组测序。而MicroPITA分析通过不同的标准如下图),根据16S rRNA扩增子测序的结果对样本进行筛选,可以作为宏基因组测序样本选择的一个参考。

按照物种群落α-多样性、β-多样性以及指定特征(物种或分组)进行筛选。MicroPITA分析提供4种无监督、2种有监督的筛选算法。

今天的分享就介绍到这里~感谢来自“红皇后学术”的内容分享。玩转科研就来凌波微课,我们下期见!

 

往期精彩




END




扩展阅读

科研服务

扫描下方二维码,进入红皇后学术旗下“小红科服”,查找感兴趣的科研服务内容!

加群、交流和投稿

加群、投稿、转载、交流、合作等一切事宜!!




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存