查看原文
其他

涨姿势 |《宏基因组学那些事》之图表说上篇

联川生物 2022-05-21

上期我们一起学习了宏基因组学中的重要名词,本期小编和大家一起聊聊宏基因组学中的常见图表。

1. OTU统计分析

OTU聚类统计表

上期我们介绍了OTU的定义,通常可以认为一个OTU对应一个物种。微生物群落多样性分析首先从OTU的统计开始。OTU聚类统计表给出了每个样本对应的OTU聚类统计结果(表1)。每行代表一个OTU在不同样本中的表达量,每列代表一个样本。

表1 OTU聚类表


OTU分布Venn图

虽然表1给出了每个OTU在各个样本中的分布情况,但是并不够形象化,此时我们可以用Venn图帮助我们展示在多个(组)样本中共有和独有的OTU数量,直观展示环境样本中OTU组成的相似性和特异性(图1)。通常选取2~5个(组)样本绘制Venn图,可以获取较佳的展示效果。


图1 Venn图分析


物种累积曲线(Species Accumulation Curves)

物种累积曲线广泛用于抽样量充分性的判断以及物种丰富度估计。该曲线说的是随着样本数量的增多,物种增加的情况,是调查样本的物种组成和预测样本中物种丰度的有效工具(图2)。


图2 物种累积曲线

上图展示了持续抽样下新OTU(新物种)出现的速率。在一定范围内,若曲线表现为急剧上升则表示此环境中随着样本数量的增多有大量物种被发现;当曲线上升趋于平缓,则表示此环境中的物种并不会随样本数量的增加而显著增多。利用物种累积曲线可以作为对样本数量是否充分的判断,曲线急剧上升表明样本数量不足,建议增加样本数量;反之,则表明抽样充分。

2. Alpha多样性分析

上期我们介绍了Alpha多样性是用于分析样品内的复杂度,它是基于OTU数据进行计算,主要包括香农指数(Shannon指数)、辛普森指数(Simpson指数)、Chao1指数、稀释曲线(Rarefaction Curves)、和等级丰度曲线(Rank-Abundance Curves)等。我们逐一来说。

Shannon指数:评估样本中物种组成的丰富度和均匀度。值越大表示该环境的物种越丰富,各物种分配越均匀。

Simpson指数:从一个样本数据中随机取两个OTU,它们属于不同物种的概率。这一概率越大表示样本的物种多样性越高,反之越低。该指数可以评估优势种在群落中的地位和作用。

Chao1指数:估算样品中所含OTU数目的指数,数值越大代表样本中所含物种越多。

稀释曲线

通过模拟重新取样的过程,观察其中物种变化的趋势,估计环境中的物种丰富程度。从样品中随机抽取一定测序量的数据,统计对应的OTU数量(即物种数量),再进行迭代做出稀释曲线(图3)。


图3 稀释曲线

上图横坐标为测序数据量,纵坐标为对应的物种数(即OTU数量)。对比不同样本的稀释曲线可以直观显示样本间物种多样性的差异。同时也可以看出当测序数据量增加到一定程度时,OTU数目已渐趋饱和(曲线趋于平缓),代表测序深度已能覆盖到样本中所有的物种。

等级丰度曲线

用于解释多样性的两个方面,即物种丰度和物种均匀度。在水平方向,物种的丰度由曲线的宽度来反映,物种丰度越高,曲线在横轴上的范围越大;曲线的形状(平滑程度)反映了样本中物种的均度,曲线越平缓,物种分布越均匀(图4)。


图4 等级丰度曲线

上图中横坐标代表OTU等级,“50”代表样本中按照丰度从高到低排列第50位的OTU;纵坐标为该等级OTU中序列数的相对百分含量,即属于该OTU的序列数占总序列数的比值,例如“10-1”代表相对丰度为10%,依此类推。

3. Beta多样性

我们不仅关心样本内的微生物群落复杂度,也关心样本间的复杂性,这可用Beta多样性进行分析。Beta多样性分析通常由计算环境样本间的距离矩阵开始,该矩阵包含任意两个样本间的距离。为了适应不同的环境样本类型,基于OTU数据,联川使用三种不同的算法计算样本间的距离:Euclidean,Unweighted_unifrac,Weighted_unifrac。主要分析包括样本聚类分析(图5)和样本PCoA分析(图6)。


图5 样本聚类图

上图中样本聚类越近,代表样本间的物种越相似。

PCoA分析(PrincipalCoordinate Analysis,主坐标分析)是基于距离矩阵寻找主坐标,通过对多维数据进行降维,从而从复杂数据中提取和可视化最主要的元素和结构。

PCoA与PCA(Principal Component Analysis,主成分分析)有什么区别?两者非常相似,都是通过降维从复杂数据中提取出关键信息。不同之处,主要是在于,PCoA分析相比于PCA分析,考虑了物种进化关系。


图6 PCoA分析图

上图中相同颜色或形状的点代表同一组样本,不同的则代表不同组样本,点与点之间的距离越大表示差异越大。从图中也可以评估组内样本(生物学重复样本间)的差异。


看了这么多,想想大家也是累了,图表说上篇就说到这。下篇会有更多干货内容,咱们下周见!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存