凌波微课|扩增子研究第九讲：扩增子测序结果中的基本信息统计

Original Bonnie 凌波微课 2023-08-18

收录于合集

#聊科研 72 个

#知识速享 42 个

学生信，做分析，就上凌波微课

扩增子测序结果中的基本信息统计

同学们，大家好！

学生信，做分析，就上凌波微课！欢迎大家扫描下方的二维码关注“凌波微课”，加入凌波微课交流群，参与我们的课程和课下交流。

▼更多精彩，请关注我们▼

把时间交给阅读

我是主讲人Bonnie 今天我们给大家分享的内容来自公众号“红皇后学术”，主题为：扩增子测序结果中的基本信息统计。

从这一讲开始，我们将进入整个教程的后半部分，在前面八讲中我们简要介绍了基于16S rRNA基因的扩增子测序的相关背景知识和大概的技术流程。

大多数老师最终的目的是为了发文章，通过前面8讲的学习，我们可以写出大概的实验流程。但是要想用测序的数据写出文章，最起码应该要做到的就是要能看懂结果。

相信对很多初学者来说，我们面临的主要难题是：

公司的结题报告好几十页，

这么多图表，

它们认识我，

我不认识它们。

从这一讲开始，主要针对这一问题，讲解一下目前我们如何理解16S rRNA扩增子测序数据的结果、每一项分析都是用来干什么的？适用的情况是什么？结果的图表应该怎么来解释？在文章中应该怎么用？

16S rRNA扩增子测序结果中的数据统计通常包括基本的测序信息统计、聚类结果统计和分类学注释结果统计。

Part.1

测序信息统计

我们来介绍一下测序结果中的基本信息统计。

首先来看测序数据统计，PE250测序序列首先需要根据barcode得到所有样品的有效序列；然后对reads的质量进行质控过滤；接着根据PE reads之间的overlap关系，将成对的reads拼接(merge)成一条序列；最后按照barcode和引物序列拆分得到每个样本的优质序列，并在过程中根据正反barcode和引物方向校正序列方向以及去除嵌合体，最终获得cleandata。这部分的统计结果表中主要包括样本分析时获得的clean data的序列条数、clean data的碱基数和序列平均长度。

虽然表格里面有很多参数，但是我们在研究策略选择中所讲到的数据量是最需要注意的，通常来说最低要求3万条以上，但是也要看具体的样本情况，有些样本数据量需要达到5w以上，有些样本只测1W或者不足1W影响也不大。

有些时候，一次上机得到的数据量可能达不到公司当时承诺的数目，一般公司会自动对这些数据不足的样品进行补测，很多老师对数据量关注度不高，也可能在拿到结果的时候忘记了检查数据量，后续会产生各种问题，所以各位老师和同学在拿到测序结果的时候还是需要留意一下数据量与合同是否一致的。那么，评价数据量是否足够有哪些依据呢？

首先，我们可以通过数据统计表中的sequence列（上图），查看每个样本测得的序列数，是否与合同一致。同时，结题报告中的一些图表也可以用来评估数据量，例如下面的稀释曲线，稀释曲线是从样本中随机抽取一定数量的序列，统计这些序列所代表的物种数目，并以序列数与物种数来构建曲线，当曲线趋向平坦时，说明测序数据量合理，更多的数据量只会产生少量新的OTU。第三，Shannon_winner曲线也可以用于判定数据量是否充足，原理是利用各样本的测序量在不同测序深度时的微生物多样性指数构建曲线，以此反映各样本在不同测序数量时的微生物多样性。当曲线趋向平坦时，说明测序数据量足够大，可以反映样本中绝大多数的微生物信息，下图中的曲线趋于平滑，说明测序数据量是足够大的。

Part.2

OTU聚类结果统计

接下来是OTU聚类统计，将碱基相似度大于97%的Tags聚集在一起，称为一个OTU，是扩增子研究中常见的聚类方式，这里我们就以OTU聚类为例进行介绍。

这部分内容主要是统计各个样品中聚类得到的OTU数目，以及所有样本中聚类得到的OTU总数。值得注意的是，扩增子研究中OTU表之后通常会进行抽平处理，数据经过抽平可以消除不同样本测序量差异带来的误差，不过抽平处理的缺陷在于当样品测序量相差比较大时，会造成数据的极大浪费。一般公司在交付结果的时候，也会将原始OTU表和抽平后的OTU表分开存放。

Part.3

分类学注释结果统计

接下来是分类学注释统计，对于扩增子分析，最重要的就是物种信息了，基于不同的研究目的，需要比对不同的数据库，例如16s细菌和古菌研究常用的数据库包括Sliva、RDP和greengene，ITS真菌研究主要与Unite的真菌数据库进行比对，而功能基因常用的数据库主要为Fungene，在第八讲《扩增子研究第八讲：微生物多样性物种分类注释》中关于这部分内容有详细的介绍，在此就不做赘述了。这部分主要统计各个样品注释到各个分类学水平上的序列数目，一般认为在某一分类水平上所有样本都有超过70%的tags得到了注释，这一分类水平就是对数据解释的最低水平，也可以根据每个样本中注释到门纲目科属的序列数目，绘制柱状图，更直观的展示样本中的注释情况。

除了OTU分类学综合信息表以外，对于物种分类学注释还有另外两种统计，一类是样本序列数统计表，是针对某一样本注释到特定分类上的OTU序列数目进行统计，另一类是样本序列数相对丰度百分比统计表，就是统计每个样品注释到特定分类上的相对丰度。

因为世界上微生物的种类实在是太多了，而且还在不断的进化，参考数据库是不可能覆盖世界上所有的微生物的，所以虽然测序的数据理论上能够注释到属水平，但实际上有很多OTU是无法得到这么高分辨率的注释的，可能只能得到目水平、门水平的注释，甚至有些OTU还无法被注释。

我们在查看物种分类表时会发现一些特殊的名称，例如，

Norank：指的是分类学系谱中没有这个层级的科学名称，就用norank做标记；
Uncultured：指的是未分离培养的环境序列；
Unclassified：指在置信度阈值下，与数据库比对不上的序列；
*_norank (*_uncultured、*_unclassified)：指的是在当前分类级别没有物种信息，用已知的最近的祖先分类名称+ norank (uncultured、unclassified)表示；
Incertae_Sedis：指暂定物种名。

当然，最终的结果肯定是分类学水平越高，能够被注释到的序列数目越多。

利用二代测序进行扩增子研究，只能扩增1-2个可变区，如果老师对物种鉴定的精确度和灵敏度都有较高的要求，可以考虑采用三代全长扩增子测序技术，感兴趣的老师参考我们之前的微课《微生物组多样性研究新热门——16S rDNA全长扩增子测序》，了解全长扩增子测序技术。

因为不同类型样本分类学注释的情况各不相同，有的样本可能90%以上的序列都能注释到属水平，而有的样品可能只有百分之二三十的序列能注释到属水平。所以通常在文章中对于样本主要微生物组成进行解释的时候，主要考虑超过70%序列能够得到有效注释的分类学水平。

上面提到的统计结果在写文章的时候通常会出现在结果的第一段，一般用几句话概括文章涉及到的测序基本结果，主要说明本研究测了多少个样本，一共得到了多少数据，平均每个样本多少数据，一共聚类得到的多少个OTU，不同样本中OTU数目的范围是多少，一共注释到了多少个门、多少个纲、多少个属，百分之多少的序列得到了有效注释等等这样的说法。

因为用描述性的语言概括了具体的数值，所以文章中通常不会放这些统计结果图，样本多的时候可以放在补充材料里，样本少的时候不放这部分图表也是可以的。

今天的分享就介绍到这里~感谢来自“红皇后学术”的内容分享。玩转科研就来凌波微课，我们下期见！

往期精选

凌波微课|扩增子研究第八讲：微生物多样性物种分类注释

凌波微课|扩增子研究第七讲：高通量下机数据质控标准

凌波微课|扩增子研究第六讲：高通量下机数据评估标准

凌波微课|扩增子研究第五讲：微生物群落研究建库测序流程

凌波微课|扩增子研究第四讲：微生物群落研究策略

凌波微课|扩增子研究第三讲：微生物群落研究的目的

凌波微课|扩增子研究第二讲：测序技术发展史及应用

凌波微课|扩增子研究第一讲：分子钟学说和现代应用

凌波微课|微生态群落中单个物种的绝对定量？