Nucleic Acids Research│PacBio CCS + DADA2→ASVs, not OTUs

Original 文风刺骨百迈客生物 2023-08-18

PacBio全长微生物多样性（Full-Length Microbial Diversity，FL-MCD）测序技术融合了Sanger测序的长读长优势与Illumina测序的高通量优势，将细菌16S全长和真菌ITS全长完全测通，在细菌、真菌群落结构分析中具有：覆盖度广、读长长、通量高、物种注释准，承诺注释到“种”水平，种水平注平均注释率≥60%等产品优势。告别挑选测序引物的纠结时代！三代FL-MCD将开启种水平鉴定“新纪元”。目前该项测序技术可在百迈客生物（BioMarker Technologies）进行，具体的技术要点在“百迈客携全长扩增子同您走进微生物多样性全长时代”分享过，今天和大家分享1篇关于细菌16S全长扩增子测序技术方法文章——即PacBio CCS & DADA2。

文章核心点

利用PacBio CCS测序模式与新的DADA2鉴定分析方法，从菌群中鉴定出不同菌种的ASVs（ASVs不同于以往的OTUs，它具体到单个的SNP，而不是依据相似度聚类），可以将不同的菌种区分开，准确度与分辨率都非常高。

背景与目的

16S rRNA基因片段靶向PCR扩增与高通量测序（扩增子测序）广泛应用于鉴定微生物种群。新的长读长测序技术（PacBio与Nanopore）能够测通16S rRNA基因全长，然而颇高的错误率限制了它们的应用。本研究介绍一种基于PacBio CCS扩增子测序模式与DADA2软件算法，以获得单碱基/近零错误率的全长16S rRNA基因序列。利用此方法对2个Mock communities测序分析，结果获得了预期种群数量的全长16S序列（零错误率），并且成功鉴定出的基因组内序列变异，将E.coli菌株准确地划分成O157:H7与K12亚群分支。作者又用此方法对人类的粪便中的复杂菌群进行了技术重复模拟，获得了若干菌株中16S rRNA基因，成功地鉴定到种水平。此外，此技术方法在其他测序分析领域也将会发挥重要的用途。

材料方法

样品——Zymo mock community；HMP mock community；人类粪便

引物—— 27F: AGRGTTYGATYMTGGCTCAG；1492R: RGYTACCTTGTTACGACTT

测序——PacBio Sequel / CCS；S/P1-C1.2， S/P2-C2/5.0， S/P3-C3/5.0

算法与软件：DADA2 R；uparse；mothur

DADA2 R package分析流程——

图1. 算法流程图

研究结果

1、16S全长扩增子测序准确度评估

本研究利用2个mock菌群评估了全长16S rRNA扩增子测序方法。菌群1——Zymo mock菌群包含8种进化关系较远的细菌菌株，且每种菌株DNA含量均衡；菌群2——HMP mock 菌群包含20种细菌菌株，具有不同的遗传进化相似度，且rRNA基因频率变化超过3个数量级。利用S/P1-C1.2 测序化学试剂进行了单个cell的Sequel测序，Zymo mock菌群产出77 453条CCS reads（Passes＞3；准确度＞99.9%），除去引物与过滤后，还剩余 69 367条reads (Supplementary Table S1)；HMP mock菌群产出78 328条CCS reads，过滤去除引物后，剩余69 963条reads。

本研究利用DADA2 R软件包最新版本1.12.1处理长片段扩增子reads获得精准的ASVs，接近标准的PacBio CCS测序准确度。朴素贝叶斯分类算法与SILVA v128数据库将ASVs注释到“属”以下水平，而在“种”水平利用BLAST比对NCBI数据库。在这两个数据集中，每个ASV注释到对应的一个属与种，符合mock种群中对应的身份。为了实现所期望的检测出多拷贝16S rRNA基因中存在的变异，根据分类学特点将ASVs划分到假定的菌株bins中。

图2. 全长16S rRNA基因 ASVs丰度比较（Zymo mock community）

在Zymo mock种群中，检测到29个ASVs，其中25个与已知的16S rRNA基因序列完全一致（100%覆盖度、100%一致率），3个发酵乳杆菌ASVs与1个金黄色葡萄球菌ASV跟已知的序列仅存在1个碱基的差异。在HMP mock种群中，共检测到51个ASVs，其中48个序列完全匹配，而1个表皮葡萄球菌ASV存在2个碱基的差异，2个拜氏梭菌ASV存在1个碱基的区别，并且ASVs频率变异范围跨越3个数量级，最低达到0.00019。

如果ASVs代表属水平的等位变异，那么同一菌株ASVs根据每个基因的拷贝数目而存在一定的比例。相反，如果ASVs所代表的变异来自不正确的扩增子测序样品，这个比例将不是所预期的。此方法所检测到的ASVs彼此间呈现一定的频率或比值，并与相应的菌株存在对应性。图2展示的是在Zymo mock种群中每个ASV的频率，所有ASV：基因组频率均是整数（例如，1,2,3,.....），最大偏差±0.2。在HMP mock种群中，除了蜡样芽孢杆菌ASV频率受菌株丰度影响，其它的ASVs频率也是整数（图3.）。

图3. 基因组与ASVs丰度（HMP mock community）

2、CCS扩增子序列错误率与降噪后ASVs

这些mock种群可利用的参考数据库是不完整的，因此，作者利用多种方法（全面）评估ASV准确度，其中整合了参考数据库比较、属间等位变异频率模式。在Zymo mock种群中，作者发现此方法检测到的ASVs不存在假阳性，并且利用DADA2降噪后，碱基错误率为零。在HMP mock种群中，作者发现检测到的ASVs不存在假阳性，每个碱基错误率也是零。然而，作者仍然发现了这种可能性，蜡样芽孢杆菌ASVs包含错误，并且错误率为2.6 × 10−6。

接着，作者利用Zymo mock种群研究未经矫正的PacBio CCS扩增子reads的错误率分布情况。排除嵌合体与污染物后，将剩余的reads与参考ASVs序列进行比对，序列间所有的差异以变异类型（替换、插入、缺失）、read的碱基坐标以及对应的质量值来表征与衡量。图4展示的就是错误率分布，200bp为一个可视化代表性窗口。

未矫正的CCS reads总错误率是4.3×10−4/碱基，其中插入错误率为2.2 × 10−4，替换为1.1× 10−4，删除为1.0 × 10−4。替换的错误率分布相对比较均匀一致，高错误率数量较少，且与质量值低相关（图4.）。插入型错误率在reads的不同位置差异较大，可能是由于context-依赖的错误模式，比如同聚物错误，但是高错误率的碱基与低质量值紧密相关。而删除型错误率分布变异系数介于插入与替换之间，因为删除型碱基没有相应的质量值，并且某些位置高频率的缺失与技术没有明显差异。

据之前报道，RSII产出的16S rRNA全长PacBio CCS数据在降噪前后存在较高的错误率，可能也与特定位点重复出现的系统性错误有关。作者利用升级的DADA2 R软件包分析了Wagner et al.的金黄色葡萄球菌测序数据（之前用于评估系统性错误），获得了5个非嵌合型ASVs。金黄色葡萄球菌基因组包含5个rrn操纵子拷贝，并且5个ASVs与已知测序的16S rRNA基因序列完全匹配。基因组内的变异体差异可能被误解为系统性错误，因为利用 short-read组装序列，会将5个rrn操纵子拷贝视为1个。此外，还发现当subread的覆盖度高于默认阈值3的时候，并不能提升ASVs的准确度，暗示默认阈值对于Sequel测序试剂与当前的软件版本是有效的。

图4. PacBio CCS扩增子插入/缺失/替换的错误率与质量值分布（Zymo mock community ）

3、DADA2-ASVs与长读长-OTU鉴定方法准确性比较

作者将DADA2计算方法与在PB扩增子测序数据中先前应用的两款软件算法mothur和uparse进行比较分析。所使用的数据均为Zymo与HMP mock数据集中预处理的fastq数据，分析结果见下表1。

表1：不同计算方法的准确度比较（PB扩增子测序数据）

所有算法表现得都相当不错，反映了PacBio CCS reads具有高的准确度，但是算法间的差异也是非常明显的。DADA2与uparse具有相当好的鉴定特异性，因为鉴定到的每个ASV or OTU真实存在与预期的mock种群中。Mothur算法分析得到16个与13个假阳性OTUs（对应于Zymo与HMP mock种群），大部分假阳性的OTUs以单体形式存在（例如，OTUs仅有1条read），因此，后续分析需要将其删除。这3种方法都在Zymo mock菌群中检测到8种菌株，而在HMP菌群中，DAD2算法检测到17个菌种，另外两种算法仅检测到16个菌种。DADA2可以区分金黄色葡萄球菌与表皮葡萄球菌，然而， mothur与uparse却将这2个菌种划归为同一个OTU。Mothur算法也不能检测到中等丰度(>100 reads)的淋球菌菌株，但是却是唯一能够检测到仅有3条reads的耐辐射奇异球菌的方法。

4、利用16S rRNA等位基因的全长互补序列进行亚种分类

系统分类典型的分类方法是依据个体的16S rRNA序列进行，但是利用细菌菌株中16S等位基因的全长互补序列可以获得比较高的分辨率。在Zymo mock菌群中，鉴定到5个ASVs，丰度比例为3:1:1:1:1；在HMP mock菌群中，鉴定到6个ASVs，丰度比例为2:1:1:1:1:1。作者考虑利用单个ad hoc完全互补序列分类策略将每个ASV的最优BLAST hits进行Nt比对，与基于菌种最大数量的ASVs reads选择最优的hits区分不同亚种。下表2即是基于长读长与短读长以及不同的分类策略进行的分类结果统计。

表2：基于全长与短读长16S rRNA基因扩增子测序的E. coli菌株分类

利用本研究中的方法鉴定到的16S rRNA基因序列（Zymo mock菌群）被归类为肠出血性大肠杆菌O157:H7，并且利用16S rRNA等位基因全长互补序列进行分类可以进一步提升准确度。有14条Hits与5个ASVs中的4个完全匹配，但是没有没有一个Hit与所有的5个ASVs匹配。其中，有12条被注释为血清型O157:H7，1条注释为O157而没有H抗原，还有1条没有血清型注释。如果我们忽略缺失值，Zymo菌株可以被明确地归类为肠出血性大肠杆菌O157:H7。相反，短读长V3V4与V4V5扩增子测序不能区分Escherichia 与Shigella两个属，更不用说区分亚种。

利用本研究中的方法鉴定到的16S rRNA序列（HMP mock菌群）将菌株归类为K12。有32条Hits完全匹配菌群中的6个ASVs，其中，27条注释为K-12, MG1655或源于MG1655菌种。另外5个没有被注释，但是最好的BLAST hits是K-12菌株。利用最大丰度全长序列进行分类不能区分所属的成员，仅注释为E.coli。同样，短读长V3V4与V4V5扩增子测序不能区分Escherichia 与Shigella两个属。

5、PacBio CCS & DADA2在人类粪便样品中的应用价值评估

为了评估新方法在复杂微生物菌群中的应用效果与价值，本研究采集了9份人类粪便样品进行全长扩增子测序，并设置技术重复，另外还有3份样品没有用于进一步分析。每个样品加上barcode，并将12个样品混合后，利用单个Sequel cell进行多通道测序。第一个重复使用S/P2-C2/5.0 Sequel试剂，产出177 691条 CCS reads，准确度达到99.9%，去除引物与过滤数据后，还有146 589 reads，12个样品中过滤掉的reads中位数为12 158。第二个重复使用预释放版S/P3-C3/5.0 Sequel试剂，产出289 644 CCS reads，准确度也均在99.9%，除去引物与数据过滤后，剩余 249 802 reads，12个样品中过滤掉的reads中位数为21 411，几乎是第一种测序试剂的2倍产出。

由于不知道人类粪便样品中微生物菌群的组成，作者考察了技术重复间的一致性，以评估数据的准确度。为了排除任何测序深度的影响，在利用DADA2软件分析之前，作者将每个重复样品筛选出10000条reads，共有7对样品在2次重复数据中数据超过10000条reads。DADA2从这些样品中鉴定出的ASVs在技术重复间是一致的（图5A），以每个样品为基础，两次重复中鉴定到881个ASVs，然而，分别有65与70个ASVs仅在重复1或重复2中被检测到。丰度评估也是高度一致的：样品间丰度Pearson’s相关系数为0.998，然而，仅在1个重复中检测到的ASVs具有比较低的频率(<50 reads, <0.5% frequency; 图 5A)。

图5. 人类粪便样品中单碱基分辨率的全长16S rRNA基因序列一致性检测

为了考察菌群中16S rRNA等位基因的全长互补序列是否可以区分比较复杂的自然菌群，作者集中于分析粪便中归属于E.coli的所有ASVs。在每个样品中，有比较接近数量的E. coli reads被检测到。基于预期的等位基因丰度比值，构建出ASVs bins图，并且据我们所知，在E.coli中16S rRNA基因有7个拷贝（图5B）。

在R3与R9两个试剂组中，一致性的菌株bins随着时间的推移，保持稳定。在R9中，E.coli菌株在timepoint1样品中可以明确地区分为2类。尽管有的ASVs只存在8-15条reads，但是全长互补序列的ASVs鉴定方法可以将它们分辨出来。并且Timepoint1中低频率的ASVs与Timepoint1中存在的单菌株ASVs完全匹配。

创新点总结

本研究的技术革新有2个方面：1.运用长读长测序技术，即PacBio/CCS模式，并分别使用S/P1-C1.2， S/P2-C2/5.0， S/P3-C3/5.0三种不同版本测序试剂进行16S全长序列测序比较分析，保证获得了高质量长读长的测序数据；2.采用新的分析算法，即DADA2，此方法成功地鉴定出菌群中存在的单碱基分辨率的ASVs（明显不同于uparse与mothur算法通过聚类方式识别OTUs），不仅将菌群中不同的菌种区分开来，而且显著地降低了假阳性率。因此，PacBio CCS & DADA2在FL-MCD的菌种鉴定方面将会是一个趋势，并将发挥越来越重要的作用。

百迈客优势

1. PacBio的CCS模式minPasses≥5，自我校正，超高准确性

2.三代全长序列中携带的特征信息更多，可分辨能力更高，可以支持“种”水平的分辨率

3. 三代全长多样性产品类型：16S全长；ITS全长；18S全长功能基因多样性全长

4. 微生物多样性云平台全面开放，主流程个性化均免费分析

参考文献：Benjamin J Callahan, Joan Wong, Cheryl Heiner, Steve Oh, Casey M Theriot, Ajay S Gulati, Sarah K McGill, Michael K Dougherty. High-throughput Amplicon Sequencing of the Full-Length 16S rRNA Gene With Single-Nucleotide Resolution. Nucleic Acids Res. 2019 Oct 10;47(18):e103. doi: 10.1093/nar/gkz569.

文：文风刺骨

排版：市场部

● 百迈客11周年大回馈，尊享5大优惠，测序正当时！

● 百迈客携“全长扩增子”同您走进微生物多样性全长时代

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

Nucleic Acids Research│PacBio CCS + DADA2→ASVs, not OTUs

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

生成图片，分享到微信朋友圈

Nucleic Acids Research│PacBio CCS + DADA2→ASVs, not OTUs

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡