尽管采用PE250模式的16S扩增子测序已经成为目前的主流方式之一,越来越多的PE250测序文章发表出来,我们还是遇到一些老师对MiSeq PE300测序“情有独钟”,担心PE250测得没有PE300长,鉴定细菌物种会不够准确。真的是这样吗?
回答这个问题前,先来简单回顾一下16S扩增子测序的背景知识。
16S rRNA基因(也称为16S rDNA),存在于所有细菌中,被广泛用于评估微生物群落的多样性。16S rRNA基因全长约1,542 bp,由9个可变区(Variable Regions)和10个保守区(Constant Regions)交错排列组成,保守区序列反映了物种间的亲缘关系,而可变区序列则能体现物种间的差异。通过对可变区两侧的保守区设计引物,来对可变区进行 PCR 扩增和测序,最后将测得的序列和数据库进行比对来鉴定样本中存在哪些细菌物种。
下面我们从多个角度来比较NovaSeq PE250和MiSeq PE300。
PE300实际可用序列长度与PE250相近由于仪器型号和使用试剂的不同,MiSeq PE300测序虽然测得更长,但因为序列尾部碱基的质量低于质控标准(见下图),这数十个碱基不仅对序列拼接没帮助,还会影响到序列拼接。再看NovaSeq PE250虽然单端测得的序列短50 nt,但是其序列质量非常高,几乎所有的碱基质量都在质控标准以上,都能用于序列拼接。因此从实际可用序列长度看,MiSeq的测序长度并不比NovaSeq长,一些情况下还比NovaSeq要短。我们的内测数据也显示NovaSeq测序的序列质量明显优于MiSeq。不管是基于文献[1],还是我们接过的16S扩增子测序项目,大部分老师都倾向于用V3-V4区来鉴定微生物群落组成。在下图中,我们可以看到插入的V3-V4区片段长度约为428 bp,完全在PE250可测定的500 bp范围内。不存在只有PE300才能完整测序V3-V4区的情况。
NovaSeq PE250测序数据量是MiSeq的25倍以上那是不是说用NovaSeq PE250还是MiSeq PE300来测,就都是一回事了呢。不是。NovaSeq 推出PE250模式,就是要充分利用其高数据量产出的特点,来匹配现在微生物组学研究对长测序读长、高测序数据量、以及大队列样本检测的需求。现阶段PE250模式下产出的数据量是MiSeq PE300(v3)的25倍以上(见下表)。更高的测序数据总量,意味着每个样本上可以获得更多的数据量。相比于MiSeq PE300,采用NovaSeq PE250,每个样本的数据量提升了5倍以上,从原来的1万个Tags增加到现在的5万Tags。可以按老师的研究需要,提供更高的数据量。请注意,样本数据量增加5倍,但是测序费用却和MiSeq是相同的(微生物组16S测序又有大动作!升级至NovaSeq PE250,数据量免费升至5万Tags )。
1更丰富的微生物群落组成鉴定采用MiSeq做16S扩增子测序时,因为测序量不够富余,我们都会关注下稀释曲线(Rarefraction Curve),看曲线是否随着测序量增加而趋于平缓,趋于平缓表示数据量再增加也不会发现新的物种,数据量是足够的。在实操中,不同来源样本的微生物群落丰富度变化是很大的,有些样本稀释曲线是趋于平缓的,有些仍然是上升的。现在,采用更高数据通量的NovaSeq,每个样本的数据量5倍于MiSeq,不仅满足物种鉴定所需还有富余,老师们再也不用担心数据量不够的问题。
从我们内测的数据看,检测相同的样本,NovaSeq测序得到的样本菌群的丰富度和均匀度都明显高于MiSeq组(见下表)。2更多的低丰度细菌物种及其丰度变化被测出更多的数据量也意味着更高的测序深度。在自然环境或是人体中,细菌生活在高度多样性的群落中,它们会随着时间和空间的变化而变化,并且不同样本或个体中细菌组成也是不同的。在一个群落中,一些细菌尽管丰度很低,但它们却能对群落的构成和宿主健康状况产生很大的影响。借助NovaSeq的高数据通量,可以全面地鉴定群落的异质性,更好地发现微生物包括低丰度细菌的变化,并揭示其生物学意义。上图中,不同的测序深度,可以检测出不同丰度的微生物群落(绿色表示高丰度,橙色表示低丰度)。更高的测序深度(Depth B)可以捕获两个微生物群落随时间的动态丰度变化。而测序深度为Depth A时,仅有绿色群落在个别时间可以被检出丰度变化。
这个因素可能被你忽略了。目前扩增子测序数据已更换到最新的QIIME 2分析流程[2],采用更加严格的DADA2算法[3]对扩增子数据进行去噪,相当于以100%的相似度聚类,获得更准确的菌群鉴定和多样性分析(发微生物组16S测序高分文章,四招让你事半功倍 | 微生物专题)。然而,相比于原先的方法,新方法过滤掉的测序数据会大幅增加,也要求每个样本要比以往测更多的数据量。采用NovaSeq测序的样本,不用担心过滤后的数据量会不够后续分析。扩增子测序,测得更长好还是测得数据更多好?在测序长度相近的情况下,测序数据量更多会更好。1. Thijs S, et al. Comparative evaluation of four bacteria-specific primer pairs for 16S rRNA gene surveys. Frontiers in microbiology, 2017, 8: 494.2. Bolyen E, et al. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nat Biotechnol. 2019, 37(8):852-857.3. Callahan BJ, et al. DADA2: High-resolution sample inference from Illumina amplicon data. Nat Methods. 2016, 13(7):581-3.