近年来,微生物群落结构多样性一直是科研工作者研究的热点,微生物“个头小,本领强”,从人体的皮肤、口腔、胸腔、阴道到肠道、粪便,无处不在,又称为“人体第二基因组”,在人体中发挥着巨大的作用。还广泛存在于土壤、水体、发酵液、植物、空气等环境样本中,它们推动着地球物质循环,影响着人体乃至整个地球生物圈的健康。传统研究中,是将环境样本中的微生物进行分离培养,提取已经分离培养出来的每一个纯菌的DNA,针对原核微生物的“身份证”16S rDNA和真菌ITS区设计特异性的引物(细菌:27F和1492R;真菌:ITS1F和ITS4R或者ITS4F和ITS86R)进行一代Sanger测序,通过得到的16S全长和ITS全长从而进行菌种鉴定,然后进行物种多样性的统计。一代测序的弊端是只能针对环境样本中可分离培养的菌进行微生物多样性的分析,不能检测出不可培养的微生物,通量低。随着高通量测序技术的发展,Illumina测序技术兴起,Illumina测序平台有读长的限制,二代微生物多样性测序一般使用PE250或PE300双端测序,因此只能针对细菌16S rDNA和真菌ITS的某一段可变区(如16S V3+V4,16S V4+V5,16SV4,ITS1,ITS2等)进行测序。提取环境样本中总的微生物DNA,设计特异性引物进行扩增,混样建库测序,可得到环境样本中可培养和不可培养微生物的物种多样性,但是通过某一两个可变区域预测物种的多样性,还是存在一定的误差,一般只能承诺注释到“属”水平。并且对引物特异性要求非常高,不同的样本以及不同的物种对不同的引物都会有偏好性。因此,我们公司推出Pacbio三代全长微生物多样性产品,Pacbio全长微生物多样性测序技术结合了一代Sanger测序的读长优势和Illumina测序的高通量优势,将细菌16S全长和真菌ITS全长完全测通,在细菌、真菌群落结构分析中具有:覆盖度广、读长长、通量高、物种注释准,承诺注释到“种”水平,种水平注平均注释率≥60%等产品优势。告别挑选测序引物的纠结时代!三代全长微生物多样性将开启种水平鉴定“新纪元”。
下面小编将三代全长微生物多样性的产品优势仔细的一一讲给大家伙!
01
Pacbio SequelⅡ测序平台CCS模式,minPasses≥5,超高准确性
三代微生物多样性是基于 PacBio 测序平台,利用单分子实时测序(SMRT Cell)的方法对 marker 基因进行测序,之后通过对 CCS(Circular Consensus Sequencing)序列过滤,得到 Optimization-CCS 进行 OTUs(Operational Taxonomic Units)聚类,并进行物种注释及丰度分析,可以揭示样品的物种构成;进一步进行α多样性分析(Alpha Diversity)、β多样性分析(Beta Diversity)和显著物种差异分析等等,可以挖掘样品之间的差异。
Pacbio 的CCS文库,进行单一片段多轮测序的方式来提升准确性。由于Pacbio的原始错误为随机错误,可通过CCS模式进行自身纠正,来提升数据的准确性。细菌16S全长约1.5Kb,PacBio测序平台最保守的Reads平均读长8-15kb,假设最短的一条Reads 8Kb,也可以满足一条1.5Kb的16S全长纠错5次,所以我们承诺:minPasses≥5,据官方数据,同一片段测序 4 次后,单一Read的准确性至少可达99%。
基于PacBio 测序平台的长度长,可以轻松获得细菌16S全长和真菌ITS全长,不必在做二代微生物多样性时纠结选择测哪个可变区,选择哪一对引物了,三代全长微生物多样性,一对引物,就得到物种鉴定的marker基因,成功揭示环境样本中微生物的群落结构。另外,三代全长多样性下机数据是单端数据,无需拼接,二代微生物多样性下机数据是双端数据,需要进行拼接后在进行物种注释。因此,用全部的测序区域进行物种注释,会比二代用几个可变区的测序数据进行物种注释更准确。
16S rDNA编码原核核糖体小亚基 rRNA的DNA序列。在结构上分为10个保守区和9个可变区。保守区反映生物物种间的亲缘关系,可变区反映物种间的差异。
ITS是编码真核生物核糖体小亚基rRNA的DNA内转录间隔区序列。由于ITS区在核糖体RNA加工过程中被剪切掉,不发挥功能作用,在进化过程中选择压力较小,进化速率约为18S rDNA的10倍,属于中度保守的区域,利用它可研究种及种以下的分类阶元。
三代全长微生物多样性较二代最大的优势是讲承诺注释到“属”水平提升至“种”水平,我们基于大量的实测项目,基于Illumina和Pacbio,对不同分类学水平物种注释率进行统计,结果发现Pacbio测序平台在各个分类学水平注释率均高于Illumina测序平台。基于粪便、肠道内容物、土壤、水体等不同样本类型种水平注释率进行了统计,发现“种”平均注释率平均可达60%。
Illumina和Pacbio不同分类学水平物种注释率统计
2019年11月,美国杰克逊基因医学实验室在Nature communications 杂志中发表了《Evaluation of 16S rRNA gene sequencing for species and strain-level microbiome analysis》 ,该文章利用四个实验数据证明了Pacbio CCS测序技术对V1-V9进行测序的可靠性和必要性。以不同可变区进行测序时,V1-V9较其他可变区,几乎所有的序列都注释到了种水平。
研究结果发现仅根据部分可变区在某种程度上可以区分物种(图1b),V4区的区分能力最差(56%的扩增子不能匹配到相应的物种),使用16S基因全长则可以将所有的序列注释到具体的物种分类。
利用数据库中所有16S rRNA序列构建发育树,树分支的颜色代表该分支中不能被鉴定到物种水平的序列的比例。该研究同时发现基于不同可变区对物种分类能力存在偏差,例如V1-V2对Proteobacteria的区分能力较弱,V3-V5区对Actinobacteria的区分能力较弱。
以不同可变区进行模拟测序,结果中不能鉴定到种水平的序列比例利用数据库中所有16S rRNA序列构建发育树,树分支的颜色代表该分支中不能被鉴定到物种水平的序列的比例 为保证测序结果,本公司将同一批粪便、污泥、土壤和水体样本基于Illumina和Pacbio测序平台进行二代、三代微生物多样性测序。结果如下图稀释性曲线所示:1、相同的测序数据量,三代全长微生物多样性较二代会得到更多的OTU;2、当测序数据量5000条CCS/tags(一条CCS即为一条16S全长,一条tags即为一条16S v3+v4)时,可以反映出环境样本中的优势菌群,可以满足老师研究环境样本中优势菌群的需求;3、当测序数据量为10000条CCS/tags时,基本跃过指数期,数据量基本趋于饱和,基本可以满足老师研究环境样本中微生物多样性的需求;4、当测序数据量为20000条CCS/tags时,测序数据量完全饱和,将环境样本中所有的微生物基本都可以注释到。 基于Illumina和Pacbio测序平台 25000条CCS/tags测序数据量饱和度统计
05
全长微生物多样性测序数据可在百迈客微云上免费分析