查看原文
其他

【文献解读】SciRep: Nanopore宏基因组组装方法对比

章小鱼 三代测序 2023-08-18

                简介                 


标题:Assembly methods for nanopore-based metagenomic sequencing: a comparative study

杂志:Scientific reports影响因子:3.998发表时间:2020年4月12日解读:章小鱼编辑:很跩的土豆

导读:宏基因组测序可以还原尚未探究的微生物基因组,短读长测序平台会导致序列高度片段化,而基于Nanopore的长度长测序技术可组装出更多连续性序列。然而,目前尚无研究来系统评估不同组装工具对纳米孔数据的组装效果。在这项研究中,作者使用不同组装工具组装两个商用mock community基因组。在测试工具中,只有metaFlye、Raven和Canu在所有数据集中表现良好,能直接从宏基因组学数据中组装出高度连续甚至完整的基因组。值得注意的是,尽管Nanopore测序存在一定的碱基误判,但是组装后的一致序列准确性可高达99.5到99.8%。Polishing能够减少插入缺失的数量,这一步骤对生物合成基因簇的预测有较大影响。使用高质量短读长序列校正并非总是获得高质量的组装序列。总体而言,Nanopore MinION测序产生的宏基因组测序足以组装和表征低复杂度微生物群落。


                正文                 


1.ZymoBIOMICS mock community种类及其理论组成

表1. ZymoBIOMICS mock community种类及其理论组成


2. 数据集

表2. 原始数据和亚组数据的测序信息


3. 宏基因组拼装

图1. 评估每个测试工具相对应的宏基因组组装片段大小。(A)相对于参考宏基因组大小的组装图大小;(B)通过metaQUAST和minimap2 + BBTools计算的组装基因组草图相对参考宏基因组的覆盖度(%)。


图2. 使用每种工具以及每种单独的微生物(样本数据集)获得的组装图覆盖的基因组的比例。Miniasm组装图因无法使用metaQUAST评估而未显示。


图3. 每个工具针对样本数据集的通用组装性能指标。(A)运行时间;(B)N50;(C)Contigs的数目;(D)L50。

Note:N50 describes a sequence length whereas L50 describes a number of sequences.


图4. 使用Even GridION(14 Gbp)数据集评估组装性能最佳的工具。(A)组装草图在参考基因组中的覆盖度;(B)每种微生物的Contigs数量。


4. 拼装准确性

图5. 组装草图的准确性(样本数据集)。(A)相似性百分比(利用对应宏基因组大小进行标准化);(B)插入缺失百分比(利用对应宏基因组大小进行标准化)。这两种情况都使用了两种不同的策略:top panel,用minimap 比对并使用bcftools +'indels_and_snps.py'内部脚本进行评估;bottom panel,用MuMMer比对,并使用Goldstein等人的“ count_SNPS_indels.pl”脚本进行评估。


5. 生物合成基因簇预测

图6. 使用antiSMASH预测Even GridION数据集中每个组装草图的生物合成基因簇(BGC)的数量。(A)使用3 Gbp数据集预测的BGC;(B)使用6 Gbp数据集预测的BGC


6. Polishing评估

图7. Polising评估。(A)Polishing对整个基因组分析改善效果(%),以Polishing前的错误数量为参考;(B)每个工具达到的最高相似百分比;(C)每种工具获得的最佳插入缺失率。注意,根据工具的不同,可能需要不同数量的polishing次数以实现最高的相似性和最低的插入/缺失比。


结论

基于短序列的Shortgun宏基因组测序通常会导致基因高度片段化,从而使下游分析变得复杂。该研究表明,Nanopore数据可以克服三代测序平台碱基判读错误率高的缺点,并能够直接从简单的微生物群落中遍历极其连续的基因组。但是,根据所选软件的不同,组装性能会有很大差异。其中metaFlye是最适合Nanopore宏基因组数据的组装软件,该工具可实现最高的宏基因组恢复率和强大的运行性能。Raven的主要特点是省时。Canu在要求较低错误率时更适用,但其组装草图需进行polishing以减少插入缺失的数量。使用短读长序列进行polishing并不一定会提高组装草图的质量,但与Canu结合使用,可以对基因组进行最准确的重建。总的来说,这项研究证明了单独使用Nanopore测序来组装低复杂度微生物群落的适用性,并为长片段测序数据的生物信息流程的标准化开辟了道路。


                参考                 


[1] Scientific Reports (2020) 10:13588. DOI: 10.1038/s41598-020-70491-3


                索引                 


【往期文献】

【文献解读】新冠病毒病毒活性与COVID-19患者肠道菌群的关系

【文献解读】Microbime:微生物组学领域的标准制定

【文献解读】Protein Cell:扩增子和宏基因组数据分析实用指南

【文献解读】SciRep:ONT MinION和Illumina Miseq对室内尘埃微生物组16S rRNA测序的区别

【文献解读】Cell Reports:去除宿主和胞外DNA以提高微生物基因组得率(痰液样本)

【文献解读】方法详解:应用Nanopore三代测序技术解析人类肠道病毒组


                后记                 


随着测序技术的不断发展,科学研究进入了数据井喷的时代。然而,测序样本的处理流程、测序数据的分析流程甚至是数据分析过程中的数据库搭建问题,都给测序技术的普及化设置了壁垒,严重阻碍了该项技术向广大科研工作者中推广。此外,基于长读长的三代测序技术的发展更是引入了一套完全有别于二代测序数据处理的分析流程,为了让更多学者认识三代测序、在科学研究中用好三代测序,本公众号应运而生。期待与您一起学习、成长。


^_^ 边学习,边分享,每天进步一点点 ^_^




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存