三代组装软件简介
三 代 组 装 软 件 简 介
前 言
01
OLC:Overlap-Layout-Consensus算法,先查找全部序列的重叠区域(overlap),基于序列之间的重叠区域(overlap)获取全部序列的布局图(layout),形成一致性(consensus)序列。OLC是三代长序列组装的主流算法。02
DBG:De-Bruijn graph算法,将序列打断为短的k-mer再进行构图,二代短序列组装软件多以此为主流算法。
表1列出了部分三代组装软件,以下给大家介绍几款常用的、在基因组文章中应用较多的组装软件。
组 装 软 件 介 绍
Canu
Canu(Koren et al., 2017)是发展较早,相对成熟的组装软件,前身是PBcR,基于OLC算法,可以进行Pacbio和nanopore的数据组装,整体流程如图1,包括三部分:
Correct(对原始下机reads进行纠错)
Trim(获得reads之间高质量的overlap区域)
Assemble(依据reads之间的overlap区域进行组装)
Canu纠错时一般会对高重复的Kmer给予较小的权重,避免在纠错中造成干扰,在组装过程中会避免对不同重复序列和单倍型的合并。
因此Canu纠错得到的序列准确性高,组装准确性高,组装的基因组往往会偏大。已发表的高质量基因组文章很多基于该软件进行组装,如睡莲,甘蔗、棉花等。
图1. Canu组装流程
Falcon
Falcon是pacbio官方推出的denovo组装软件,同样基于OLC算法。
Falcon通常选择一定深度的长reads作为seed,将短reads比对到这些长reads上进行错误校正和预组装,得到高质量的预组装序列(preads),基于高质量preads的寻找序列重叠信息,对这些重叠信息进行过滤并构图。
基于该软件组装发表的高质量基因组也很多,如玉米Mo17和SK基因组都使用Falcon进行组装。
图2. Falocn组装流程
WTDBG
WTDBG(Ruan and Li, 2020)以DBG算法为基础开发了新的模糊布鲁因图算法,对reads计算Kmer的个数,把reads分成以256bp为一个单元分bin,bin之间进行比对构图,对于重复或杂合序列形成的模糊的bubble区进行合并,得到一致性序列。
WTDBG最大优势是运行速度快,内存占用小,可以不纠错直接组装,得到相对可靠的结果,也可以使用Canu纠错后进行组装,后者是比较推荐的一种方式。组装出的基因组连续性较高,可以实现超大型基因组的组装。基于该软件组装发表的基因组如对虾等。WTDGB2进行了进一步优化,组装的速度和结果表现更好。
图3. WTDBG组装算法
SmartDenovo
SmartDenovo与WTDBG是由同一团队开发的组装软件,该软件没有原始数据校正步骤,可以使用原始reads进行组装,也可以在Canu纠错基础上组装pacbio和nanopore数据,在nanopore组装中用的比较多,效果也比较好。基于Canu纠错SmartDenovo组装番茄的nanopore数据表现不错,发表的基因组文章如番茄、高粱等。
Minimap/miniasm
miniasm(Li, 2016) 自身没有纠错步骤,通过比对Minimap(现在可以用Minimap2)寻找overlap,用miniasm组装,组装得到的基因组错误率相当于原始错误率,需要借助软件如racon进行纠错。也可以使用Canu纠错的数据进行组装。
该软件运行速度比较快,在nanopore测序数据中有不少研究者使用该软件进行基因组组装。
结 语
以上给大家简单介绍了常用的三代组装软件。各个软件的组装连续性、准确性及资源消耗等方面的对比可以参考文献(Jayakumar and Sakakibara, 2019)中测评。其他软件如MECAT等也在不断优化,在此不一一介绍。
每款软件各自有优缺点,Canu和Falcon是认可度最高的软件,准确性和连续性较好,文献引用量也最大,WTDBG速度最快。多个软件也可以结合使用发挥各自优势,比如Canu纠错,用其他软件进行组装。目前安诺已联合阿里云对Canu进行了优化,组装周期减少的同时保持了原有的组装指标,以后大型基因组也可以用Canu进行组装了。
随着pacbio通量提高,高质量的HiFi reads越来越多的用到基因组denovo组装中,随之也有很多软件开发应用到CCS数据组装中。针对上述提到的常用软件及CCS数据的组装软件,后续会进行详细的应用方面的讲解。欢迎围观、学习~
参考文献:
Jayakumar, V., and Sakakibara, Y. (2019). Comprehensive evaluation of non-hybrid genome assembly tools for third-generation PacBio long-read sequence data. Brief Bioinform 20, 866-876.
Koren, S., Walenz, B.P., Berlin, K., Miller, J.R., Bergman, N.H., and Phillippy, A.M. (2017). Canu: scalable and accurate long-read assembly via adaptive k-mer weighting and repeat separation. Genome Res 27, 722-736.
Li, H. (2016). Minimap and miniasm: fast mapping and de novo assembly for noisy long sequences. Bioinformatics 32, 2103-2110.
Ruan, J., and Li, H. (2020). Fast and accurate long-read assembly with wtdbg2. Nat Methods 17, 155-158.
作者:May
审稿:童蒙
编辑:angelica
往期精选
围观
热文
医学家系研究套路深!
热文
热文
热文