Nature方法 | 三代长读长宏基因组组装软件metaFlye
The following article is from 三代测序 Author 很跩的土豆
简介
标题:metaFlye:基于重复图的可拓展长序列宏基因组序列组装
metaFlye: scalable long-read metagenome assembly using repeat graphs
杂志:Nature Methods
影响因子:30.822
发表时间:2020年10月05日
解读:很跩的土豆
编辑:很跩的土豆
导读:相对于二代测序中的短片段序列的组装,使用长序列测序技术组装细菌基因组有了很大的改进。然而,即使对于最先进的组装算法而言,组装复杂的宏基因组数据集的难度依然很大。在本文中,作者介绍了一款名为metaFlye的软件,可用于长序列数据组装,以探究细菌的组成和物种内的异质性。首先,使用模拟细菌菌群评价其组装效果,发现metaFlye的组装产物具有很好的序列完整性。其次,作者使用长序列测序技术检测了绵羊的微生物组并使用metaFlye组装了63个近似完整的细菌基因组的contig。最后,作者发现人的细菌基因组的长读长序列组装产物可用于发掘全长生物合成基因簇。
正文
1. 前言
相较短序列组装产物,长序列的组装产物对基因组的覆盖度更广。相反,长序列宏基因组研究中的得率更低,这使得获取高质量的组装产物较为困难。目前,有一些研究致力于优化长片段、高分子量DNA序列的提取技术;通过提高序列长度,增加长片段的序列覆盖度,以组装复杂的宏基因组序列。即使如此,仍没有专用的长序列宏基因组组装工具。某些组装工具虽然被用于宏基因组测序数据组装,但是工具在其设计阶段,并没有致力于处理宏基因组数据组装中的一些特有的难题,比如对于组成物种的高度不一致覆盖,长序列基因组内外的重复区域以及物种内和物种间的异质性。
长序列宏基因组组装产物可显著改善短序列组装产物的内在限制,比如可显著优化株水平的分辨率,检测水平基因转移,新门类的发现,新质粒、病毒的测序和生物合成基因簇的发现。长序列宏基因组组装工具能够优化长短序列混合组装的性能。
本文作者开发过一个快速的长序列基因组的组装工具——Fyle,该工具可产生准确、连续的大片段组装产物。在本文中,作者报道了一个metaFlye算法用于长片段宏基因组序列组装。使用模拟菌群、真实菌群对该工具进行评价,结果表明该工具性能优于Canu、FALCON、miniasm、OPERA-MS和wtdbg2。
2. 结果
2.1 组装产物覆盖度
Flye算法适用于单一基因组的组装。首先,计算出性能最佳的K-mer值,将其作为组装过程中设置的固定K-mer值。随后,使用该固定K-mer值检测重复序列并组装成更长的片段。然而,在宏基因组中,这种方法只适用于高丰度的物种,而对于低丰度的物种会得到一个更低的固定K-mer值,这会导致组装失败。因此,metaFlye采用一种不同于设置固定K-mer的方法,而是通过计算局部K-mer分布构成一个全局K-mer。这种metaFlye的算法可检测宏基因组组装草图中的重复区域,能够高效地检测组装基因组中高度不一致的序列分布(图1a)。
图1. metaFlye重复注释流程和基因组简单气泡架构、超级气泡架构和环路结构
Fig. 1 | metaFlye repeat annotation and examples of simple bubbles, superbubbles and roundabouts
a,不同基因组类型构成的组装草图;重复边、单边分别使用彩色和黑色线条展示,metaFlye可将X、Y、Z边鉴定为重复边。b,两个物种序列构成的简单气泡结构。c,三个物种序列构成的超级气泡结构。d,两个物种序列构成的环路结构,其中一条序列与另一条宏基因组组装产物的某些不同区域具有重复。
2.2 组装多个相似细菌基因组
种株水平的细菌基因组种,共有序列和特有序列常形成一个简单气泡结构(图1b)或超级气泡结构(图1c),或者某些株的基因组与一些其他不相关的基因组共有一段重复序列,而形成环路结构(图1c)。与单型体(haplotype)识别的组装算法相似,这些株诱导形成的重复图种的子图需要被检测、简化,以产生准确的、连续的宏基因组组装产物。本文方法部分有具体描述metaFlye如何检测和简化这些子图。
图2,不同组装软件(Canu, Flye, metaFlye, miniasm和wtdbg2)对于SYNTH181数据集中宏基因组数据样本进行组装的效果评估Fig. 2 | Comparison of Canu, Flye, metaFlye, miniasm and wtdbg2 assemblies of the individual genomes in the SYNTH181 dataset
数据集中181个参考基因组的组装片段、NGA50值分布(NGAx 值是NGx组装断点的contig统计值)。NGA50值<10kbp或对于参考基因组的覆盖度<50%时不展示结果。总结起来,77(metaFlye)、141(Flye)、109(Canu)、106 (miniasm) 和109 (wtdbg2)个NGA50值被过滤掉。
2.4 不同组装软件对于人类微生物组计划数据集的组装效果
表1 不同组装软件对于数据集的组装效果评估
几乎所有长序列平台的数据集(PacBio,GridION 14Gbp,GridION 16Gbp,PromethION 146Gbp和PromethION 148Gbp)在使用metaFlye组装后的结果都是最优的,评价指标包括组装长度、相对参考基因组的覆盖度、序列一致性、NGA50、错误组装、CPU占用时间等。
2.5 Zymo数据集的组装
图3,使用metaQUAST对不同组装软件组装模拟菌群数据集序列的组装覆盖度和NGA50值统计
Fig. 3 | Per-species reference coverage and NGA50 statistics for the mock community datasets (HMP, ZymoEven GridION and ZymoLog GridION) computed using metaQUAST
参考数据集包括HMP, ZymoEven GridION 和ZymoLog GridION。a, b 菌种覆盖度;蓝色、红色分别代表统计值高于或低于中位值。Flye由于k-mer值设定较差未能组装ZymoLog数据集。
2.6 绵羊肠道微生物宏基因组数据组装
图4,metaFlye组装完成的绵羊宏基因组物种信息
Fig. 4 | Information about strains in the sheep microbiome revealed by metaFlye.
a, 绵羊肠道微生物组中单个连接组件的组装草图。该组件代表了Clostridia纲的细菌基因组,该基因组具有92%的保守marker完整性。组装产物中含有20个简单气泡结构(绿色)和10个超级气泡结构(黄色),这些结构在2.4Mbp的长序列基因组中占有1.2Mbp。b, 绵羊肠道微生物组中1141个气泡结构的长度和分支序列鉴定程度的分布图。
2.7 人类肠道微生物宏基因组数据组装
表2 对真实宏基因组数据集的组装效果
2.8 人类肠道微生物组装产物中新的生物合成基因簇
总结:长序列宏基因组在解析复杂细菌菌群中具有很好的前景,但是其组装等步骤仍然面临很大的算法问题。metaFlye相较Canu,对于HMP和Zymo模拟菌群的组装产物具有更好的序列相似性和组装质量。相较miniasm、wtdbg2和FALCON,metaFlye和Canu对于大多数模拟菌群数据集的装配效果都有所改进。此外,只有metaFlye和wtdgb2能够组装PromethION测序产生的150Gbp规模的长序列数据,但是wtdbg2的组装产物片段化更显著。
参考
[1] Kolmogorov, M., Bickhart, D.M., Behsaz, B. et al. metaFlye: scalable long-read metagenome assembly using repeat graphs. Nat Methods (2020). https://doi.org/10.1038/s41592-020-00971-x
猜你喜欢
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑
文献阅读 热心肠 SemanticScholar Geenmedical
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘
写在后面
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。
学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”