查看原文
其他

Bioinformatics | 沈伟/胡鹏/任红团队开发兼顾原核生物和病毒的宏基因组物种组成分析软件KMCP

沈伟 宏基因组 2023-06-05

文章题目:KMCP: accurate metagenomic profiling of both prokaryotic and viral populations by pseudo-mapping

发表杂志:Bioinformatics

影响因子:6.931

发表时间:2022年12月29日

第一作者:沈伟

通讯作者:沈伟、胡鹏、任红

通讯单位:重庆医科大学附属第二医院病毒性肝炎研究所

原文链接:https://doi.org/10.1093/bioinformatics/btac845

软件链接:https://github.com/shenwei356/kmcp/

 

- 摘  要 -

日益增加的微生物参考基因组促进了宏基因组物种组成分析准确性的提高,同时也对宏基因组物种组成分析软件的建库效率、数据库大小、分析时间带来了严峻的挑战。此外,大多数软件主要关注细菌、古菌和真菌,而缺少对病毒群落的关注。本研究中,我们推出KMCP,一个新的基于k-mer的宏基因组物种组成分析软件。它将参考基因组分割成多个相同大小的区块,并将每个区块的k-mer存储在修改和改进的COBS索引中用于序列的快速搜索。KMCP通过结合k-mer相似性和基因组覆盖信息来减少基于k-mer的宏基因组分类和物种组成分析软件的高假阳性。基于模拟和真实数据的基准测试显示,KMCP虽然比其它软件运行时间更长,但是KMCP不仅能在原核生物和病毒群落上准确地分析物种组成,还能在低深度临床样本中提供高可信度的病原微生物检测结果。


- 算法简介 -

KMCP先将每个微生物基因组分割成n(默认10)等份,每份称为基因组区块(genome chunk)。每个基因组区块的所有k-mer用一个布隆过滤器(Bloom filter)保存,所有Bloom filter保存在一个改进的COBS索引中。在reads搜索的时候,将查询序列的所有k-mer去和数据库中所有的Bloom filter比较,返回具有一定共有k-mer数量的基因组区块。最终,我们可以知道查询序列与哪些基因组的哪个基因组区块有较高相似度,这个过程我们称为pseudo-mapping。搜索完成后,匹配的参考基因组经过三轮过滤筛选(过滤条件包括k-mer相似性信息与基因组覆盖信息),最后再使用Expectation-Maximization(EM)算法估算匹配的参考基因组的相对丰度。

图1. KMCP原理图


- 软件安装与使用 -

KMCP由Go语言实现,提供Linux、Windows、macOS操作系统的amd64和arm64架构的静态链接可执行程序,用户只需要下载解压,开箱即用。也可通过conda安装:


  conda install -c bioconda kmcp  


KMCP为命令行工具,采取“主命令-子命令”的架构,包含k-mer计算、数据库构建、Reads搜索、搜索结果合并、物种组成分析这5个主命令和一系列辅助命令。KMCP的5个主要子命令如下:

1)      Compute 从FASTA/Q文件计算k-mer,

2)      Index 从k-mer文件构建数据库,

3)      Search 从一个KMCP数据库中搜索序列,

4)      Merge 合并多个数据库的搜索结果,

5)      Profile 从搜索结果生成分类学组成谱。

我们在https://bioinf.shenwei.me/kmcp上提供了详细的文档,包括子命令用法、教程、常见问题等。

图2. KMCP工作流程图

- 分类学数据 -

与其它方法不同,我们并没有将分类学数据信息完全集成到数据库中,而是采用相对独立的设计,仅仅需要NCBI格式的分类学数据文件(taxdump files)。这样做的好处是能在不重新建库的情况下使用更新的分类学数据版本,而且对于一些第三方或者自定义的分类学数据库比如GTDB Taxonomy或者ICTV Taxonomy,可以通过我们前期开发的Taxonkit工具中的create-taxdump命令从任意谱系数据创建分类学数据文件。甚至当参考基因组由来自GTDB的原核生物和来自NCBI的真菌和病毒组成时,还可以合并GTDB和NCBI分类学数据。


- 可扩展的搜索模式 -

基于Lowest Common Ancestor (LCA)的方法获得查询序列每个k-mer对应的分类学ID即TaxId,再计算LCA并给查询序列作标记。而在KMCP中,查询序列的所有k-mer去和数据库中所有的Bloom filter比较,返回具有一定共有k-mer数量的基因组区块。KMCP搜索过程不对查询序列赋予任何的分类学标签,因此,同样的查询序列在不同数据库中搜索的搜索结果可以合并在一起。搜索结果的可合并性(mergeability)允许用户从不同的参考基因组集合创建不同的数据库,并根据需要选择需要的数据库来搜索。另外,由于KMCP搜索速度与基因组区块的数量线性相关,而且所有基因组区块的索引数据(即Bloom filter)相互独立,用户可以将参考基因组分为多个较小的部分,每个分布分别创建数据库并用来搜索。这样,用户可以利用计算机集群进行加速搜索,每个计算节点负责一个小数据库的搜索。而内存容量有限的个人计算机也可以创建许多较小的数据库,从而利用大规模的参考基因组。


- 预建数据库 -

虽然KMCP建库效率高且简单方便,我们仍为用户提供了3个预建的数据库。对于细菌和古菌,我们采用GTDB r202的47,894条基因组。对于真菌,我们从Refseq r208下载了属于398个物种的403条基因组。对于病毒序列,我们从Genbank r246下载所有病毒序列,每个TaxId最多保留5个基因组,最终有属于23,632个物种的27,936条基因组用于构建病毒基因组数据库。分类学数据使用的是2021年12月6日下载的NCBI Taxonomy数据库的taxdump文件。


- 准确性评估 -

为了客观、综合、全面评估KMCP的宏基因组物种组成分析准确性,我们采用4个有金标准的公共数据集来进行基准测试,包括:CAMI挑战中的CAMI海洋数据集、模拟的原核数据集、真实的病毒组数据集、临床感染体液数据集。CAMI海洋数据集物种种类最多,且丰度跨度最大;模拟的原核数据集物种相对较少,丰度跨度适中;真实的病毒组数据物种数量较少,但物种序列较为相似;而临床感染体液数据主要特点是测序深度低。

CAMI挑战中的CAMI海洋数据集

在属水平,KMCP在分类学识别(taxon identification)和相对丰度(relative abundance)估算上的准确性与mOTUs2和MetaPhlAn2类似。而在种水平,KMCP优于所有其它工具:KMCP的Completeness(Recall,召回率,0.915)比Bracken(0.944)略低,比mOTUs2(0.809)、MetaPhlAn2(0.850)和Centrifuge(0.887)高;而KMCP的Purity(Precision,精确度,0.830)比mOTUs2(0.887)和DUDes(0.871)低。在相对丰度上,KMCP的L1 norm error(越低越好)在属水平排在第二低,而在种水平最低,优于其它软件。另一个在所有分类学水平衡量软件预测丰度与金标准的差异的指标weighted UniFrac error,KMCP的值最低,优于其它所有软件。

图3. CAMI海洋数据集上的宏基因组物种组成分析准确性。(a)在属水平和种水平的分类学识别准确性指标:completeness/recall、purity/precision、and F1 score,以及丰度估计准确性指标:L1 norm error。(b)所有分类层级的相对丰度准确性指标。(c)以不同阈值(累计0到10%)过滤后的种水平分类学识别准确性指标。


② 模拟的原核数据集

这里我们用所有软件的最新版本,在另一个模拟的原核基因组数据进行测试。在属和种的水平,基于k-mer的方法(KMCP,Bracken,Centrifuge和Ganon)和基于标记基因的方法(MetaPhlAn3和mOTUs3)均展现出较高的Completeness,平均值均高于0.9;然而基于比对的方法包括DUDes和SLIMM效果稍弱。至于Purity,在属水平,KMCP、MetaPhlAn3和mOTUs3的值最高,均高于0.9,紧随其后的是Centrifuge(0.740);在种水平,mOTUs3的Purity仍在0.9以上,而MetaPhlAn3和KMCP则分别降到了0.855和0.803。至于F1 score,在属水平KMCP比MetaPhlAn3和Centrifuge高,而在种水平比MetaPhlAn3稍低。至于L1 norm error,KMCP在属水平表现最好,紧接着是mOTUs和MetaPhlAn3;而在种水平,mOTUs3表现最好,紧接着是MetaPhlAn3和mOTUs。Weighted UniFrac error的趋势和属水平L1 norm error的趋势相同:KMCP在属水平表现最好,紧接着是mOTUs3和MetaPhlAn3。

图4. 模拟细菌数据集上的宏基因组物种组成分析准确性。(a)在属水平和种水平的分类学识别准确性指标:completeness/recall、purity/precision、and F1 score,以及丰度估计准确性指标:L1 norm error。(b)所有分类层级的相对丰度准确性指标。(c)以不同阈值(累计0到10%)过滤后的种水平分类学识别准确性指标。


③ 真实的病毒组数据集

由于该噬菌体群落是通过混合实验室培养的病毒颗粒而来,则测序数据中可能含有未消化完全的细菌DNA。然而图5a显示,在界(superkingdom)水平,各软件的组成结果差别较大。KMCP和MetaPhlAn3显示了较高的病毒丰度比例,分别为99.72%和99.02%;而其它软件的比例则在80%以下。然后,我们用TaxonKit移除非病毒预测后重新计算各基因组的相对丰度。如图5b所示,在属和种水平,使用了和KMCP相同的参考基因组的Bracken、Centrifuge、和Ganon与KMCP的Completeness均在0.9以上;使用官方数据库的Bracken和MetaPhlAn3则低很多。至于Purity,在属水平,KMCP和Centrifuge的值均在0.95以上,不过在种水平,它们分别降到0.876和0.691;而Bracken (KMCP)则从0.857降到了0.369。从种水平的F1 score来看,KMCP表现最好(0.891),Centrifuge次之(0.814)。同时,KMCP的丰度估计准确性在属水平和种水平都表现最好,L1 norm error和weighted UniFrac error均最低(图5b和c)。

图5. 真实的病毒组数据集上的宏基因组物种组成分析准确性。(a)在属水平和种水平的分类学识别准确性指标:completeness/recall、purity/precision、and F1 score,以及丰度估计准确性指标:L1 norm error。(b)所有分类层级的相对丰度准确性指标。(c)以不同阈值(累计0到10%)过滤后的种水平分类学识别准确性指标。软件名称以(KMCP)结尾的表示该软件使用和KMCP同样的参考基因组创建数据库。

④ 临床感染体液数据集

因为采用了更新的数据库,Bracken的敏感性和特异性均得到较大提高。采用和KMCP相同参考基因组集合的Bracken,Centrifuge和Ganon的敏感性均为80.26%;KMCP,Bracken和Ganon的特异性均为100%。KMCP由于在S19样品上识别错误,遗漏了一个病原菌。因而敏感度稍低于Bracken和Centrifuge。而Centrifuge较低的原因是,它在3个样品(S33、S35、S82)中错误地检测出了一个真菌(Coccidioides immitis)。


另一方面,Bracken,Centrifuge和Ganon在分析结果中主要报告预测的基因组/物种匹配的reads数量。而KMCP则能报告更多的指标,包括基因组区块覆盖比例,相似度得分(所有唯一匹配reads的k-mer覆盖度的90百分位值),这两个指标的值也用于预测基因组的排序。这些额外的指标使得KMCP能够提供更可靠的结果:更少的预测结果(图6a),且病原微生物在预测结果中排名更靠前(图6b)。对于仅有少量reads匹配的预测结果,KMCP预测结果中的基因组区块覆盖比例也能提供有价值的证据来帮助用户判断病原菌存在与否。如图6c所示,4-10条reads也能达到0.4-0.5的基因组区块覆盖比例。

图6. (a)所有软件都准确检测的55个样品中的预测结果数量,样品按照Bracken (KMCP)的预测结果数量排序。(b)所有软件都准确检测的55个样品中,病原微生物在预测结果中的排名。(c)KMCP正确检测的60个样品中,reads数量和基因组区块覆盖度的关系。软件名称以(KMCP)结尾的表示该软件使用和KMCP同样的参考基因组创建数据库。

- 计算性能评估 -

综上所述,本文基于三代ONT序列提高了宏基因组装的质量、SV的发现能力,发现了大量包括插入突变和基因倒位在内的结构变异对于菌株水平上基因功能的影响,以及噬菌体、CRISPR-spacer等系统的的深度挖掘。这项研究是课题组利用三代Nanopore测序技术解析肠道病毒组(Cao et al., Medicine in Microecology, 2020, 4:100012; Cao et al. Gut Microbes, 2021, 13),近期发表的真菌组分析方法(Lu et al, Molecular Ecology, doi:10.1111/mec.16534),和靶向RNA检测病原微生物(Zhao et al., Advanced Science, 2021, 8, 2102593)之后,在利用三代Nanopore测序技术探索肠道微生物研究领域的新进展。

图 7. 宏基因组分析的用时和最大内存占用。KMCP的构建时间包括compute和index两个命令。软件名称以(KMCP)结尾的表示该软件使用和KMCP同样的参考基因组创建数据库。KMCP_HPC是KMCP在集群中运行的场景,每个计算节点搜索一部分参考基因组构建的数据库。


- 总  结 -

我们开发了一款新的宏基因组物种组成分析软件KMCP,它使用改进的COBS数据结构来对微生物参考基因组进行索引,并结合k-mer相似性与基因组覆盖信息来提高宏基因组物种组成分析的准确性。KMCP数据库构建的高效性和序列搜索的可扩展性使得KMCP能有效的利用日益增多的参考基因组。在模拟和真实数据集上的基准测试表明:KMCP虽然比其它软件运行时间更长,但是KMCP不仅能在原核生物和病毒群落上准确地分析物种组成,还能在低深度临床样本中提供高可信度的病原微生物检测结果。


- 通讯作者 -

重庆医科大学附属第二医院病毒性肝炎研究所

沈  伟

博士,副研究员

沈伟,博士,重庆医科大学附属第二医院病毒性肝炎研究所副研究员,研究方向包括:(1)微生物基因组、宏基因组分析方法和工具开发;(2)大规模生物序列搜索;(3)难培养病原微生物检测。主持国家自然科学基金青年项目1项,中国博士后科学基金面上项目1项;以第一作者或共同第一作者身份在Bioinformatics、mSystems、Journal of Genetics and Genomics等期刊发表SCI论文7篇,其中2篇为ESI高被引论文。

重庆医科大学附属第二医院

胡  鹏

教授,博士研究生导师

胡鹏,教授,博士研究生导师,现任重庆医科大学附属第二医院副院长、感染性疾病分子生物学教育部重点实验室副主任、重庆医科大学病毒性肝炎研究所副所长、重庆市肝病治疗研究中心主任医师。现为中华医学会肝病学分会委员、中华医学会感染病学分会委员、重庆市医学会肝病学专业委员会主任委员,中华医学会肝病学分会药物性肝病学组委员,重庆市医学会感染病学专业委员会委员,国家自然科学基金评审专家,《中华肝脏病杂志》、《西部医学》杂志编委,《重庆医科大学学报》特邀编委。作为负责人主持国家自然科学基金2项,863项目子课题1项,作为主要骨干参加了“十一五”、“十二五”国家科技重大专项课题、国家自然科学基金重点项目、教育部长江学者创新团队、重庆市自然科学基金重点项目、国家食品药品监督管理局等一系列科研项目的工作。迄今为止,已在国内外学术期刊发表论文50余篇,其中20余篇为SCI论文,参编医学专著2部。获重庆市科技进步奖一等奖1项、中华医学科技奖二等奖1项、教育部高等学校优秀科技成果二等奖1项、重庆市渝中区科技成果进步贡献奖一等奖1项。

重庆医科大学病毒性肝炎研究所

任  红

教授,博士研究生导师

任红,教授,重庆市“两江学者”特聘教授,博士生导师。原重庆医科大学附属第二医院院长、感染性疾病分子生物学教育部重点实验室主任,现任重庆医科大学病毒性肝炎研究所所长,感染性疾病分子生物学教育部重点实验室名誉主任,重庆医科大学国家级重点学科内科学(传染病)学科带头人,国家传染病重大专项首席专家,教育部长江学者创新团队带头人,国家首批“百千万人才工程”第一、二层次人选,国家教育部跨世纪优秀人才,国家卫生部有突出贡献的中青年专家,全国政协委员,国务院政府特殊津贴获得者。第八届国务院学科评议组中临床医学、医学技术学科评议组成员。担任中华医学会肝脏病分会副主任委员,《中华肝脏病杂志》、《Journal of clinical and translational Hepatology 》、《肝博士》总编辑。长期从事病毒性肝炎免疫发病机制和临床转归的研究,先后主持和承担“十一五”“十二五”“十三五”传染病国家科技重大专项、教育部长江学者和创新团队发展计划等项目。参与制定多项专业指南及专家共识的编撰工作,主编或参编《传染病学》等论著8部,发表SCI论文80余篇,研究成果分获重庆市科技进步奖一等奖1项、教育部科技进步二等奖、中华医学科技奖二等奖等多个奖项。


猜你喜欢

iMeta简介 高引文章 高颜值绘图imageGP 网络分析iNAP
iMeta网页工具 代谢组MetOrigin 美吉云乳酸化预测DeepKla
iMeta综述 肠菌菌群 植物菌群 口腔菌群 蛋白质结构预测

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树 必备技能:提问 搜索  Endnote

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流快速解决科研困难,我们建立了“宏基因组”讨论群,己有国内外6000+ 科研人员加入。请添加主编微信meta-genomics带你入群,务必备注“姓名-单位-研究方向-职称/年级”。高级职称请注明身份,另有海内外微生物PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

点击阅读原文,跳转最新文章目录阅读

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存