查看原文
其他

Kraken:使用精确比对的超快速宏基因组序列分类软件

宏基因组 宏基因组 2022-03-28

Kraken:使用精确比对的超快速宏基因组序列分类

Kraken: ultrafast metagenomic sequence classification using exact alignments

Genome Biology, [14.028]

2014-03-03  Method

DOI: https://doi.org/10.1186/gb-2014-15-3-r46

第一作者:Derrick E Wood1,2*

通讯作者:Derrick E Wood1,2*

其它作者:

Steven L Salzberg2,3

作者主要单位:

1美国马里兰大学帕克分校,计算机科学系和生物信息学与计算生物学中心(Department of Computer Science and Center for Bioinformatics and Computational Biology, University of Maryland, College Park, MD, USA)

2美国马里兰州巴尔的摩市约翰霍普金斯大学医学院McKusick-Nathans遗传医学研究所计算生物学中心(Center for Computational Biology, McKusick-Nathans Institute of Genetic Medicine, Johns Hopkins University School of Medicine, Baltimore, MD, USA)

热心肠日报

  1. Kraken是一种超快速、高度准确的宏基因组DNA序列分类学分配程序;

  2. 基于k-mers的精确对齐,Kraken实现了与BLAST程序相当的分类精度;

  3. Kraken以每分钟超过410万个的速度对100个碱基对读长进行分类,比Megablast快909倍,比丰度估计程序MetaPhlAn快11倍;

  4. 软件支持conda安装,配置数据库下载和使用方便,同时提供快速版Kraken-Q和小内存版miniKraken等众多版本可用,满足不同硬件条件的用户。

点评:Kraken是物种注释中最快,最庞大的存在,其超快的速度受到大家的喜欢,但标准版超大的内存消耗也非常恐怖。现在已经开发一系列子版本和新版本,如小内存的miniKraken,基于非冗余K-mer的KrakenUniq,还有最的版Kraken2。之前日报介绍过的相关方法有《一个新的宏基因组分类器KrakenUniq》(https://www.mr-gut.cn/papers/read/1079174335)、《Bioinformatics:大幅提高宏基因组分类速度的新算法!》(https://www.mr-gut.cn/papers/read/1058091428)、《MGS-Fast:快速注释菌群宏基因组测序数据的方法》(https://www.mr-gut.cn/papers/read/1068195517)、以及针对临床检测的《PAIPline:鉴定致病菌的临床测序结果分析平台》(https://www.mr-gut.cn/papers/read/1055280911)等可供用户根据具体需求进行选择。

摘要

Kraken是一种超快速且高度准确的程序,可为宏基因组DNA序列分配分类标签。为此任务设计的先前程序相对较慢且计算成本较高,仅能对小的宏基因组数据进行分类,迫使研究人员使用更快的丰度估计程序。使用k-mers的精确对齐,Kraken实现了与BLAST程序相当的分类精度。在最快的模式中,Kraken以每分钟超过410万次读长的速度对100个碱基对读长进行分类,比Megablast快909倍,比丰度估计程序MetaPhlAn快11倍。Kraken可在http://ccb.jhu.edu/software/kraken/上下载。

主要结果

图1. Kraken序列分类算法

The Kraken sequence classification algorithm

为了对序列进行分类,序列中的每个k-mer被映射到数据库中包含该k-mer基因组的最低共同祖先(lowest common ancestor, LCA)。与序列的k-mers相关的分类群以及分类群的祖先形成了一般分类树的修剪子树,用于分类。在分类树中,每个节点的权重等于与节点的分类单元相关联的序列中的k-mer的数量。通过在路径中添加所有权重来对分类树中的每个根到叶(root-to-leaf, RTL)路径进行评分,并且分类树中的最大RTL路径是分类路径(以黄色突出显示的节点)。该分类路径的叶子(分类树中的橙色,最左边的叶子)是用于查询序列的分类。

图2. 基于三个模拟宏基因组的分类程序准确性和速度比较

Classification accuracy and speed comparison of classification programs for three simulated metagenomes

对于每个宏基因组,显示五个分类器的属性精度和灵敏度,并显示五个程序的速度(PhymmBL是结果的置信过滤版本,MetaPhlAn仅分类映射到其标记基因之一的读长子集 ,因为它是一个丰富的估计程序)。显示的结果是:

(a)HiSeq宏基因组,由10个细菌测序项目中等比例的HiSeq读长(平均长度μ= 92bp)组成;

(b)MiSeq宏基因组,由10个细菌项目中相同比例的MiSeq读长(μ= 156 bp)组成;

(c)simBA-5宏基因组,由模拟的100-bp读长组成,具有1,967个细菌和古菌分类群的高错误率。

请注意,所有速度图中的水平轴都是对数刻度。

图3. 基于三个模拟宏基因组数据对Kraken变体的分类精度和速度比较

Classification accuracy and speed comparison of variants of Kraken for three simulated metagenomes

Classification accuracy and speed comparison of variants of Kraken for three simulated metagenomes

对于每个宏基因组,显示五个分类器的属精度和灵敏度,并显示Kraken的速度,以及Kraken(MiniKraken)的小内存版本,两者的快速执行版本(Kraken-Q和MiniKraken-Q)和Kraken 与包含来自GenBank(Kraken-GB)的草案和完整微生物基因组的数据库一起运行。

显示的结果与图2中使用的相同的宏基因组有关。注意,轴的刻度与图2不同,因为Kraken(及其变体)的精度和速度超过了所使用的其他分类器的精度和速度。

(a)HiSeq metagenome。

(b)MiSeq宏基因组。

(c)simBA-5宏基因组。

图4. 由Kraken分类的唾液微生物组读数的分类学分布。

Taxonomic distribution of saliva microbiome reads classified by Kraken

来自三个个体的唾液样品的序列由Kraken分类。显示了由Kraken分类的那些读长的分布。

图5. Kraken的数据库结构

Kraken database structure

要针对数据库查询的每个k-mer都有一个特定的子串,它是最小化器(Minimizer)。为了在数据库中搜索k聚体,检查数据库中包含具有相同最小化器的k聚体的位置。通过使用k-mer的最小化器(橙色)和下一个可能的最小化器(蓝色)检查记录起始位置的最小化器偏移数组,可以快速找到这些位置。在与给定最小化器相关联的记录范围内,记录按其k-mers的词典排序,允许通过在该范围内使用二进制搜索来完成查询。

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存