Kraken：使用精确比对的超快速宏基因组序列分类软件

Original 宏基因组宏基因组 2022-03-28

Kraken：使用精确比对的超快速宏基因组序列分类

Kraken: ultrafast metagenomic sequence classification using exact alignments

Genome Biology, [14.028]

2014-03-03 Method

DOI: https://doi.org/10.1186/gb-2014-15-3-r46

第一作者：Derrick E Wood^1,2*

通讯作者：Derrick E Wood^1,2*

其它作者：

Steven L Salzberg^2,3

作者主要单位：

¹美国马里兰大学帕克分校，计算机科学系和生物信息学与计算生物学中心(Department of Computer Science and Center for Bioinformatics and Computational Biology, University of Maryland, College Park, MD, USA)

²美国马里兰州巴尔的摩市约翰霍普金斯大学医学院McKusick-Nathans遗传医学研究所计算生物学中心(Center for Computational Biology, McKusick-Nathans Institute of Genetic Medicine, Johns Hopkins University School of Medicine, Baltimore, MD, USA)

热心肠日报

Kraken是一种超快速、高度准确的宏基因组DNA序列分类学分配程序；
基于k-mers的精确对齐，Kraken实现了与BLAST程序相当的分类精度；
Kraken以每分钟超过410万个的速度对100个碱基对读长进行分类，比Megablast快909倍，比丰度估计程序MetaPhlAn快11倍；
软件支持conda安装，配置数据库下载和使用方便，同时提供快速版Kraken-Q和小内存版miniKraken等众多版本可用，满足不同硬件条件的用户。

点评：Kraken是物种注释中最快，最庞大的存在，其超快的速度受到大家的喜欢，但标准版超大的内存消耗也非常恐怖。现在已经开发一系列子版本和新版本，如小内存的miniKraken，基于非冗余K-mer的KrakenUniq，还有最的版Kraken2。之前日报介绍过的相关方法有《一个新的宏基因组分类器KrakenUniq》（https://www.mr-gut.cn/papers/read/1079174335）、《Bioinformatics：大幅提高宏基因组分类速度的新算法！》（https://www.mr-gut.cn/papers/read/1058091428）、《MGS-Fast：快速注释菌群宏基因组测序数据的方法》（https://www.mr-gut.cn/papers/read/1068195517）、以及针对临床检测的《PAIPline：鉴定致病菌的临床测序结果分析平台》（https://www.mr-gut.cn/papers/read/1055280911）等可供用户根据具体需求进行选择。

摘要

Kraken是一种超快速且高度准确的程序，可为宏基因组DNA序列分配分类标签。为此任务设计的先前程序相对较慢且计算成本较高，仅能对小的宏基因组数据进行分类，迫使研究人员使用更快的丰度估计程序。使用k-mers的精确对齐，Kraken实现了与BLAST程序相当的分类精度。在最快的模式中，Kraken以每分钟超过410万次读长的速度对100个碱基对读长进行分类，比Megablast快909倍，比丰度估计程序MetaPhlAn快11倍。Kraken可在http://ccb.jhu.edu/software/kraken/上下载。

主要结果

图1. Kraken序列分类算法

The Kraken sequence classification algorithm

为了对序列进行分类，序列中的每个k-mer被映射到数据库中包含该k-mer基因组的最低共同祖先（lowest common ancestor, LCA）。与序列的k-mers相关的分类群以及分类群的祖先形成了一般分类树的修剪子树，用于分类。在分类树中，每个节点的权重等于与节点的分类单元相关联的序列中的k-mer的数量。通过在路径中添加所有权重来对分类树中的每个根到叶（root-to-leaf, RTL）路径进行评分，并且分类树中的最大RTL路径是分类路径（以黄色突出显示的节点）。该分类路径的叶子（分类树中的橙色，最左边的叶子）是用于查询序列的分类。

图2. 基于三个模拟宏基因组的分类程序准确性和速度比较

Classification accuracy and speed comparison of classification programs for three simulated metagenomes

对于每个宏基因组，显示五个分类器的属性精度和灵敏度，并显示五个程序的速度（PhymmBL是结果的置信过滤版本，MetaPhlAn仅分类映射到其标记基因之一的读长子集，因为它是一个丰富的估计程序）。显示的结果是：

（a）HiSeq宏基因组，由10个细菌测序项目中等比例的HiSeq读长（平均长度μ= 92bp）组成;

（b）MiSeq宏基因组，由10个细菌项目中相同比例的MiSeq读长（μ= 156 bp）组成;

（c）simBA-5宏基因组，由模拟的100-bp读长组成，具有1,967个细菌和古菌分类群的高错误率。

请注意，所有速度图中的水平轴都是对数刻度。

图3. 基于三个模拟宏基因组数据对Kraken变体的分类精度和速度比较

Classification accuracy and speed comparison of variants of Kraken for three simulated metagenomes

对于每个宏基因组，显示五个分类器的属精度和灵敏度，并显示Kraken的速度，以及Kraken（MiniKraken）的小内存版本，两者的快速执行版本（Kraken-Q和MiniKraken-Q）和Kraken 与包含来自GenBank（Kraken-GB）的草案和完整微生物基因组的数据库一起运行。

显示的结果与图2中使用的相同的宏基因组有关。注意，轴的刻度与图2不同，因为Kraken（及其变体）的精度和速度超过了所使用的其他分类器的精度和速度。

（a）HiSeq metagenome。

（b）MiSeq宏基因组。

（c）simBA-5宏基因组。

图4. 由Kraken分类的唾液微生物组读数的分类学分布。

Taxonomic distribution of saliva microbiome reads classified by Kraken

来自三个个体的唾液样品的序列由Kraken分类。显示了由Kraken分类的那些读长的分布。

图5. Kraken的数据库结构

Kraken database structure

要针对数据库查询的每个k-mer都有一个特定的子串，它是最小化器（Minimizer）。为了在数据库中搜索k聚体，检查数据库中包含具有相同最小化器的k聚体的位置。通过使用k-mer的最小化器（橙色）和下一个可能的最小化器（蓝色）检查记录起始位置的最小化器偏移数组，可以快速找到这些位置。在与给定最小化器相关联的记录范围内，记录按其k-mers的词典排序，允许通过在该范围内使用二进制搜索来完成查询。

系列教程：微生物组入门 Biostar 微生物组宏基因组

专业技能：学术图表高分文章生信宝典不可或缺的人

一文读懂：宏基因组寄生虫益处进化树

必备技能：提问搜索 Endnote

文献阅读热心肠 SemanticScholar Geenmedical

扩增子分析：图表解读分析流程统计绘图

16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun

在线工具：16S预测培养基生信绘图

科研经验：云笔记云协作公众号

编程模板: Shell R Perl

生物科普: 肠道细菌人体上的生命生命大跃进细胞暗战人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外5000+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份，另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍未解决群内讨论，问题不私聊，帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战，关注“宏基因组”

点击阅读原文，跳转最新文章目录阅读

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

Kraken：使用精确比对的超快速宏基因组序列分类软件

Kraken：使用精确比对的超快速宏基因组序列分类

热心肠日报

摘要

主要结果

图1. Kraken序列分类算法

图2. 基于三个模拟宏基因组的分类程序准确性和速度比较

图3. 基于三个模拟宏基因组数据对Kraken变体的分类精度和速度比较

图4. 由Kraken分类的唾液微生物组读数的分类学分布。

图5. Kraken的数据库结构

猜你喜欢

写在后面

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

生成图片，分享到微信朋友圈

Kraken：使用精确比对的超快速宏基因组序列分类软件

Kraken：使用精确比对的超快速宏基因组序列分类

热心肠日报

摘要

主要结果

图1. Kraken序列分类算法

图2. 基于三个模拟宏基因组的分类程序准确性和速度比较

图3. 基于三个模拟宏基因组数据对Kraken变体的分类精度和速度比较

图4. 由Kraken分类的唾液微生物组读数的分类学分布。

图5. Kraken的数据库结构

猜你喜欢

写在后面

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡