Microbiome:Kraken2进行16S物种注释又快又准,秒杀QIIME2
使用Kraken 2进行超快速、准确的16S rRNA微生物群落分析
Ultrafast and accurate 16S rRNA microbial community analysis using Kraken 2
Microbiome [IF:11.607]
DOI:https://doi.org/10.1186/s40168-020-00900-2
发表日期:2020-08-28
第一作者:Jennifer Lu1
通讯作者:Jennifer Lu (jennifer.lu717@gmail.com)1
合作作者: Steven L. Salzberg
主要单位:
1约翰·霍普金斯大学生物医学工程系,美国马里兰州巴尔的摩(Department of Biomedical Engineering, Johns Hopkins University, Baltimore, MD, USA)
摘要
背景
几十年来,16S核糖体RNA测序已成为鉴定样品中未知组成的细菌种类的主要手段。今天,用于此目的的最广泛使用的工具之一是QIIME(微生物生态定量定量分析)软件包。最新结果表明,当对模拟人类肠道,海洋和土壤的宏基因组的细菌属进行分类时,最新版本的QIIME 2比QIIME,MAPseq和mothur具有更高的准确性,但QIIME 2在计算上也被证明是最耗时的。Kraken于2014年首次发布,已被证明可以为鸟枪宏基因组学测序项目提供异常快速和准确的分类。Bracken于2016年发布,然后为用户提供了使用Kraken分类结果准确估算物种或属相对丰度的能力。与Kraken 1的准确性和速度相匹配的Kraken 2现在支持16S rRNA数据库,可以直接与QIIME和类似系统进行比较。
方法
为了对每种工具进行全面评估,我们比较了QIIME 2的分类插件(q2-feature-classifier)、Kraken 2和Bracken在生成三个主要的16S rRNA数据库(Greengenes,SILVA和RDP)中的计算资源和速度。为了评估准确性,我们使用从人类肠道、海洋和土壤宏基因组中获得的相同的模拟16S rRNA读长评估了每种工具,这些读长先前用于比较QIIME,MAPseq,mothur和QIIME 2。我们根据每个工具分配的最终属读长计数。最后,由于Kraken 2是唯一提供按每个读长分配分类的工具,因此我们评估了Kraken 2按读长分类的敏感性和准确性。
结果
对于Greengenes和SILVA数据库,Kraken 2和Bracken的数据库生成速度都快100倍。对于分类,使用与先前研究相同的数据,Kraken 2和Bracken的速度提高了300倍,使用的内存(RAM)减少了100倍,并且生成的结果比QIIME 2的分类插件在16S rRNA分析中更准确。
QIIME 2的分类插件(q2-feature-classifier)使用教程:
主要结果
图1. 构建和分类统计
Fig. 1 Build and classification statistics.
a. 为Kraken / Bracken和QIIME建立每个数据库所需的时间。Kraken和Bracken允许多线程,而QIIME 2的q2功能分类器是单线程的。建索引单线程快近10倍100倍,16线程最多快500倍。
b. 每个数据库的平均分类运行时间(以分钟为单位)。仅报告了1个线程的Kraken /Bracken组合运行时,因为所有运行时均小于1分钟,并且条形图太小而无法在此规模下看到。QIIME仅使用16和8线程运行SILVA。计算时间快近500倍。
c. 所有多线程选项的Kraken和Bracken分类运行时间(以秒为单位)
d. QIIME和Kraken / Bracken的计算内存使用量(RAM),以千兆字节(Gb)显示。仅报告了1个线程的Kraken / Bracken RAM需求,因为无论线程数如何,Kraken和Bracken都需要<0.5Gb的RAM。内存消耗节省近100倍。
e Kraken / Bracken的计算内存使用量(RAM),以兆字节(Mb)显示
图2. 模拟菌群的属分布
Fig. 2 Genera distribution for simulated microbiota.
该图比较了三个模拟微生物组样本(a人类肠道微生物组,b海洋微生物组,c土壤微生物组)中每个样本的真实属相对丰度与Kraken,Bracken和QIIME’s q2-feature-classifier估计的相对丰度。只有正确的属由不同的条形表示,而对“其他”不正确的分类单元的读长分配包括在“其他”中。Kraken+Bracken结果更准确
图3. MAPE和Bray-Curtis距离。
Fig. 3 MAPE and Bray-Curtis dissimilarity.
a. 该图通过使用两个误差度量的倒数来评估分类准确性:平均绝对比例误差(MAPE)和Bray-Curtis不相似度(BC)。在预测给定的宏基因组/数据库的所有样本的属读长计数时,比较Kraken,Bracken和QIIME’s q2-feature-classifier的准确性。
b. 对于给定的软件/数据库,比较所有3个基因组中各个引物的平均准确度。上图以1-MAPE计算精度,而下图则以1-BC计算
图4. Kraken每个读长的准确性
Fig. 4 Kraken per-read accuracy.
由于Kraken是唯一经过测试的工具,可提供按类别读长的分类,因此我们评估了Kraken 2分类在每个主要分类级别的敏感性和精确度(PPV)
结论
尽管每个16S rRNA数据库都代表大量细菌生物,但是宏分类学分类器的准确性在其中却有很大差异。在我们的实验中,无论分类中使用的软件如何,16S SILVA都能提供最低的错误率和最高的每读长精度。在所有数据库中,Kraken 2和Bracken在计算要求,运行时间和准确性方面均优于QIIME 2的q2功能分类器。在构建16S Greengenes数据库时,单线程Kraken / Bracken比QIIME 2快8倍,而在构建16S SILVA数据库时则快100倍。Kraken和Bracken还允许建立多线程数据库,从而可以在不到20分钟的时间内建立任何16S rRNA数据库。在分类方面,Kraken / Bracken使用的RAM减少了20倍,执行速度提高了300倍,并且比QIIME 2获得更好的属级分辨率。
参考文献
Jennifer Lu & Steven L. Salzberg. (2020). Ultrafast and accurate 16S rRNA microbial community analysis using Kraken 2. Microbiome 8, 124, doi: https://doi.org/10.1186/s40168-020-00900-2
猜你喜欢
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑
文献阅读 热心肠 SemanticScholar Geenmedical
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘
写在后面
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。
学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”