JGG | TaxonKit:一款实用又高效的NCBI分类学数据工具包
DOI:https://doi.org/10.1016/j.jgg.2021.03.006
JGG | TaxonKit:一款实用又高效的NCBI分类学数据工具包
2021年4月15日,JGG在线发表了重庆医科大学病毒性肝炎研究所任红教授和沈伟博士题为“TaxonKit: a practical and efficient NCBI Taxonomy toolkit”的研究论文。该论文报道了一款功能丰富且计算性能高效的NCBI分类学数据操作工具TaxonKit。
NCBI Taxonomy分类学数据库是目前应用最广泛的生物分类和命名数据库之一,广泛应用于生物医学与生态学研究领域。该数据库中所有生物之间的分类学层级关系组成一个树状结构,每个节点对应一个分类学单元,包含ID (TaxId)、分类名称、层级等信息。
虽然NCBI提供了分类学数据的在线查询与展示,然而其功能有限且难以实现批量处理。而目前E-utilities、Taxize、ETE等软件的功能与处理效率仍无法满足广大研究者的需求。该研究介绍的TaxonKit是由7个子命令组成的支持多操作系统的命令行工具 (如图所示),其功能相对独立,且组合后可实现复杂功能,同时易于集成到生物信息分析流程中。
TaxonKit功能示意图
除了基本的分类学信息查询功能外,TaxonKit还提供了多个实用的功能。如List命令可获取指定种属对应的所有TaxId,用于BLAST搜索中限定物种范围,从而加速序列比对。Reformat命令可将冗长的谱系数据转化为“界门纲目科属种”等自定义格式,并补齐缺失的层级信息,便于宏基因组分类数据的标准化。Taxid-changelog命令对所有物种的分类信息存档进行追踪,生成一份TaxId变更日志,可用于检测微生物组成数据的兼容性,并反映研究者对新发现物种的认识过程。
TaxonKit拥有广泛的用户,到目前为止在Bioconda上已累计下载19000次,单版本最高下载数1700次,还被集成到NIH超算中心的BIOWULF计算平台中。TaxonKit源代码和程序可在Github (https://github.com/shenwei356/taxonkit/)获取,文档托管于 https://bioinf.shenwei.me/taxonkit/
重庆医科大学病毒性肝炎研究所暨感染性疾病分子生物学教育部重点实验室博士后沈伟为该论文的第一作者,沈伟博士和任红教授为该论文的共同通讯作者。相关工作得到国家自然科学基金、国家科技重大专项等资助。
猜你喜欢
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑
文献阅读 热心肠 SemanticScholar Geenmedical
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘
写在后面
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。
学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”