查看原文
其他

微生物多样性专题 | 扩增子测序分析实战(二)数据库整理之taxdmp​

2017-08-08 生信控

文:向屿 | 编辑:湖心

本文系原创转载需授权


微生物多样性专题 

扩增子测序分析实战(二)


数据库整理之taxdmp

大家在看到这个数据库的时候,可能会有疑惑,这个数据库并没有出现在我们的数据库概述中,那这个数据库是干啥的呢?

举个例子,给定一个物种的名称,如何知道它是属于界门纲目科属种中的哪一分类水平呢?即如何知道它的rank信息?例如给定fungi,我们知道它是kingdom水平,那如果给定enterobacter或者其它没那么常见的物种,我们可能就要去NCBI的Taxonomy https://www.ncbi.nlm.nih.gov/taxonomy 数据库去查一查了:

NCBI的Taxonomy


现在我们知道enterobacter是属水平的,所以可以通过Taxonomy数据库去检索并得到NCBI收录的所有物种其对应的rank信息,如果想要批量查询或者更适用于流程化的操作,就需要将数据库本地化,也就是我们今天要说的taxdmp了,so?我为什么要批量查询...?因为SILVA数据库只给了物种名称,但是并没有像RDP一样给出物种对应的rank信息,所以我们要想得到SILVA的准确注释,就离不开taxdmp数据库。


原来如此....【一脸蒙蔽状的小伙伴不要紧,下期我们讲到SILVA的时候,你就明白了,现在我们只需要知道taxdmp可以提供物种对应的rank信息!

        

NCBI的ftp下载地址

 ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdmp.zip 


下载并解压后,包含如下文件:


主要文件内容解释如下:

01

1、readme.txt 目录下所有文件的列说明文件


02

2、nodes.dmp

每行是一个物种【不仅是species水平】,共13列信息,上图只截取了一部分信息,前3列说明如下:

tax_id:-- node id in GenBank taxonomy database 物种的id

parent tax_id:-- parent node id in GenBank taxonomy database 父节点物种id

rank: -- rank of this node (superkingdom, kingdom, ...) 物种的rank信息


03

3、names.dmp

共4列:

tax_id: -- the id of node associated with this name【同node.dmp中的第一列】

name_txt:-- node name 物种名称【会有重复!即相同名称,不同的node/rank】

unique name:-- the unique variant of this name if name not unique 【如果name有重复,则取唯一名称,添加<>加以区分,*** taxmap_ncbi_ssu_ref_nr99_128.txt.gz SILVA 中出现的<>注释信息就是这个!***】

name class:-- (synonym, common name, scientific name ...) 名称分类【物种会有别名!涉及到更新的问题,某些名称可能就会变!】


如果把每个物种当做一个node,则该node对应的rank信息在nodes.dmp中,而node对应的物种信息在names.dmp中,由此可以提取出每个物种对应的rank信息!


04

4、生成文件Tax_Rank_Annotation_Uniq,

第一列为物种名称,第二列为rank信息,格式如下:


现在,我们来思考一个问题,由于来源于NCBI的taxdmp数据库是持续更新的,那会不会存在一种情况,需要提取rank信息的数据库(如SILVA),其存储的物种名称是别名或者是更新前的名称?

这时候就需要从taxdmp中提取出物种的所有名称,包括别名、错拼名等,才能应对各种来源的名称(如SILVA注释数据),从而更准确的判断物种所属rank,更完美的是,可以将SILVA中错拼的、别名等全部替换成官方命名,即sientific name!


综上,需要把taxdmp整理成如下的格式:

第一列为物种id,第二列为物种名称,第三列为rank信息,第四列为名称分类。

该数据将用于SILVA数据库整理【名称转换为scientific name 以及添加rank信息】



生物多样性专题历史文章

扩增子测序分析实战(一)前景概要

扩增子测序分析实战(二)数据库概述

扩增子测序分析实战(二)数据库整理之RDP


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存