微生物多样性专题 | 扩增子测序分析实战(二)数据库整理之taxdmp
文:向屿 | 编辑:湖心
本文系原创转载需授权
微生物多样性专题
扩增子测序分析实战(二)
数据库整理之taxdmp
举个例子,给定一个物种的名称,如何知道它是属于界门纲目科属种中的哪一分类水平呢?即如何知道它的rank信息?例如给定fungi,我们知道它是kingdom水平,那如果给定enterobacter或者其它没那么常见的物种,我们可能就要去NCBI的Taxonomy https://www.ncbi.nlm.nih.gov/taxonomy 数据库去查一查了:
NCBI的Taxonomy
现在我们知道enterobacter是属水平的,所以可以通过Taxonomy数据库去检索并得到NCBI收录的所有物种其对应的rank信息,如果想要批量查询或者更适用于流程化的操作,就需要将数据库本地化,也就是我们今天要说的taxdmp了,so?我为什么要批量查询...?因为SILVA数据库只给了物种名称,但是并没有像RDP一样给出物种对应的rank信息,所以我们要想得到SILVA的准确注释,就离不开taxdmp数据库。
原来如此....【一脸蒙蔽状的小伙伴不要紧,下期我们讲到SILVA的时候,你就明白了,现在我们只需要知道taxdmp可以提供物种对应的rank信息!】
NCBI的ftp下载地址
ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdmp.zip
下载并解压后,包含如下文件:
主要文件内容解释如下:
01
1、readme.txt 目录下所有文件的列说明文件
02
2、nodes.dmp
每行是一个物种【不仅是species水平】,共13列信息,上图只截取了一部分信息,前3列说明如下:
tax_id:-- node id in GenBank taxonomy database 物种的id
parent tax_id:-- parent node id in GenBank taxonomy database 父节点物种id
rank: -- rank of this node (superkingdom, kingdom, ...) 物种的rank信息
03
3、names.dmp
共4列:
tax_id: -- the id of node associated with this name【同node.dmp中的第一列】
name_txt:-- node name 物种名称【会有重复!即相同名称,不同的node/rank】
unique name:-- the unique variant of this name if name not unique 【如果name有重复,则取唯一名称,添加<>加以区分,*** taxmap_ncbi_ssu_ref_nr99_128.txt.gz SILVA 中出现的<>注释信息就是这个!***】
name class:-- (synonym, common name, scientific name ...) 名称分类【物种会有别名!涉及到更新的问题,某些名称可能就会变!】
如果把每个物种当做一个node,则该node对应的rank信息在nodes.dmp中,而node对应的物种信息在names.dmp中,由此可以提取出每个物种对应的rank信息!
04
4、生成文件Tax_Rank_Annotation_Uniq,
第一列为物种名称,第二列为rank信息,格式如下:
这时候就需要从taxdmp中提取出物种的所有名称,包括别名、错拼名等,才能应对各种来源的名称(如SILVA注释数据),从而更准确的判断物种所属rank,更完美的是,可以将SILVA中错拼的、别名等全部替换成官方命名,即sientific name!
综上,需要把taxdmp整理成如下的格式:
第一列为物种id,第二列为物种名称,第三列为rank信息,第四列为名称分类。
该数据将用于SILVA数据库整理【名称转换为scientific name 以及添加rank信息】