查看原文
其他

微生物多样性专题 | 扩增子测序分析实战(二)数据库整理之GreenGene

2017-08-15 生信控

愿关注我们的人都能找到

属于自己的皮球

文:向屿 | 编辑:湖心

本文系原创转载需授权


微生物多样性专题 

扩增子测序分析实战(二)


数据库整理之GreenGene

我们今天故事的主角是GreenGene,在16S物种数据库里面可以说是大名鼎鼎了,即便是多年没有更新,但是使用该数据库进行物种注释依然是很多科研工作者不变的选择,而且16S功能分析工具PICRUSt也是基于该数据库的,可想而知其影响力。


官方主页:

http://greengenes.lbl.gov/cgi-bin/nph-index.cgi 


新的官网链接 

http://greengenes.secondgenome.com/ 

倒是简单,只提供数据库下载:


从官网上可以看到,最新的数据库更新停留在了2013年5月,即gg_13_5版本,但是目前可以在QIIME官网上下载到gg_13_8版本,数据下载路径:

ftp://greengenes.microbio.me/greengenes_release/gg_13_5/gg_13_8_otus.tar.gz


解压缩后可见:

1、notes:简要的说明文档;

2、otus:在不同相似度标准下使用 pick_otus.py 聚OTU得到的map文件;

3、rep_set/rep_set_aligned:在不同相似度标准下使用 pick_otus.py 聚OTU得到的OTU代表序列;

4、taxonomy:OTU代表序列对应的物种注释信息;

5、trees:树文件


以99%序列相似度得到的数据库文件中,包含203452条16S序列(99_otus.fasta),序列格式如下:


而其对应的序列注释文件(99_otu_taxonomy.txt)已经对部分属种水平注释进行了一点补充:



注:

1、与之前讲到的数据库物种注释信息的格式略有不同,因为是qiime整理的格式,故可以看到对于不同分类水平,其rank注释是以下划线前面的字母标识的,分别是k、p、c、o、f、g、s,对应界门纲目科属种;

2、GreenGene数据库比较明显的问题就是属种水平注释低,所以很多条目里,g和s下划线后面都是空的;


GreenGene数据库的格式整理比较简单,依据下划线前的rank信息,将rank全称整理成后面带大括号的格式即可,如下:



通过统计可知,属水平无注释信息的序列占50%左右,而种水平达到90%左右:

所以,如果关注属种水平的注释,则不建议使用该数据库。




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存