查看原文
其他

微生物多样性专题-扩增子测序分析实战(二)数据库整理之RDP

2017-08-06 生信控


文:向屿 | 编辑:湖心

本文系原创,转载需授权。


微生物多样性专题

扩增子测序分析实战(二)


数据库整理之RDP


看了昨天数据库概述的盆友是不是有些已经开始自己做整理了呢?不要怪小编啊,硬生生的把数据库准备步骤拆成了这么多部分(着实有些吊胃口和讨打的嫌疑),不过大家要相信我,因为数据库比较多,而且整理中各种暗藏的小坑也比较多,所以想要尽可能都照顾到,分开也好让大家可以有时间消化一下~

言归正传,接下来我们首先对RDP数据库的概况、下载及整理进行讲解。 一定要清楚我们最终要整理成的格式哦,这样我们才有个方向性,也就是我们今天这篇的目的!(错过数据库概述的和忘性比较好的同学,自行返回再看一下哈~)


官方主页

https://rdp.cme.msu.edu/index.jsp



RDP数据库全称“RibosomalDatabase Project”,是由密歇根州立大学开发维护的在线工具,包括数据库和分析工具两部分。其中分析工具最早是用于焦磷酸测序产生的16S数据分析,其后逐步拓展了在28S、ITS、功能基因的分析功能,并支持Illumina测序平台产生的数据,而数据库部分则提供高质量、已注释的细菌、古菌16S rRNA基因和真菌28S rRNA基因序列。目前其数据库最新版本为RDP Release 11.5,于2016年9月30日更新。更新后的数据库包含3,356,809条16S rRNA基因序列和125,525条真菌28S rRNA基因序列。

对于RDP分析工具的使用我们会在专题的后半部分再做详细说明,我们现在只关注数据库的下载和整理!


01


最新版数据下载路径

https://rdp.cme.msu.edu/misc/rel10info.jsp



点击进来之后,就可以看到如下的界面,可以看到该数据库分别提供了细菌、古菌和真菌28S的序列下载:

需要注意

Aligned的链接提供的是比对后的序列,文件很大,而我们实际分析中只需要下载Unaligned中的Fasta序列文件即可!



02


数据整理:【关键的部分来了,各位亲不要瞌睡,划重点了!

因为数据库会每年做更新,故为了区分每次更新的数据库版本,将下载的数据(细菌、古菌和真菌)解压并重新命名,添加版本信息:

该原始序列中包含序列id(S000632122)、物种注释信息(种水平注释+界门纲目科属种注释)、以及相应的碱基序列(gacgaa...):



值得注意的是

01Mothur软件中classify.seq命令

Mothur软件中classify.seq命令(用于物种注释)可能会将注释信息括号中的数据当做可信度(注释结果的可信度)去处理,而注释信息中的括号有多种情况:

如果种水平的注释信息中有分号,如上图中Ilumatobacter fluminis (T); YM22-133,则首先取分号前面的内容,此时,如果左括号之前没有空格或者是sp.+空格+括号,则空格中的内容是注释信息的一部分,需要把左括号换成下划线,右括号删除,否则删除整个括号!【因为mothur版本更新的时候发现的问题,而且括号可能会影响到后续R语言的处理分析,所以建议大家一定要先处理掉这个问题】


02classify.seq要求注释信息中不能包含“(-)”

classify.seq要求注释信息中不能包含“(-)”否则会报错,应该已经在第1步中处理完成:


03对于亚种的情况,以subsp字符为分隔

对于亚种的情况,以subsp字符为分隔,取前面的部分作为种水平注释


数据库中可能也存在着其他隐藏的问题,大家有什么使用心得或者我没发现的问题,烦请给予指正!


在对上述问题进行妥善处理之后,我们下一步就可以对数据库进行拆分了,以得到序列文件和序列注释文件,还记得要求的最终格式么?其实就是把序列id和碱基序列放到一个文件(.fasta文件),把序列id和序列注释放到另一个文件(.tax文件),两个文件可以通过id对应起来。由于数据库比较大,一条一条记录修改或者使用R去做文本处理是不现实的,所以可以选择在linux系统下使用perl或者pyhton去处理!【千万不要轻易拿自己的个人电脑做尝试哦,条件不允许的情况下知道怎么做就好了!而这里就引出了linux系统和编程在生物信息中的应用,这也是生物信息分析必备的技能,我们会在后面的相应专题中再做详细介绍!】这里小编是用perl做的,如果有需要参考或者分享python脚本的,记得联系小编哦~(在文末贴有有小编的联系方式)


如果想要自己的注释结果中同时包含细菌和古菌,则可以将拆分得到的Bacteria和Archaea的数据进行合并,在linux系统下用cat完成即可,命令如下:

cat RDP_11.5_Bacteria.tax RDP_11.5_Archaea.tax > RDP_11.5_Bacteria_Archaea.tax


cat RDP_11.5_Bacteria.fasta RDP_11.5_Archaea.fasta > RDP_11.5_Bacteria_Archaea.fasta


同样,如果需要使用RDP提供的Fungi数据库,也可整理出来,目录下文件整理完成后如下:


至此我们对RDP数据库的整理就算完成了,RDP_11.5_Bacteria_Archaea.fasta和RDP_11.5_Bacteria_Archaea.tax即为classify.seq进行16S物种注释时需要输入的参数啦!



小编向屿的微信,欢迎大家骚扰~

如果大家有什么不清楚的地方,欢迎在我们的生信控分享交流群中讨论哦~


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存