微生物多样性专题 | 扩增子测序分析实战(二)数据库概述
文:向屿 | 编辑:湖心
本文系原创转载需授权
微生物多样性专题
扩增子测序分析实战(二)
数据库概述
首先我们看下图所示的微生物分析必备的4个要素【测序数据+注释数据库+分析软件+分析流程】:
在得到测序数据(fastq格式的碱基序列文件)之后,需要同时具备分析软件、用于物种注释的数据库和分析流程,才能完成一个扩增子测序的分析工作,当然分析流程需要基于软件、数据库和大量的脚本去搭建,小编会尽可能的把这些内容进行分割细化,当大家对细节有了一定的了解之后,流程就是水到渠成的事啦!
首先,我们会用数期的时间去详细描述分析所需数据库的准备工作,本期是对扩增子测序所有常用数据库的总览以及数据库整理的最终格式的描述,而其后将对各数据库的概况、下载及整理做详细的描述。【其实小编本来打算两期写完,但是本着让大家看到的更细致、理解的更透彻的原则,我发现信息量太大,两期装不下..........】
言归正传,我们知道扩增子测序分析主要通过测序手段得到样品中微生物marker基因序列(16S, 18S, ITS功能基因),进而分析物种的组成和结构,这就离不开对测序产生的序列进行物种注释,因此我们需要高质量的物种信息数据库来注释样品中所包含的物种。对于16S, 18S和ITS来说,目前比较常用的几个公共数据库有RDP, SILVA, GreenGene, UNITE以及最近渐入视野的PR2数据库,对于功能基因,FunGene数据库则是最全面且最常用的。
注意
由于每个数据库收录信息的格式稍有不同,将不同的数据库下载后并整理成统一的格式,将有助于我们简化后续分析的过程。01
1)16S, 18S和ITS测序的物种注释可以使用mothur软件中的classify.seqs命令完成,命令为"#classify.seqs(fasta=otu.fasta,template=database.fa, taxonomy=database.tax, processors=30, cutoff=80)", 其中
database.fa 为整理后的序列文件,格式如下:
格式说明:两行为一条记录单位,两行中>开头的为该序列在数据库中的编号,两行中的第二行为该物种的碱基序列;
database.tax为整理后的物种注释文件,格式如下:
格式说明:每行为一条记录单位,对于每行,以tab键为分割,左侧的为该序列在数据库中的编号,与database.fa中的>行一致,右侧为界门纲目科属种7个分类水平的物种注释,各水平注释以{}标注,以分号隔开;
02
2)由于classify.seqs不支持蛋白序列的物种注释,故对于功能基因分析,则不需要将数据库整理成上述格式(但是基本的整理还是需要的~),且物种注释使用blastp工具即可(因为物种数据和数据库都是蛋白序列),最终整理完成的格式如下:
格式说明:两行为一条记录单位,两行中>开头的数字为该序列在数据库中的编号,其后为界门纲目科属种7个分类水平的物种注释,两行中的第二行为该物种的氨基酸序列;
综上,对于16S、18S、和ITS我们会将数据库文件下载后整理成2个独立的文件,即序列文件和序列注释文件(classify.seqs命令的输入参数要求),而对于功能基因,我们会将数据库整理成一个同时包含序列及序列注释的文件。