查看原文
其他

微生物多样性专题 | 扩增子测序分析实战(二)数据库整理之UNITE

2017-08-25 生信控



文:小样 | 编辑:湖心

本文系原创转载需授权


微生物多样性专题

扩增子测序分析实战(二)


数据库整理之UNITE


前几期,我们讲到了16S(常选RDP或Greengene)和18S(常选SILVA或PR2)的几种常用数据库,今天呢,小编给大家带来另一个针对ITS区域测序的权威数据库——UNITE(讲的不好,勿喷ღ( ´・ᴗ・` )比心)。


ITS(全称ribosomal internal transcribed spacer,核糖体基因内转录间隔区)是最常用的真菌鉴定及多样性检测的marker基因,UNITE数据库是专门针对真菌ITS序列(包括ITS1和ITS2区)最全的数据库,不用考虑ITS注释数据库的选择,UNITE就是近乎唯一的存在!


UNITE官方主页

https://unite.ut.ee/


通过主页可知,最近一次的更新是在2017-06-08,版本是V.7.2:

1,主页下方检索模块第一个参数Threshold可以选择不同的阈值对数据库中的序列进行聚类;

2,第二个参数include选择是否包含singleton序列,即没有与其碱基完全相同的物种序列;

3,第三个方框中可以直接填入一个感兴趣的物种【不填的话就默认统计数据库中所有物种】,然后点击Go,即可以查看左下角展示的物种序列统计信息及右下角对应的扇形图。


下图是以97%相似度聚类,不包含singleton序列,选取Glomeromycota门水平的物种,示例如下:


此外,UNITE数据库也内置了blast功能,可以通过首页右上角菜单栏 Run Analysis 看到,有兴趣的小伙伴可以再对该数据库进行详细了解。


我们现在重点讲解下数据下载及整理,数据下载路径https://unite.ut.ee/repository.php,官方提供了多种后续软件操作格式对应的数据,此处我们选择mothur软件对应格式,并后续对其进行处理【注:每种软件对应数据一样,只是格式不同!】



数据库下载

mothur release下有4个下载链接(选择最新版下载):

从上到下自定义为:Download1~4:

Download1:包含经过质量过滤但未经聚类的全部673903条UNITE+INSD序列【即为Download2中的数据】和UNITE species Hypotheses假设物种序列;

Download3:与Download4不同之处在于文件命名中是否带有s,

Download4:带s包含了singletons序列,相比较而言Download3中序列真实性更高,结果更准确,因此我们选择Download3下载:

wget https://unite.ut.ee/sh_files/sh_mothur_release_28.06.2017.zip

unzip sh_mothur_release_28.06.2017.zip


也可在windows系统下点击Download下载保存。


小贴士:如果点击Download后出现如下情况

可以连续点击Download两次,第二次不会出现上示情况,便可以进行下载~


下载解压后得到以下6个文件:


其中包括以3种不同的相似度(97/99/dynamic)聚类得到的序列文件(.fasta)及其注释文件(.tax),dynamic是指得到的序列间的相似度是不定的,官方解释如下:


小编这里是选取99的聚类序列和注释文件进行后续处理的(共包含29909条Fungi ITS序列~)。


UNITEv6_sh_99.fasta序列文件格式为:


UNITEv6_sh_99.tax注释文件格式为:



为了多种数据库格式统一,小编自己写了个perl脚本(需要的同学记得关注生信控后联系小编吆…),注释文件整理后:



嵌合体序列下载

对应的下载最新版的用于UCHIME软件的嵌合体序列:

wget https://unite.ut.ee/sh_files/uchime_reference_dataset_28.06.2017.zip

unzip uchime_reference_dataset_28.06.2017.zip

uchime_reference_dataset_28.06.2017/ITS1_ITS2_datasets下的嵌合体序列分别用于ITS1和ITS2数据:



目录整理

cp $pwd/UNITEv6_sh_99_new.tax ./

cp $pwd/ UNITEv6_sh_99.fasta ./

整理完成,最终目录结构如下:


到这里,UNITE数据库下载便大功告成…后续就可以使用mothur进行注释了吆…..




生物多样性专题

扩增子测序分析实战(一)前景概要

扩增子测序分析实战(二)数据库概述

扩增子测序分析实战(二)数据库整理之RDP

扩增子测序分析实战(二)数据库整理之taxdmp

扩增子测序分析实战(二)数据库整理之SILVA

扩增子测序分析实战(二)数据库整理之GreenGene

扩增子测序分析实战(二)数据库整理之PR2




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存