查看原文
其他

变异形式专题-参考基因组

梅零落 生信菜鸟团 2020-02-03

在对测序数据进行分析时,首先要了解下测序物种的信息,如果该物种的基因组已完成了测序并公开发表,那么可以从公共数据库中下载该物种的全基因组信息,将测序数据与参考基因组进行比对,再进行后续分析;如果没有基因组的信息,需要对测序数据进行组装,基因预测等,或者与近缘物种基因组做序列比对。

常用参考基因组数据库

1、Ensembl

是由 European Bioinformatics Institute(EBI)与Wellcome Trust Sanger Institute(WTSI)共同合作开发的数据库项目。涵盖大量物种的参考基因组信息,并且数据更新及时,是参考基因组下载的好选择。

http://www.ensembl.org/index.html

2、NCBI

是National Centerfor Biotechnology Information的缩写,指美国国立生物技术信息中心。NCBI的全面和强大,相信大家都深有感触,NCBI在参考基因组信息分享上同样表现出色。

http://www.ncbi.nlm.nih.gov/guide/howto/submit-sequence-data

3、UCSC能查找到的数据有限,使用率比不上前两个数据库。

http://genome.ucsc.edu

4、Private Database在以上数据库查找不到的参考基因组,还可以尝试一些Private Database。例如JGI(Phytozome),可用于植物参考基因组的查找。

http://phytozome.jgi.doe.gov/pz/portal.html

5、FlyBase

对于模式生物,一些比较个性化的网站也非常实用。例如 FlyBase , 整合了果蝇遗传和基因组数据,并提供了基因和分子水平的检索和可视化,目前网站的 Beta 版本也已经上线。

http://flybase.org/

补充

分享一下常用物种的参考基因组数据下载网址:

illumina的iGenomes打包了各物种齐全的参考数据信息:

https://support.illumina.com/sequencing/sequencing_software/igenome.html

三大基因组数据库基因组各种版本对应关系(生信菜鸟团博客):

http://www.bio-info-trainee.com/1469.html

查找参考基因组方法

不同数据库下载的基因组数据略有差异,主要是体现在版本的编号,序列id的命名等,但在编码序列上是一致的。另外,不同数据库提供的注释文件格式不同,在进行格式转换时,要保证基因组的版本号一致。这里简单介绍举例几种方法:

1.Ensemble:

适用于动物参考基因组查找,网站也包括动物、植物及真菌基因组等;

第一种方法:

(1)进入Ensembl数据库是这样的:

(2)点击View full list of all Ensembl species,进入以物种名称排序的数据列表:

(3)如果列表中含有目标物种,可直接点击名称进入;如没有目标物种,需要在空白框“Filter”中输入物种英文名。例如输入“dolphin”,将会筛选留下该物种的数据信息,界面如下:

(4)点击物种名称,进入如下界面:

(5)点击Download DNA sequences(FASTA),现在进入的就是参考基因组的下载页面啦!

后缀为toplevel.fa.gz的压缩文件,即为我们要下载的该物种全基因组序列,点击即可马上下载,该数据可直接用于该物种的重测序研究。

第二种方法

通过Downloads进入:如果您想要一次下载多个参考基因组数据,那么建议选择第二种方法。

(1)首先进入Ensembl数据库,找到Downloads:

(2)然后点击Downloads,进入如下页面:

(3)点击右侧的“Download data via FTP”,进入FTP Download界面:

(4)点击FTP site,进入ftp://ftp.ensembl.org/pub/ 的索引页面,我们现在已经离参考基因组越来越近啦!

下拉,可以看到有多个参考基因组数据版本可供选择,不同版本之间差异微小。

(5)我们以release-79版本为例,进行介绍。点击release-79, 出现如下界面:

(6)点击fasta,进入ftp://ftp.ensembl.org/pub/release-79/fasta/的索引页面,会出现以不同物种拉丁名命名的文件包。

(7)点击您感兴趣的物种,进入该物种的文件包。可根据您的需求选择数据,如果打算进行重测序研究,则点击进入dna文件包。

(8)后缀为toplevel.fa.gz的压缩文件,即为我们要找的该物种全基因组序列,点击即可马上下载,该序列可直接用来进行后续的重测序研究。

2.JGI(Phytozome)

适用于植物参考基因组查找,网站也包括动物等其他物种,这个网站植物基因组更新比较快,动物基因组更新较慢

(1)打开网址:https://phytozome.jgi.doe.gov/pz/portal.html#;点击“species”(如下图)或者点击红色框中的图片,再输入基因序列号即可查找到序列:

(2)植物有参考基因组的物种数不是很多,直接在species中也可以查看,可不需要搜索。如果这个网站没有对应的参考基因组,则需要去NCBI上试试看。

(3)点击download下载数据:

PS:这个数据也可以进行一些其他的分析,如下图:

小结

动物和植物的参考基因组查找就讲完了,以上两个网站基本包括了目前已有参考基因组的物种,如还想确认,可进入NCBI查询。

3.NCBI查询

这种方法也比较简单,下拉框中选择“Genome”,在搜索框中输入物种名,根据得到的结果选定你需要的基因(红色框标记内容),打开查看或者下载就好了。

其他推荐:生信菜鸟团-专题学习目录

还有更多文章,请移步公众号阅读

如果你生信基本技能已经入门,需要提高自己,请关注上面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。

如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存