查看原文
其他

生物信息神奇网站系列(九):批量下载序列

2018-02-18 王通 基因学苑

编者按

在《手把手教你生信分析平台搭建专栏》中,我们介绍过利用Aspera快速下载生物数据,例如下载某个物种基因组数据。但是如果想下载来自多个物种的不同基因序列,例如给定一个基因列表list,如何下载到这些序列呢?这就需要用到Batchentrez。

专栏一:手把手教你生信分析平台搭建专栏合集

专栏二:

生物信息神奇网站系列(一):R绘图Gallery

生物信息神奇网站系列(二):Python绘图Gallery

生物信息神奇网站系列(三):Seqanswers

生物信息神奇网站系列(四):Biostars

生物信息神奇网站系列(五):文件格式解析

生物信息神奇网站系列(六):Omictools

生物信息神奇网站系列(七):Mybiosoftware

生物信息神奇网站系列(八):SCI-HUB


九:批量下载序列Batchentrez

https://www.ncbi.nlm.nih.gov/sites/batchentrez


批量下载基因序列有多种方式,可以通过编程实现,也可以通过固定模块例如bioperl,biopython等。如果不会编程,batchentrez就是最好的选择了。Entrez是NCBI官方的数据检索系统,B 48 30530 48 14941 0 0 2295 0 0:00:13 0:00:06 0:00:07 3445atch Entrez显然就是批量检索。越到这种问题,真的有人一条条序列下载,这样不仅浪费时间,而且容易出错。(我以前就是手工一条条序列下载)


1、首先登陆网站,首次使用请注意阅读说明和注意事项。


2、网站的使用其实并不难,首先选择要使用的数据库,然后点击选择上传ID文件,序列的ID可以是accession numbers或者identifiers。


3、这里我们利用GI号,下载8个基因的序列,文件格式如图所示。

4、数据库需要选择默认的,上传文件,点击Retrieve。


5、batchentrez会检查文件中序列ID信息,并且会去除重复,返回检索结果,这里有5个检索不到序列。

6、点击图中蓝色链接,链接到新的页面,选中要下载的序列,然后在Sent to中进行选择,包括输出文件内容和文件格式等。

7、点击Create FIle,这样序列就下载好了。



Tips:1,、注意输入文件格式,ID只能使用accession numbers or identifiers。

2、选择的数据库要和输入的序列ID相一致。

3、序列ID后面不要加空格,注意不同系统中换行符问题。


---------- END ----------

(添加作者微信,备注好单位+姓名)



您可能还会感兴趣的

手把手教你生信分析平台搭建专栏合集
《R语言入门与数据分析》视频教程上线了
Perl还是Python或者R
绘制manhanttan图
利用R绘制GO条目图
如何在Linux下优雅的装X
利用R实现vlookup
生物学才是终极学科


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存