生物信息神奇网站系列(九):批量下载序列
编者按
在《手把手教你生信分析平台搭建专栏》中,我们介绍过利用Aspera快速下载生物数据,例如下载某个物种基因组数据。但是如果想下载来自多个物种的不同基因序列,例如给定一个基因列表list,如何下载到这些序列呢?这就需要用到Batchentrez。
专栏二:
九:批量下载序列Batchentrez
https://www.ncbi.nlm.nih.gov/sites/batchentrez
批量下载基因序列有多种方式,可以通过编程实现,也可以通过固定模块例如bioperl,biopython等。如果不会编程,batchentrez就是最好的选择了。Entrez是NCBI官方的数据检索系统,B 48 30530 48 14941 0 0 2295 0 0:00:13 0:00:06 0:00:07 3445atch Entrez显然就是批量检索。越到这种问题,真的有人一条条序列下载,这样不仅浪费时间,而且容易出错。(我以前就是手工一条条序列下载)
1、首先登陆网站,首次使用请注意阅读说明和注意事项。
2、网站的使用其实并不难,首先选择要使用的数据库,然后点击选择上传ID文件,序列的ID可以是accession numbers或者identifiers。
3、这里我们利用GI号,下载8个基因的序列,文件格式如图所示。
4、数据库需要选择默认的,上传文件,点击Retrieve。
5、batchentrez会检查文件中序列ID信息,并且会去除重复,返回检索结果,这里有5个检索不到序列。
6、点击图中蓝色链接,链接到新的页面,选中要下载的序列,然后在Sent to中进行选择,包括输出文件内容和文件格式等。
7、点击Create FIle,这样序列就下载好了。
Tips:1,、注意输入文件格式,ID只能使用accession numbers or identifiers。
2、选择的数据库要和输入的序列ID相一致。
3、序列ID后面不要加空格,注意不同系统中换行符问题。
---------- END ----------
(添加作者微信,备注好单位+姓名)
您可能还会感兴趣的
手把手教你生信分析平台搭建专栏合集
《R语言入门与数据分析》视频教程上线了
Perl还是Python或者R
绘制manhanttan图
利用R绘制GO条目图
如何在Linux下优雅的装X
利用R实现vlookup
生物学才是终极学科