其他
生信平台搭建(十七):lftp下载基因组数据
下载基因组或者数据库有很多种方法,比如得到数据地址之后,可以使用wget,curl命令进行下载,也可以使用图形化的filezilla,不过当数据比较大的时候,不如直接使用ftp命令直接访问ftp地址进行下载。lftp是一个很好ftp访问工具。
下载安装
直接使用yum search工具进行搜索,然后使用yum install进行安装。
root 11:11:51 ~
$ yum search lftp
root 11:11:51 ~
$ yum install -y lftp.i686 lftp.x86_64
lftp访问ENSEMBL
安装完成之后就可以直接使用lftp命令访问ftp地址,只要是各种ftp://开头的站点都可以。我们使用lftp访问ENSEMBL下载人的gtf文件和序列文件。
#访问ENSEMBL
lftp ftp://ftp.ensembl.org/pub/
#使用ls命令列出文件
ls
#进入到gtf文件目录
cd release-96/gtf/homo_sapiens
#使用mget命令下载
mget Homo_sapiens.GRCh38.96.chr.gtf.gz
#进入到fasta文件目录
cd ~/pub/release-96/fasta/homo_sapiens/dna
ls
#下载人全基因组序列
meget Homo_sapiens.GRCh38.dna_rm.primary_assembly.fa.gz
GATK数据下载
GATK的数据需要使用lftp访问,mget只能下载单个文件,如果要下载整个目录,需要使用mirror命令。GATK的服务器国内下载速度较慢。
lftp ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle
Password:
cd ok, cwd=/bundle
lftp gsapubftp-anonymous@ftp.broadinstitute.org:/bundle> ls
drwxr-xr-x 3 shlee broad 238 Jan 29 2018 Mutect2
drwxrwxr-x 2 ebanks wga 9728 Dec 9 2013 b36
drwxrwxr-x 2 ebanks wga 12802 Feb 10 2017 b37
drwxr-xr-x 5 shlee broad 81 Jul 30 2018 beta
drwxrwxr-x 2 vdauwera broad 1106 Jan 25 17:45 funcotator
drwxrwxr-x 2 ebanks wga 10022 Dec 9 2013 hg18
drwxrwxr-x 2 ebanks wga 10010 Feb 10 2017 hg19
drwxrwxr-x 3 vdauwera broad 1247 Feb 10 2017 hg38
drwxr-xr-x 2 shlee broad 52 Jan 3 2017 oncotator
drwxr-xr-x 2 shlee broad 203 Jul 30 2018 pathseq
lftp gsapubftp-anonymous@ftp.broadinstitute.org:/bundle>
#使用mirror命令下载
mirror hg38
其他ftp地址
NCBI ftp://ftp.ncbi.nlm.nih.gov/
国家基因库:ftp://ftp.cngb.org/pub/
HISAT2:ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/
---------- END ----------
(添加作者微信,请注明单位姓名)
您可能还会感兴趣的
上传数据,直接分析,1T内存服务器来了
手把手教你生信分析平台搭建专栏合集
生物信息重要资源站点合集
不会编程,如何进行批量操作
一个人全基因组完整数据分析脚本
一个细菌基因组完整分析脚本
如何在Linux下优雅的装X