查看原文
其他

生信平台搭建(十七):lftp下载基因组数据

王通 基因学苑 2023-08-18

下载基因组或者数据库有很多种方法,比如得到数据地址之后,可以使用wget,curl命令进行下载,也可以使用图形化的filezilla,不过当数据比较大的时候,不如直接使用ftp命令直接访问ftp地址进行下载。lftp是一个很好ftp访问工具。

下载安装

直接使用yum search工具进行搜索,然后使用yum install进行安装。

root 11:11:51 ~
$
 yum search lftp
root 11:11:51 ~
$
 yum install -y lftp.i686 lftp.x86_64

lftp访问ENSEMBL

安装完成之后就可以直接使用lftp命令访问ftp地址,只要是各种ftp://开头的站点都可以。我们使用lftp访问ENSEMBL下载人的gtf文件和序列文件。

#访问ENSEMBL
lftp ftp://ftp.ensembl.org/pub/
#使用ls命令列出文件
ls
#进入到gtf文件目录
cd release-96/gtf/homo_sapiens
#使用mget命令下载
mget Homo_sapiens.GRCh38.96.chr.gtf.gz
#进入到fasta文件目录
cd ~/pub/release-96/fasta/homo_sapiens/dna
ls
#下载人全基因组序列
meget Homo_sapiens.GRCh38.dna_rm.primary_assembly.fa.gz

GATK数据下载

GATK的数据需要使用lftp访问,mget只能下载单个文件,如果要下载整个目录,需要使用mirror命令。GATK的服务器国内下载速度较慢。

lftp ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle
Password: 
cd ok, cwd=/bundle                                                                            
lftp gsapubftp-anonymous@ftp.broadinstitute.org:/bundle> ls
drwxr-xr-x   3 shlee    broad         238 Jan 29  2018 Mutect2
drwxrwxr-x   2 ebanks   wga          9728 Dec  9  2013 b36
drwxrwxr-x   2 ebanks   wga         12802 Feb 10  2017 b37
drwxr-xr-x   5 shlee    broad          81 Jul 30  2018 beta
drwxrwxr-x   2 vdauwera broad        1106 Jan 25 17:45 funcotator
drwxrwxr-x   2 ebanks   wga         10022 Dec  9  2013 hg18
drwxrwxr-x   2 ebanks   wga         10010 Feb 10  2017 hg19
drwxrwxr-x   3 vdauwera broad        1247 Feb 10  2017 hg38
drwxr-xr-x   2 shlee    broad          52 Jan  3  2017 oncotator
drwxr-xr-x   2 shlee    broad         203 Jul 30  2018 pathseq
lftp gsapubftp-anonymous@ftp.broadinstitute.org:/bundle> 
#使用mirror命令下载
mirror hg38

其他ftp地址

NCBI ftp://ftp.ncbi.nlm.nih.gov/
国家基因库:ftp://ftp.cngb.org/pub/
HISAT2:ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/


---------- END ----------

(添加作者微信,请注明单位姓名)



您可能还会感兴趣的

R语言与生物信息(深圳站)开课了
上传数据,直接分析,1T内存服务器来了
手把手教你生信分析平台搭建专栏合集
生物信息重要资源站点合集
不会编程,如何进行批量操作
一个人全基因组完整数据分析脚本
一个细菌基因组完整分析脚本
如何在Linux下优雅的装X


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存