如何下载生物数据(三):GATK数据下载
当前做人相关的基因组分析,包括全基因组WGS,全外显子WES以及目标区域测序TRS,基本上都采用GATK标准的Best Practise最佳实践指导。人的基因组分析与其他物种稍微有一些不同,处理下载参考序列,还需要下载已有信息,例如各种人类基因组计划累积的变异信息,这些信息可以用于先验的学习集,提高变异检测的准确性。因此,如果想使用GATK软件,首先就需要下载GATK使用的数据集。
基因组版本选择
由于人的染色体存在多个数据中心,并且有多次更新,因此,当前有多个命名以及多个版本,搞不清这些版本和命名,有时候会产生很严重的后果。因为不同的命名之间序列的ID不同,比如1号染色体,有些是chr1,有些直接就是数字1,不同版本之间存在坐标这件的不同,因为很多注释数据库对染色体有版本要求,不同版本之间需要坐标转换之后才能使用。
UCSC命名最简单,就是hg加数字,比如hg18,hg19和hg38这些版本比较常用;
NCBI的命名更复杂一些,是GRCH开头,然后数字,36,37,38等。
而ENSEMBL命名就更复杂了,只给出版本比如52,59,61,80,81,82等。
这三种命名方式有一个对应关系。如图所示。
hg18 = GRCh36 = ENSEMBL release_52
hg19 = GRCh37 = ENSEMBL release_59/61/64/68/69/75
hg38 = GRCh38 = ENSEMBL release_76/77/78/80/81/82
这里面使用最多的就是hg19和hg38的版本,不同版本基因组之间主要有哪些差别呢,理论上来说越大版本基因组,序列的准确性越高。但是这里面有一个坐标位置的问题。就是我们无法保证坐标完全一致,基因组上坐标修改一个位置,与之相关联的所有内容要发生变化,例如这个坐标已经与dbSNP的rs号相对应了,这也就是为什么虽然现在已经有了hg38,但是hg19这个版本使用依然非常广泛,就是因为大量的注释信息都是基于hg19的版本来做的,如果要切换到hg38,所有的内容都需要改,工作量很大。此外,同一个版本还有很多子版本,例如37.1,37.2,37.3等。这种版本主要是基因组注释信息在更新,基因组序列没有发生变化。
GATK bundle
GATK在官网提供了一个resource bundle,里面包含了所需要的很多数据,如果使用gatk软件,最好把这些数据下载下来。
这些数据提供 FTP 和 Google Cloud bucket两种下载方式。但是因为你知道的原因,我们使用不了google,所以只能使用ftp的方式来进行下载。
https://software.broadinstitute.org/gatk/
https://software.broadinstitute.org/gatk/download/bundle
lftp数据下载
GATK官网推荐使用lftp工具进行访问ftp和下载数据,如果服务器中没有lftp命令,可以提前下载安装,最好使用管理员安装。
yum -y install lftp #Redhat 系列
apt -y install ftp #Debian系列
接下来直接在命令行中通过命令访问ftp服务器进行下载。这些数据都放置在broad的服务器上,没有镜像站点,离我们很远,并且网站限制并发链接,也就是如果全球有多人同时下载,你可能访问不上去。
首先lftp,后面跟用户名,然后at符号,ftp服务器地址。
lftp ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/
这里密码是空的,我们直接敲回车即可。
这样就访问就来了。接下来可以使用cd ls等命令来查看数据。里面包含很多数据目录,你可以选择不同版本的人基因组数据,cd到b37的目录看一下。里面包含了非常多的内容,包括各种数据库,千人基因组的snp和indel文件,dbsnp,瓶中基因组计划的结果。外显子联盟的,Mills_and_1000G_gold_standard.indels,这个是比较准确的人indel数据,这些都可以用在gatk vqsr的机器学习中。此外还包括人基因组序列,各种建好的索引文件等。
1000G_omni2.5.b37.vcf.gz
1000G_omni2.5.b37.vcf.gz.md5
1000G_omni2.5.b37.vcf.idx.gz
1000G_omni2.5.b37.vcf.idx.gz.md5
1000G_phase1.indels.b37.vcf.gz
1000G_phase1.indels.b37.vcf.gz.md5
1000G_phase1.indels.b37.vcf.idx.gz
1000G_phase1.indels.b37.vcf.idx.gz.md5
1000G_phase1.snps.high_confidence.b37.vcf.gz
1000G_phase1.snps.high_confidence.b37.vcf.gz.md5
1000G_phase1.snps.high_confidence.b37.vcf.idx.gz
1000G_phase1.snps.high_confidence.b37.vcf.idx.gz.md5
1000G_phase3_v4_20130502.sites.vcf.gz
1000G_phase3_v4_20130502.sites.vcf.gz.tbi
Broad.human.exome.b37.interval_list.gz
Broad.human.exome.b37.interval_list.gz.md5
CEUTrio.HiSeq.WGS.b37.NA12878.bam
CEUTrio.HiSeq.WGS.b37.NA12878.bam.bai.gz
CEUTrio.HiSeq.WGS.b37.NA12878.bam.bai.gz.md5
CEUTrio.HiSeq.WGS.b37.NA12878.bam.md5
CEUTrio.HiSeq.WGS.b37.NA12878.vcf.gz
CEUTrio.HiSeq.WGS.b37.NA12878.vcf.gz.md5
CEUTrio.HiSeq.WGS.b37.NA12878.vcf.idx.gz
CEUTrio.HiSeq.WGS.b37.NA12878.vcf.idx.gz.md5
CEUTrio.HiSeq.WGS.b37.bestPractices.b37.vcf.gz
CEUTrio.HiSeq.WGS.b37.bestPractices.b37.vcf.gz.md5
CEUTrio.HiSeq.WGS.b37.bestPractices.b37.vcf.idx.gz
CEUTrio.HiSeq.WGS.b37.bestPractices.b37.vcf.idx.gz.md5
Mills_and_1000G_gold_standard.indels.b37.vcf.gz
Mills_and_1000G_gold_standard.indels.b37.vcf.gz.md5
Mills_and_1000G_gold_standard.indels.b37.vcf.idx.gz
Mills_and_1000G_gold_standard.indels.b37.vcf.idx.gz.md5
NA12878.HiSeq.WGS.bwa.cleaned.raw.subset.b37.sites.vcf.gz
NA12878.HiSeq.WGS.bwa.cleaned.raw.subset.b37.sites.vcf.gz.md5
NA12878.HiSeq.WGS.bwa.cleaned.raw.subset.b37.sites.vcf.idx.gz
NA12878.HiSeq.WGS.bwa.cleaned.raw.subset.b37.sites.vcf.idx.gz.md5
NA12878.HiSeq.WGS.bwa.cleaned.raw.subset.b37.vcf.gz
NA12878.HiSeq.WGS.bwa.cleaned.raw.subset.b37.vcf.gz.md5
NA12878.HiSeq.WGS.bwa.cleaned.raw.subset.b37.vcf.idx.gz
NA12878.HiSeq.WGS.bwa.cleaned.raw.subset.b37.vcf.idx.gz.md5
NA12878.knowledgebase.snapshot.20131119.b37.vcf.gz
NA12878.knowledgebase.snapshot.20131119.b37.vcf.gz.md5
NA12878.knowledgebase.snapshot.20131119.b37.vcf.idx.gz
NA12878.knowledgebase.snapshot.20131119.b37.vcf.idx.gz.md5
dbsnp_138.b37.excluding_sites_after_129.vcf.gz
dbsnp_138.b37.excluding_sites_after_129.vcf.gz.md5
dbsnp_138.b37.excluding_sites_after_129.vcf.idx.gz
dbsnp_138.b37.excluding_sites_after_129.vcf.idx.gz.md5
dbsnp_138.b37.vcf.gz
dbsnp_138.b37.vcf.gz.md5
dbsnp_138.b37.vcf.idx.gz
dbsnp_138.b37.vcf.idx.gz.md5
hapmap_3.3.b37.vcf.gz
hapmap_3.3.b37.vcf.gz.md5
hapmap_3.3.b37.vcf.idx.gz
hapmap_3.3.b37.vcf.idx.gz.md5
hapmap_3.3_b37_pop_stratified_af.vcf.gz
hapmap_3.3_b37_pop_stratified_af.vcf.gz.tbi
human_g1k_v37.dict.gz
human_g1k_v37.dict.gz.md5
human_g1k_v37.fasta.fai.gz
human_g1k_v37.fasta.fai.gz.md5
human_g1k_v37.fasta.gz
human_g1k_v37.fasta.gz.md5
human_g1k_v37_decoy.dict.gz
human_g1k_v37_decoy.dict.gz.md5
human_g1k_v37_decoy.fasta.fai.gz
human_g1k_v37_decoy.fasta.fai.gz.md5
human_g1k_v37_decoy.fasta.gz
human_g1k_v37_decoy.fasta.gz.md5
直接使用get命令,接要下载的文件,就可以下载数据了。
也可以使用mget命令,添加通配符,下载同一类型的文件。
这里面我们要下载整个目录数据。可以使用mirror命令。
返回上层目录,直接mirror b37,就可以下载全部数据了。
mirror b37
因为数据比较多,也比较大,下载还是需要很长时间的。
Tips:一般发现下载国外数据,选择白天下载速度较快,可能由于时差的原因,西方人正在睡觉吧,我猜的,没验证过。
这里我们将GATK的hg19,hg38以及b37的数据已经保存在百度网盘,微信后台回复“gatk”即可得到下载链接。
---------- END ----------
(添加作者微信,请注明单位姓名)
您可能还会感兴趣的
生物信息零基础班(广州站)开课啦
手把手教你生信分析平台搭建专栏合集
生物信息重要资源站点合集
不会编程,如何进行批量操作
一个人全基因组完整数据分析脚本
一个细菌基因组完整分析脚本
如何在Linux下优雅的装X
2019,送给大家一份新年礼物
生物学才是终极学科