国际千人基因组计划数据库(二)
在collection中勾选“1000 Genomes phase 3 release”后样本数没有变化,说明样本来自“Phase 3”:
更多详尽的操作说明可查看IGSR网站的FAQ:
下面仍旧以镰刀型贫血症致病基因HBB的rs334致病位点(详情链接:OMIM)为例。对这个位点,还是要先查询一下dbSNP数据库,结果如下
突变频率:
1000G数据库的FTP
在IGSR官网搜索“FTP”:
https://www.internationalgenome.org/home
http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/
ftp:文件传输协议。HTTP:超文本传输协议(交换文本,图形,声音,动画等的规则集)。
二者主要区别在于ftp需要用户名和密码才能访问(匿名登陆除外),http协议一般是任何人都可以访问的。
ftp在浏览器的地址栏中的格式是:ftp://用户名:密码@网站地址/文件目录/
FTP中的内容太多,初次使用时很难理清楚。倒不如参考一下其它数据库如何调用其中的数据,比如Ensembl。
参考Ensembl使用的1000G数据源
严格按照提示输入染色体区域(GRCh37):
发现“Data Slicer”调用了1000G的如下FTP站点:
对下载后的文件(上图红色框),使用bash命令查看有多少个样本:
grep CHROM 11.5248232-5248233.ALL.chr11.phase3_shapeit2_mvncall_integrated_v5b.20130502.genotypes.vcf | tr "\t" "\n" | tail -n +10 | sort -u | wc -l
# 2504
显然,除了坐标系,GRCh38版的数据与上述GRCh37的完全相同,只是网址不同。可能是Ensembl做了坐标系的转换。所在Ensembl的站点如下(发现了一堆重量级VCF文件):
tabix切割FTP上的VCF文件
总结Ensembl使用的1000G数据库的数据:
ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/ALL.chr11.phase3_shapeit2_mvncall_integrated_v5b.20130502.genotypes.vcf.gz
http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/ALL.chr11.phase3_shapeit2_mvncall_integrated_v5b.20130502.genotypes.vcf.gz
GRCh37:
conda install tabix
tabix -h ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/ALL.chr11.phase3_shapeit2_mvncall_integrated_v5b.20130502.genotypes.vcf.gz 11:5248232-5248232
GRCh38:
tabix -h ftp://ftp.ensembl.org/pub/data_files/homo_sapiens/GRCh38/variation_genotype/ALL.chr11.phase3_shapeit2_mvncall_integrated_v3plus_nounphased.rsID.genotypes.GRCh38_dbSNP.vcf.gz 11:5227002-5227002
wget(bash命令)下载上述http上的VCF文件
# GRCh37:
wget -c http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/ALL.chr11.phase3_shapeit2_mvncall_integrated_v5b.20130502.genotypes.vcf.gz
# GRCh38:
wget -c http://ftp.ensembl.org/pub/data_files/homo_sapiens/GRCh38/variation_genotype/ALL.chr11.phase3_shapeit2_mvncall_integrated_v3plus_nounphased.rsID.genotypes.GRCh38_dbSNP.vcf.gz
统计样本数量:
zcat ALL.chr11.phase3_shapeit2_mvncall_integrated_v5b.20130502.genotypes.vcf.gz | head -n 3000 | grep CHROM | tr "\t" "\n" | tail -n +10 | sort -u | wc -l
# 2504
zcat ALL.chr11.phase3_shapeit2_mvncall_integrated_v3plus_nounphased.rsID.genotypes.GRCh38_dbSNP.vcf.gz | head -n 3000 | grep CHROM | tr "\t" "\n" | tail -n +10 | sort -u |wc -l
# 2504
至此,我们获得了1000G数据库phase3的11号染色体上、2504个样本的VCF文件,其中包含人群频率和各个样本的具体基因型等信息。
若想从中单独提取人群频率数据,或只提取个别样本的基因型,可通过一些工具或bash命令实现。
下载1000G的fastq文件
先查看上一篇推送中,下载的样本列表中的某个样本编号:
head -n 2 igsr_samples.tsv
wget -c http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/current.tree
grep -w HG00404 current.tree | cut -f 1,2,3 | grep fastq | sort
grep -w HG00404 current.tree | cut -f 1,2,3 | grep fastq | sort | wc -l
# 63
# 共21组
这21个文件不是拆分了不同的染色体,而是一个样本分别在多个Run中的测序结果。详见FAQ中关于fastq文件:
很多样本都有多个fastq文件,是因为许多人都是用测序仪进行了不止一次的测序。
ERR001268为“a sequencing run accessions ”。“ _1”和“_2”代表双端测序文件(paired-end files),其它为单端测序(项目早期生成,或来自双端测序未匹配成功的reads)。
wget -c ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/phase3/data/HG00404/sequence_read/SRR100420_1.filt.fastq.gz
wget -c ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/phase3/data/HG00404/sequence_read/SRR100420_2.filt.fastq.gz
wget -c ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/phase3/data/HG00404/sequence_read/SRR100420.filt.fastq.gz
撰写:宋红卫