【直播】我的基因组(六):变异位点注释数据库的准备
大家好,又是一周不见。
这次见面,已然是一个悲伤而又狂欢的日子,这个双十一,小编从一只单身汪已经变成了断手单身汪,累觉不爱。但是,扶朕起来,朕还能学。
Jimmy的测序数据终于出来了,虽然还没寄到Jimmy的手里。不过我们离正式分析不远了,你们觉得呢?在正式分析之前,我们还有几个准备工作,小编把Jimmy上次介绍的软件进行了下载和准备,不知道大家一起了么?这一次我们准备一下变异数据库,这对于我们在找有意义的变异位点、疾病预测等方面有着重要作用呢!我们一起来看看Jimmy告诉我们该怎样做吧!
说正事的分割线
通常一个人的全基因组测序数据可以挖掘到四百万个SNVs(跟参考基因组不一样的单碱基位点),还有五十万的indels(insertions or deletions),但是得到的数据通常是以vcf文件格式给出的(自行搜索什么是vcf格式),比如下面:
很明显,正常人是看不懂这些变异位点有啥子一样的,只知道第20条染色体的1230237坐标上面本来是一个T碱基的,但是突变成了G,那么我们必然还想知道,这个位点是在某个基因上面吗?如果是,在基因的外显子还是内含子?它的突变有没有改变该基因的功能呢?有没有影响它的转录和翻译呢?还有世界上有没有其他正常人也是这个位点变异呢?如果有,是哪些人种呢?有没有癌症病人也发现了这个变异呢?如果有,是什么癌症呢?所以我们必须下载一系列的变异位点注释数据库,来全方位的解释我们自己找到那四百万个SNVs和五十万的indels。下面我们一起进行数据库准备。
TCGA数据库是最大的癌症基因信息的数据库。TCGA中的somatic mutation大全非常重要,里面搜集的是TCGA计划里面各个癌症里面总结的somatic mutation,如果我们手头的样本的变异文件里面跟它有交集,那这就有些危险了。用下面的代码下载!
wget https://gdc-docs.nci.nih.gov/Data/Release_Notes/Manifests/GDC_open_MAFs_manifest.txt
for i in `cut -f 2 GDC_open_MAFs_manifest.txt`
do
echo $i
adress=`echo $i |cut -d'.' -f 4 `
filename=`echo $i |cut -f 2 |cut -d'.' -f 1-3,5-7 `
echo $adress $filename
wget -O "$filename" "https://gdc-api.nci.nih.gov/data/$adress"
done
其中,还有一些数据库是需要注册的,就没办法给出下载地址了,比如COSMIC,这个同样是关于癌症的数据库,我们也不希望正常人里面出现这些突变!附图给大家看看注册的界面。
如果是正常人数据库,那么我们就需要把找到的正常人的变异位点在它里面出现的过滤掉,不研究了,因为正常人有这个变异也正常(当然也并不不绝对),比如说千人基因组计划。
千人基因组计划里面涉及到了5个大人种,共25个小人种的基因型数据,把自己的基因型文件跟他们相比,可以得到某种程度的比较粗糙的祖缘分析结果,而且我们还下载了好几个国家级的基因组计划,都是针对特定人种的。
下载千人基因组数据库。
mkdir -p ~/annotation/variation/human/1000genomes
cd ~/annotation/variation/human/1000genomes
## ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502/
nohup wget -c -r -nd -np -k -L -p ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/release/20130502 &
还有一些其常常用数据库,我就不一一介绍了(#后是对应数据库的说明,大家可自行查看)
mkdir -p ~/annotation/variation/human/ExAC
cd ~/annotation/variation/human/ExAC
## http://exac.broadinstitute.org/
## ftp://ftp.broadinstitute.org/pub/ExAC_release/current
wget ftp://ftp.broadinstitute.org/pub/ExAC_release/current/ExAC.r0.3.1.sites.vep.vcf.gz.tbi
nohup wget ftp://ftp.broadinstitute.org/pub/ExAC_release/current/ExAC.r0.3.1.sites.vep.vcf.gz &
wget ftp://ftp.broadinstitute.org/pub/ExAC_release/current/cnv/exac-final-cnv.gene.scores071316
wget
mkdir -p ~/annotation/variation/human/dbSNP
cd ~/annotation/variation/human/dbSNP
## https://www.ncbi.nlm.nih.gov/projects/SNP/
## ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b147_GRCh38p2/
## ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b147_GRCh37p13/
nohup wget ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606_b147_GRCh37p13/VCF/All_20160601.vcf.gz &
wget
mkdir -p ~/annotation/variation/human/ESP6500
cd ~/annotation/variation/human/ESP6500
# http://evs.gs.washington.edu/EVS/
nohup wget http://evs.gs.washington.edu/evs_bulk_data/ESP6500SI-V2-SSA137.GRCh38-liftover.snps_indels.vcf.tar.gz &
mkdir -p ~/annotation/variation/human/UK10K
cd ~/annotation/variation/human/UK10K
# http://www.uk10k.org/
nohup wget ftp://ngs.sanger.ac.uk/production/uk10k/UK10K_COHORT/REL-2012-06-02/UK10K_COHORT.20160215.sites.vcf.gz &
mkdir -p ~/annotation/variation/human/gonl
cd ~/annotation/variation/human/gonl
## http://www.nlgenome.nl/search/
## https://molgenis26.target.rug.nl/downloads/gonl_public/variants/release5/
nohup wget -c -r -nd -np -k -L -p https://molgenis26.target.rug.nl/downloads/gonl_public/variants/release5 &
## 1 million single nucleotide polymorphisms (SNPs) for DNA samples from each of the three ethnic groups in Singapore – Chinese, Malays and Indians.
## The Affymetrix Genome-Wide Human SNP Array 6.0 && The Illumina Human1M single BeadChip
## http://www.statgen.nus.edu.sg/~SGVP/
## http://www.statgen.nus.edu.sg/~SGVP/singhap/files-website/samples-information.txt
# http://www.statgen.nus.edu.sg/~SGVP/singhap/files-website/genotypes/2009-01-30/QC/
## Singapore Sequencing Malay Project (SSMP)
mkdir -p ~/annotation/variation/human/SSMP
cd ~/annotation/variation/human/SSMP
## http://www.statgen.nus.edu.sg/~SSMP/
## http://www.statgen.nus.edu.sg/~SSMP/download/vcf/2012_05
## Singapore Sequencing Indian Project (SSIP)
mkdir -p ~/annotation/variation/human/SSIP
cd ~/annotation/variation/human/SSIP
# http://www.statgen.nus.edu.sg/~SSIP/
## http://www.statgen.nus.edu.sg/~SSIP/download/vcf/dataFreeze_Feb2013
文:Jimmy、吃瓜群众
图文编辑:吃瓜群众