遗传资源数据库之1000genomes
引入
提起1000genomes,就不得不提轰动一时的千人基因组计划。国际千人基因组计划”自2008年启动,旨在绘制迄今为止最详尽、最有医学应用价值的人类基因组遗传多态性图谱。,其参与者包括了包括英国的Sanger研究所,中国的深圳华大基因研究院(BGI Shenzhen),以及美国的国立卫生研究院(NIH)下属的美国人类基因组研究所(NHGRI) 。
背景简介
2010年6月21日,由中国深圳华大基因研究院、英国桑格研究所和美国国立人类基因组研究所等共同发起并主导的“国际千人基因组计划”协作组对外宣布:该计划第一阶段的“3个先导项目”已圆满完成,全部数据已存储于该计划所设立的公共数据库,公众可免费获取和浏览第一阶段产生的全部数据 。这就是现在的1000genomes数据库。
第一个先导项目运用多种下一代高通量测序技术平台,完成了两个核心家庭共6人的高覆盖度全基因组测序,每个基因组的测序深度在20~60倍。通过此项目,可以评价多种主要测序方法的优缺点,为“国际千人基因组计划”的后续项目扫清技术障碍。
第二个先导项目完成了179人的低覆盖度全基因组测序,平均测序深度在3倍。数据表明,大样本低覆盖度测序在降低成本的同时,仍然能有效识别人群中的基因多样性。
第三个先导项目通过对700人的1000个基因外显子的测序,获得了占人类基因组全部序列2%的蛋白质编码基因名录。前所未有的大样本量有助于研究人群罕见变异的表达图谱。
该数据库最终将包含来自全球27个族群的2500个人的全部基因组信息。目前产生的数据量已达到50TB(5万GB),包含8万亿个DNA碱基对。这一数据资源是一个开放的公共资源,为各种疾病的关联分析提供详细的基础数据;为解释人类重大疾病发病机理、开展个性化预测、预防和治疗打下基础。此外,该项目还加深了人们对人类群体遗传学的理解,促进人类进化史的研究。目前已完成的3个先导项目是为了验证多种测序方法对于东亚、欧洲和非洲人群中遗传多态性频率不低于1%的鉴别能力,这将大大高于之前完成的国际单倍体型计划(HapMap计划)5%~10%的遗传多态性的检出能力。
FTP结构
FTP 结构(README.ftp_structure) 千人基因组计划有两个主要的 ftp 站点镜像: ftp://ftp.1000genomes.ebi.ac.uk ftp://ftp-trace.ncbi.nih.gov/1000genomes/ ftp 的遵循一些基本的结构:
1.在顶层有 6 个目录, 分别是 data、 release、 sequence_indices、 alignment_indices、 technical 和 changelog_details。还有一个 pilot_data 目录,它包含来自初步研究 (pilot study)的数据,以及Index files。
1) data:data 目录包含主要工程的每个个体的子目录, 每个单独的子目录也包含一系列 的子目录--包含不同的数据集,例如 sequence reads 和 sequence alignments 等。 individual id 或 coriell sample names /technical/working/20140502_ sample_ summary_ info/以及/technical/working/20130606_ sample_ info/中有 individual id 与 population 对应的信息。
2) release:包含日期命名的目录, 这些目录又包含发布于那个日期的分析结果集,并且也 包含 readme 用于解释这些数据集是怎么产生的。release 目 录 以 后 ( 此 readme 文 件 创 建 日 期 为 20110404 ) 将 基 于 YYYYMMDD.sequence.index(这一文件保存在 ftp/sequence_indices/目录下)中 的日期格式进行命名。在这些 YYYYMMDD 目录中的 SNP 和 indel calls 等是基 于 YYYYMMDD.sequence.index 文件所列出的数据比对产生的。 例如:目录 ftp/release/20100804/中包含的 SNP 和 indels calls 的发布版本是基于 ftp/sequence_indices/20100804.sequence.index 文件产生的。
3) technical:这一目录包含许多的子目录--包含诸如模拟产生的数据集或方法开发产生的interm 数据集文件等。 注意:technical/working 目录--这一目录包含的数据有 experimental status(未公 开发表) ,适合内部项目使用。请小心使用。
4) sequence_indices:这个目录包含所有先前产生的 sequence.index 文件。 每个文件以 YYYYMMDD 开头,表明了它的发布日期。出现在主要项目 bam 文件名字中日期将这些 bam 文件连接到了相应的序列,因为 sequence.index 文件名中包含相同的日期。 最近的文件也应该与 ftp/sequence.index 文件相匹配。 例子:NA10851.unmapped.ILLUMINA.bwa.CEU.low_coverage.20101123.bam 文 件被创建是使用了 ftp/sequence_indices/20101123.sequence.index 文件中列出的 NA12878 low_coverage sequence 文件,每个 sequence.index 文件都伴随着两种类型的统计文件(stats.cvs 和 .stats),每个 YYYMMDD_sequence.index.stats 文件包含 summary 信息--关于序列数据 的 Study/Population/Center/Sample coverage 统计量。
.stats 文 件 名 中 包 含 测 序 策 略 名 称 (exome,low_coverage) , 这 些 名 称 包 含 summary 信息的一个子集(只与 exome/low_coverage 信息有关) ,而 summary 信 息包含在 YYYMMDD_sequence.index.stats 中。 例如: 20101123.sequence.index.exome.stats 20101123.sequence.index.low_coverage.stats .cvs 统 计 文 件 给 出 了 来 自 sequence.index 文 件 的 Population, Center 和 Sequencing platform 发生的增量变化。 例如:文件 20101101_ 20101123.exome_ stats.csv 20101101_ 20101123.low_ coverage_stats.csv 给出了 2010110.sequence.index 文件和 20101123.sequence.index 文件中列出数据的摘要信息差异。
5) alignment_indices:这 个 目 录 包 含 所 有 先 前 产 生 的 alignment.index 文 件 , 每 个 文 件 开 头 的 YYYMYDD 表明所基于的 sequence.index 文件的比对。 最近的文件也应该与 ftp/sequence.index 文件相匹配。 你可能也会发现 stats 文件,例如 20101123.alignment.index.bas.gz These contain all the .bas files for the bam files in the release concatenated into a single file. 也有 stats 文件,如 20101123_ 20100901.alignment_ stats.low_ coverage.csv,这种类型的 文件包含与 sequence_ indices 目录中的 stats 文件类似的信息。
6) changelog_details:为了保证主要的 root-level CHANGELOG 可读性和滚动性,任何 ftp 站点内容 的改变会被总结在此目录中。这些文件的命名可反映了 when 和 what 改变发生 了,例如'new', 'moved', 'replacement' or 'withdrawn'。 例子: changelog_details_ 20110216_ new changelog_ details20110216replacement changelog_ details_ 20110216_ withdrawn changelog_ details_ 20110216_ moved。
7) pilot_data:这代表一个冻结版本的 pilot 数据。 它包含了与主要 ftp 目录具有相同目录形式 大部分的目录。
8) Index files:千人基因组产生的数据量是前所未有的。 为确保所有数据都能易于定位到最近 更 新 的 序 列 和 比 对 文 件 , 因 此 有 了 index files 。 ftp/sequence.index 文 件 和 ftp/alignment.index 文件。 这 些 文 件 的 格 式 说 明 在 : ftp/README.sequence.index 文 件 和 ftp/README.alignment.index 文件中。 这些 index files 应该可以为你提供足够的信息下载文件 subsets(基于 study, individual or technology)。它们也包含文件的 md5s。 主要项目的比对文件名中也包含相似的信息: data/NA12878/alignment/NA12878.chromY.SOLID.bfast.CEU.high_coverage.20100 125.bam data/NA12878/alignment/NA12878.chrom20.LS454.ssaha2.CEU.exon_targetted.201 00311.bam data/NA12878/alignment/NA12878.unmapped.LS454.ssaha2.CEU.exon_targetted.20 100311.bam data/NA12878/alignment/NA12878.nonchrom.ILLUMINA.bwa.CEU.exon_targetted. 20100311.bam 文件名组分:
文件名以来自 Corelli/Hapmap 的 sample 名开始。
如果比对过程已经利用染色体 split,那么文件命中会包含染色体名。
测序技术为 next, ILLUMINA for illumina, LS454 for 454 and SOLID for SOLiD。
the aligner used 名字缩写(bwa, bfast 等)。
population 缩写为三个字符。
The analysis group of the sequence, this reflects sequencing strategy - sequence.index 文件的发布日期包含序列文件的列表用于构建 alignment 文件。 (对于 ftp/pilot_data 中的 alignment 文件 SLX for illumina, 454 for 454 and SOLID for SOLiD。 The SRP is the study identifier, 31 is pilot1 low coverage, 32 is pilot2 high coverage, 33 is pilot3 gene targetted sequencing。 ) 如果文件名包含“ unmapped ” , bam 代表与个体相关的 reads 没有 map the reference. 每个 bam 文件都伴随一个 index 文件(.bai)和一个统计文件(.bas)可以查看 ftp/README.alignment_data 文件中找到关于.bas 文件的描述。 所有比对都与 the reference(ftp/technical/reference/)进行了比较。 pilot/data alignments are against the NCBI Build 36 reference. Main project alignments are against the GRCh37 reference.
2.顶层还包含两个主要的 index 文件: ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/sequence.index ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/alignment.index 序列数据(README.sequence_data) 这一 readme 文件描述了 ftp 站点上的序列数据, 它是如何处理以及序列数据中哪 些信息是可用的。 目录结构和 sequence index 文件: 所有的序列数据都是 fastq 格式, 它给出了一段 序列以及每个 read 的质量字符串。 序列文件存在/data/XXXXXX/sequence_read 目录中( XXXXXX 代表样本名, this should be in the form or coriell sample names HGXXXXX or NAXXXXX)。与 meta 数据相关的一个特殊文件(包含 meta 数据 md5sum)可以在 sequence.index 文件中找到。这是一个 tab 分割的文件,它的每一列都包含一块不同的 meta 信息。
下载
千人基因组数据库:1092人基因库,250T左右
介绍:http://www.1000genomes.org/
下载:
uk:ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/
NCBI FTP Site : ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp
Amazon S3 : s3://1000genomes
补充
如何在该数据库下载某段区域SNP?
点击阅读原文,或者点击链接即可查看方法。
http://www.cnblogs.com/chenwenyan/p/5853738.html
【文末福利】这里分享一个视频,神奇疗法:人类基因组计划的十年
https://v.qq.com/x/cover/pytkm05ulxvro5k.html?ptag=qqbrowser&new=1
参考资料
1.爱问通:1000genomes
2.DB之路:NCBI之1000genomes
3.橙子cc的博客:千人基因组计划数据库下载某段区域SNP
4.CSDN:基因数据库收集
还有更多文章,请移步公众号阅读
如果你生信基本技能已经入门,需要提高自己,请关注上面的生信技能树,看我们是如何完善生信技能,成为一个生信全栈工程师。
如果你是初学者,请关注下面的生信菜鸟团,了解生信基础名词,概念,扎实的打好基础,争取早日入门。