基因组分析流程准确度评价专题 [1] - GIAB简介
大家好,我是阿尔的太阳,作为生信技能树的忠实粉丝,“我的基因组”直播大家一定不陌生吧,在跟随学习的过程中,我发现,测序的实验流程相对来说标准化很多,有相应的protocol和试剂盒, 但是下机的生信分析流程就很难标准化。
仅仅fastq-bam-vcf 这一上游分析,每一个步骤就有很多种变化存在, 仅仅是基因组germline的 短突变【snvs & indels】 的检出这一条常见流程,中间步骤就可以有非常多的选择,多到让人眼花,我随便选了几个常用的,终于搞好了步骤/软件/参数,测试成功,CALL 出VCF了 。
但是这时,我的心里产生了一个大大的问号,也可能是很多小伙伴都想问的
这条流程的准确度,究竟怎么样?
有人说,哈,做实验验证啊,Sanger测序是金标准。
试问WGS你怎么验证? 涵盖人体全基因组有约30亿bp , 350W + snvs , 50W + indels , 还存在相当面积的MNPs [相邻连续突变]。 做实验验证,咋做?
又有人说:你可以使用模拟生成的数据啊,那是知道标准答案的。但是模拟的数据和真实的数据是不同的。
那,如何得到一个,知道“标准参考答案”的,一个真实的样本数据,当作BENCHMARK,来对分析流程做一个测评呢?
这很重要,需要有一个统一的标准,来对分析流程的准确度进行质量控制。
因为有文献报道过
不同分析流程和测序技术找出的突变结果
一致性并不高
究竟谁是对的?
----------------------------------------------------------------------------------------------------------
因此本公众号推出
分析流程准确度评价专题
和大家分享如何获取和利用标准参考材料
以及动手对各种当前开源常见流程
进行评价和调试
最终获得一个,相对高准确度的分析流程
----------------------------------------------------------------------------------------------------------
通过搜索,我终于找到了这个- 瓶中基因组计划
NIST「美国国家标准与技术研究院」
瓶中基因组计划-GIAB
旨在构建已知答案的高可信度标准参考基因组。
文章在2014年发了nature biotech
当时的版本是v2.16 但后来一直在不断完善和更新
现在最新的是版本是v3.3.2
NA12878原属于千人基因组计划
为美国犹他地区血统的一名女性捐献的DNA样本
已经过多种不同测序技术反复重复测序,是目前公开已知研究最透彻的人类2倍体基因组。也就是说,这个人的很多突变都是已知的了
NIST和瓶中基因组计划还在努力将其他四个基因组打造成参考材料,包括德系犹太人血统的一家三口(父亲、母亲和儿子)以及亚洲血统的一家人中的儿子。
但目前最完善的还是NA12878[HG001]的样本
利用它,实验室能够评估全基因组测序、外显子组测序和靶向检测的性能。
除了GIAB, Illumina公司也构建了类似的NA12878高可信度参考突变集合,称为“白金基因组”。
这个高可信度标准参考突变集合在以下的链接获取:
附录:
----------------------------------------------------------------------------------------------------------
GIAB官方主页:
GIAB GitHub :
https://github.com/genome-in-a-bottle
GIAB Homepage :
http://jimb.stanford.edu/giab-resources
瓶中基因组计划 GIABv3.3.2 最新版本NA12878
vcf & bed 文件
下载地址:
#GIABv3.3.2
#ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/release/NA12878_HG001/NISTv3.3.2
#vcf
ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/release/NA12878_HG001/NISTv3.3.2/GRCh37/HG001_GRCh37_GIAB_highconf_CG-IllFB-IllGATKHC-Ion-10X-SOLID_CHROM1-X_v.3.3.2_highconf_PGandRTGphasetransfer.vcf.gz
ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/release/NA12878_HG001/NISTv3.3.2/GRCh37/HG001_GRCh37_GIAB_highconf_CG-IllFB-IllGATKHC-Ion-10X-SOLID_CHROM1-X_v.3.3.2_highconf_PGandRTGphasetransfer.vcf.gz.tbi
#bed
ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/release/NA12878_HG001/NISTv3.3.2/GRCh37/HG001_GRCh37_GIAB_highconf_CG-IllFB-IllGATKHC-Ion-10X-SOLID_CHROM1-X_v.3.3.2_highconf_nosomaticdel.bed
#md5sum
ftp://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/release/NA12878_HG001/NISTv3.3.2/GRCh37/md5sum
下载的文件需要经过md5sum check 以确保文件的完整性
白金参考基因组 下载链接
#platinumgenomes
#https://www.illumina.com/platinumgenomes.html
#vcf
ftp://ussd-ftp.illumina.com/2016-1.0/hg19/small_variants/NA12878/NA12878.vcf.gz
ftp://ussd-ftp.illumina.com/2016-1.0/hg19/small_variants/NA12878/NA12878.vcf.gz.tbi
下载的文件经过md5sum check 以确保文件的完整性
可以分别获取到高可信突变结合和BED文件
大家可以先动手探究一下vcf 和 bed 文件的情况
欢迎后台交流
参考文献:
Zook JM, Brad Chapman et al. 2014
Integrating human sequence data sets provides a resource of benchmark SNP and indel genotype calls
Nature Biotechnology 32, 246–251 (2014) doi:10.1038/nbt.2835
Zook JM,Catoe D et al. 2016
Extensive sequencing of seven human genomes to characterize benchmark reference materials.
Sci Data. 2016 Jun 7;3:160025. doi: 10.1038/sdata.2016.25.
Zook JM, Salit ML et al. 2016
Development and Characterization of Reference Materials for Genetic Testing: Focus on Public Partnerships.
Ann Lab Med. 2016 Nov;36(6):513-20. doi: 10.3343/alm.2016.36.6.513.
Eberle, MA et al. 2017
A reference data set of 5.4 million phased human variants validated by genetic inheritance from sequencing a three-generation 17-member pedigree. Genome Research 27: 157-164. doi:10.1101/gr.210500.116
生物信息前沿资讯
原创干货分享
尽在生信之光🌞