遗传资源数据库专题-gnomAD
简介
Genome Aggregation Database(简称gnomAD)是由各国研究者联合发展起来的基因组突变频率数据库。其目的是汇集和协调来自众多大规模测序计划的全外显子组和全基因组测序数据,为广泛的科学研究团体汇总数据。
该数据库提供的数据集包括123,136个个体的全外显子组测序数据和15,496个个体的全基因组测序数据,这些数据来源于各种疾病研究项目及大型人群测序项目。
左侧的图表对1000Genomes、ESP、ExAC和gnomAD数据库收集的人群分布及其数量进行了比较统计,不难发现gnomAD是目前最大的人群频率数据库。右表对gnomAD数据库收录的人种类型及测序数据进行了分类统计。该数据库所有的数据都可免费下载。
数据库使用
通过gnomAD浏览器,我们可以在搜索框中输入自己感兴趣的基因、变异或者区域进行相关信息的查询
例如以ACTN2基因进行查询:
可以获取基因上每个位点的覆盖信息图,其中全基因组数据的测序深度用绿线表示,外显子数据深度为蓝色部分。变异注释表格记录了变异位点,来源,注释信息,变异flags,变异等位基因数,等位基因总数,等位基因频率等信息。通过复选框我们也可以选择特异的数据进行展示,用户可以选择包括或排除SNPs、indels、外显子组变异、基因组变异及被过滤掉的变异。
需要注意的是该数据库展示的等位基因数默认是只计数了高质量的基因型,即通过了设定的阈值(GQ>=20,DP>=10,杂合基因型allele balance > 0.2)的,原始的等位基因数可通过AC_raw查看。另外在全基因组数据中没有Y染色体的覆盖度及变异信息提供,也无法通过该数据库获取每个测序个体的基因型信息。
数据下载
可通过链接http://gnomad.broadinstitute.org/downloads 进行全外显子组,全基因组变异vcf文件及覆盖度数据的下载。
Annovar中也于2017年3月11日更新了该数据库,可利用该软件对gnomAD数据库进行下载注释。
由于该数据库去除了携带有严重儿童疾病的患者及其父母的基因组数据,可以很好的应用于单基因遗传病人群频率的查询。对于评估罕见位点的致病性,如果某位点在该数据库未见报道,则致病几率增大。
gnomAD数据库网址:http://gnomad.broadinstitute.org/
参考资料:https://macarthurlab.org/2017/02/27/the-genome-aggregation-database-gnomad/