查看原文
其他

gnomAD数据库简介(一)

宋红卫 聊生信 2022-05-14

人群变异频率的重要性

正如在上篇推文(从孟德尔的豌豆到人类的遗传病)中提到的,在遗传病患者中,根据人群频率(Frequency in unselected individuals)筛选候选变异是发现致病变异(causal variants)的任何一种数据分析流程中关键的一步,并且这种筛选的效果取决于所使用的参考数据的大小和族群的多样性(Nature, 2016, Monkol Lek)

从孟德尔的豌豆到人类的遗传病,聊生信
Nature, 2020, Karczewski.

The mutational constraint spectrum quantified from variation in 141,456 humans

因此我们希望这个参考数据库:纳入的个体数量足够大、患病比例的偏差足够低、族群的多样性足够好、测序深度足够高、最终记录的位点数足够多。

如果是外显子组,理想的记录的位点个数约为3,000万,即覆盖全部蛋白编码区域。这正是基因组聚合数据库(Genome Aggregation Database, gnomAD)和千人基因组(1000 Genome, 1000G)计划等数据库的主要目标之一。

如果说OMIM可以报告一个疾病权威的致病位点,ClinVar可以帮助我们筛选更多的致病或可能的致病位点,那么gnomAD数据库则可以提供一个更全的(未来希望是任何)变异位点的人群变异频率(可能均未被OMIM和ClinVar收录)。这些数据库均可对变异位点的筛选与最终的确定带来帮助。

gnomAD数据库简介

基因组聚合数据库(Genome Aggregation Database, gnomAD)是一个致力于从各种大规模测序项目中收集和协调外显子组和基因组测序数据,并为更广泛的科学界提供汇总数据的研究者联盟。

外显子组聚合联盟(Exome Aggregation Consortium, ExAC)是gnomAD的前身(第一个发布版),包含了大量自有的人类外显子组数据


gnomAD项目由Heidi Rehm和Mark Daly作为联合理事(co-directors)共同监督,指导委员会成员包括Daniel MacArthur(实验室主页:https://macarthurlab.org/,会发布很多有关gnomAD的信息), Benjamin Neale, Michael Talkowski, Anne O'Donnell-Luria, Konrad Karczewski, Grace Tiao, Matthew Solomonson和Samantha Baxter。



Ability to understand genomes scales up

https://www.nature.com/articles/d41586-020-01485-4
gnomAD(v3.1.1)基于GRCh38,其中短变异(short variant)数据集涵盖了76,156个互不相关个体的基因组测序数据,是各种疾病特异性研究和群体遗传研究的一部分。
gnomAD(v2.1.1)基于GRCh37,其中短变异数据集涵盖了125,748个外显子和15,708个基因组,这些基因组来自作为各种疾病特异性研究和群体遗传研究的一部分的不相关的个体,总计141,456个。
gnomAD的网址:
1. http://www.gnomad-sg.org/
2. http://gnomad.broadinstitute.org/
博德研究所的这个站点在国内似乎经常无法访问。其GATK相关站点有时也访问不了,暂不清楚是什么问题。上面gnomAD的两个网站的数据是否等价也暂不清楚。总之第一个网站使用时看不出来有什么问题,也被很多人使用。
gnomAD v3.1.1

http://www.gnomad-sg.org/variant/11-5227002-T-A?dataset=gnomad_r3

gnomAD v2.1.1

http://www.gnomad-sg.org/variant/11-5248232-T-A?dataset=gnomad_r2_1

有关最新版本的详细信息,可参阅gnomAD v3.1博客文章。
https://gnomad.broadinstitute.org/news/2020-10-gnomad-v3-1-new-content-methods-annotations-and-data-availability/
gnomAD博客中以前版本(v3.0, v2.1)的详细信息。
https://gnomad.broadinstitute.org/news/

gnomAD结构变异(SV)v2.1数据集基于GRCh37,涵盖了10,847个不相关个体的基因组,这些个体的测序也是各种疾病特异性研究和群体遗传研究的一部分。它大部分(但不是全部)与用于gnomAD短变异释放的基因组集合重叠。

gnomAD删除了已知罹患重症儿科疾病的个体,以及他们的一级亲属,所以这些数据集可以作为对重症儿科疾病研究有用的等位基因频率(Allele Frequencies, AF)参考集。然而仍需注意,一些患重症疾病的人仍然可能存在于数据集中,尽管其频率可能相当于或低于普通人群的频率。

来自这些项目的所有原始数据都通过等价的分析流程(equivalent pipelines)、平行的变异检测(jointly variant-called)进行了再处理,以增加项目与项目之间的一致性(consistency across projects)。这一点非常重要,处理起来也有一定难度,否则QC时由于各个样本测序深度和测序质量等的影响,合并的样本越多记录的位点可能越少。


gnomAD的数据处理流程是用WDL工作流程定义语言编写(WDL workflow definition language, https://software.broadinstitute.org/wdl/)的,并使用了Cromwell执行引擎进行计算。Cromwell执行引擎是用于在多个平台上大规模定义和执行基因组分析工作流的开源项目。

https://support.terra.bio/hc/en-us/articles/360037487871-Execute-

https://cromwell.readthedocs.io/en/stable/

gnomAD经过了质量控制(QC),并使用Hail开源框架(https://hail.is/)进行分析,以确保可扩展的遗传分析(这一点也非常重要,因为每次数据库更新时样本量都可能增加)。

Hail开源框架


gnomAD数据集包含使用多种外显子组捕获方法和测序化学方法来测序的个体,因此覆盖范围因个体和不同位点而异。测序覆盖范围内的每个变异均被整合,并参与变异频率的计算。


gnomAD的SV检测算gnomAD通过整合四种已发表的SV算法(Manta、DELLY、MELT和cn.MOPS)来识别7个突变类的SV,并在所有基因组中联合过滤、基因分型、解析和注释这些SV。gnomAD的SV检测流程的软件组件可以作为公共的共享方法,使用专用的Docker映像。gnomAD的SV论文的补充信息中提供了这一过程的广泛技术细节(Nature, 2020. A structural variation reference for medical and population genetics)。 可引用这篇论文以便使用SV数据。


gnomAD变异集(call set)的生成主要是由博得研究所(也开发了GATK等基因组分析工具集)资助的,这里的数据是为了使更广泛的生物医学界获益而公开发布的。对这些数据没有出版限制或禁运(embargoes)也不受知识共享零公共领域奉献(Creative Commons Zero Public Domain Dedication)的限制。这意味着可以将其用于任何目的,而无需在法律上给出归属。但需要积极承认并给予gnomAD项目的归属,并尽可能链接回相关页面。支持未来发布其他数据,也减少了“孤儿数据(orphaned data)”的数量,帮助保留到权威来源的链接。

对于这些数据的任何使用,可引用gnomAD的旗舰(flagship )论文:

The mutational constraint spectrum quantified from variation in 141,456 humans. Nature, 2020. 

https://www.nature.com/immersive/d42859-020-00002-x/index.html
https://www.nature.com/articles/s41586-020-2308-7#citeas
gnomAD的主要研究人员和小组的列表,为当前的版本提供了数据和分析:


撰写:宋红卫

校对:宋红卫

更多人类遗传学知识、文献和分析技术
请关注和星标聊生信

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存