gnomAD数据库简介(一)
人群变异频率的重要性
正如在上篇推文(从孟德尔的豌豆到人类的遗传病)中提到的,在遗传病患者中,根据人群频率(Frequency in unselected individuals)筛选候选变异是发现致病变异(causal variants)的任何一种数据分析流程中关键的一步,并且这种筛选的效果取决于所使用的参考数据的大小和族群的多样性(Nature, 2016, Monkol Lek)。
The mutational constraint spectrum quantified from variation in 141,456 humans
因此我们希望这个参考数据库:纳入的个体数量足够大、患病比例的偏差足够低、族群的多样性足够好、测序深度足够高、最终记录的位点数足够多。
如果是外显子组,理想的记录的位点个数约为3,000万,即覆盖全部蛋白编码区域。这正是基因组聚合数据库(Genome Aggregation Database, gnomAD)和千人基因组(1000 Genome, 1000G)计划等数据库的主要目标之一。
如果说OMIM可以报告一个疾病权威的致病位点,ClinVar可以帮助我们筛选更多的致病或可能的致病位点,那么gnomAD数据库则可以提供一个更全的(未来希望是任何)变异位点的人群变异频率(可能均未被OMIM和ClinVar收录)。这些数据库均可对变异位点的筛选与最终的确定带来帮助。
gnomAD数据库简介
外显子组聚合联盟(Exome Aggregation Consortium, ExAC)是gnomAD的前身(第一个发布版),包含了大量自有的人类外显子组数据。
gnomAD项目由Heidi Rehm和Mark Daly作为联合理事(co-directors)共同监督,指导委员会成员包括Daniel MacArthur(实验室主页:https://macarthurlab.org/,会发布很多有关gnomAD的信息), Benjamin Neale, Michael Talkowski, Anne O'Donnell-Luria, Konrad Karczewski, Grace Tiao, Matthew Solomonson和Samantha Baxter。
Ability to understand genomes scales up
gnomAD v2.1.1
gnomAD删除了已知罹患重症儿科疾病的个体,以及他们的一级亲属,所以这些数据集可以作为对重症儿科疾病研究有用的等位基因频率(Allele Frequencies, AF)参考集。然而仍需注意,一些患重症疾病的人仍然可能存在于数据集中,尽管其频率可能相当于或低于普通人群的频率。
来自这些项目的所有原始数据都通过等价的分析流程(equivalent pipelines)、平行的变异检测(jointly variant-called)进行了再处理,以增加项目与项目之间的一致性(consistency across projects)。这一点非常重要,处理起来也有一定难度,否则QC时由于各个样本测序深度和测序质量等的影响,合并的样本越多记录的位点可能越少。
https://support.terra.bio/hc/en-us/articles/360037487871-Execute-
https://cromwell.readthedocs.io/en/stable/
Hail开源框架
gnomAD数据集包含使用多种外显子组捕获方法和测序化学方法来测序的个体,因此覆盖范围因个体和不同位点而异。测序覆盖范围内的每个变异均被整合,并参与变异频率的计算。
gnomAD的SV检测算法。gnomAD通过整合四种已发表的SV算法(Manta、DELLY、MELT和cn.MOPS)来识别7个突变类的SV,并在所有基因组中联合过滤、基因分型、解析和注释这些SV。gnomAD的SV检测流程的软件组件可以作为公共的共享方法,使用专用的Docker映像。gnomAD的SV论文的补充信息中提供了这一过程的广泛技术细节(Nature, 2020. A structural variation reference for medical and population genetics)。 可引用这篇论文以便使用SV数据。
对于这些数据的任何使用,可引用gnomAD的旗舰(flagship )论文:
撰写:宋红卫