GWAS还能走多远?——十年的思考
近期,发表在CELL和Am J Hum Genet上的两篇重磅文章又将GWAS推到了科学评论的风口浪尖。自从2005年第一篇复杂疾病(年龄相关性黄斑变性,age-related macular degeneration)的全基因组关联研究以来,12年来,GWAS catalog已经收录了36,948种单核苷酸多态性(SNP)与性状的相关性条目(最近更新:2017年1月9日)。然而,如此烧钱的GWAS是否真的达到了人们预期,极大地促进了医学进展?本次的推文中,我们将从GWAS的理论基础讲起,总结GWAS十年来取得的成果。下面,一起来揭示GWAS的前世,今生和未来吧!
什么是GWAS?
GWAS是在某一特定人群中研究遗传突变和表型之间的相关性。GWAS的理论基础是连锁不平衡定律(linkage disequilibrium, LD),既假设观察到的SNP与真正的致病突变(causal variant)之间存在很强的LD。基于基因芯片设计的GWAS目前着重关注人群中的常见变异(common SNPs, 通常指最小等位基因频率MAF > 0.01),因此,通过GWAS发现的疾病易感位点主要集中在常见变异上,也即是通常所说的common disease,common variants理论。GWAS的概念是在群体遗传学的概念下发展起来的,其统计效应受到样本量的直接影响。Am J Hum Genet文章的观点认为能检测到显著关联结果的最小的样本量是基因分型(SNP array plus imputation or WGS),allele frequency 以及effect size的函数。如图1。
通过GWAS,我们发现了什么?
2.1 GWAS找到了性状的易感基因
正如文章开头所说的,大规模的GWAS研究找到了大量显著的遗传变异与表型的相关,涉及到的表型包括:常见疾病,数量性状,社会行为性状(如幸福感等),甚至是基因表达和DNA甲基化水平。(请参考GWAS catalog网站:https://www.ebi.ac.uk/gwas/)。这些显著影响性状的遗传变异中,有一部分已经指导了分子实验室的工作去发掘潜在的治病机理,比如FTO和肥胖,MHC和精神分裂症。
2.2 多基因型效应
当我们更加深入地去看复杂性状的整个遗传构成,又会得出一些重要的结论。最开始的观察还是来自与最显著的位点,科学家们发现这些达到统计阈值的遗传变异也仅仅只能解释很少一部分的表型差异。根据此现象,澳大利亚昆斯兰大学的华人学者杨剑认为GWAS阈值以下的常见变异也能贡献相当一部分的遗传力。因此,他们团队在最近发表在Am J Hum Genet的综述中指出复杂性状的多基因特点。比如,2008年的时候,GWAS找到了40个显著控制身高的SNP,但这些SNP仅仅解释了大约5%的遗传力。到了2014年,在整个基因组上有超过700个遗传位点被认为与身高有关,它们贡献的遗传变异达到20%以上。
2.3 从多基因型到泛基因型
今年6月份发表在CELL上的一篇前瞻性文章真可谓掀起了了GWAS研究的轩然大波。通过探究GWAS信号在基因组上的分布情况,研究人员发现对于身高这样的复杂性状,其作用位点广泛地分布在整个基因组上面,意味着几乎全部的基因都参与到对身高的调控。更重要地,cell/tissue specific表达的基因在控制性状过程中起到决定性的作用。通过将GWAS信号富集到不同细胞中活跃的染色质区域,他们发现精神分裂症的遗传贡献主要来自与神经系统相关的基因,比如铁离子通道和钙铁转运等。
GWAS还能做什么?
学科的发展决不是哪一块是热点就做哪一块,GWAS也一样,总是成果和质疑并存。质疑的声音存在是因为取得的成果还不足以回答所有的科学问题。那么,GWAS的未来就应该朝着那些暂未解决的问题前进。
3.1复杂性状的差异到底由多少遗传位点或基因决定?
由于imperfect LD的存在,我们不能假定观察到的SNP能够tag所有可能的效应位点。随着全基因组测序技术的广泛应用和成本降低,越来越多的GWAS研究用测序取代了基因芯片,从而有机会覆盖到基因组上的全部遗传标记。由于样本量的制约,每一个有微小效应的SNP不一定能够达到统计阈值。随着世界各地大规模人群队列的建立,大量的样本积累可以显著地增加GWAS的统计效应。因此,未来的GWAS研究将会收集数以百万的人群样本,采用全基因组测序的手段探究性状的遗传结构。
3.2具有显著效应的位点以怎样的方式调控表型?
揭示复杂性状背后的分子机制的主要挑战在于整合多组学数据进行联合分析。特别是在GWAS找到的位点大多数位于非编码区的情况下,探索细胞内分子调控网络显得尤为重要。研究表明,通过整合基因表达和DNA甲基化数据,多数位于非编码区的GWAS信号可以调控特定细胞和组织中的基因表达和DNA甲基化水平。
3.3如何研究低频变异?
前面提到,基于基因芯片的GWAS无法检测到低频变异的遗传贡献,而现在的理论是低频变异往往具有更大的遗传效应。低频变异的研究方法一般是burden test,即假设多个独立的效应位点集中在一个基因区域内起作用。但该方法需要根据遗传标记的功能和频率判断该位点是否可以被纳入burden test。
3.4从GWAS能否到性状预测?
早在2007年,就有观点认为GWAS数据能够作为疾病或复杂性状的遗传预测。目前遗传预测的关键制约因素是没有足够大的样本获得足够精确的多基因风险分数(polygenic risk score)。多基因风险分数并不适用于单个个体,其主要的作用在于区分出最高和最低风险的组。因此,GWAS真正要服务于临床或者为近年来火热的“精准医学”提供理论依据还有很长的路要走。