其他
医生需要的遗传病基因组学的基本概念,都在这篇NEJM综述里了
2003年宣告完成的人类基因组计划,为诊断人类遗传病以及理解生命基础提供了蓝图。然而,由于技术局限性、基金支持的偏向性等原因,即使经过数十次更新,目前的人类参考基因组(当前版本为GRCh38)仍然不能满足人们对复杂甚至相对简单的孟德尔遗传性状的研究和应用。
2019年7月4日出版的《新英格兰医学杂志》发表了题为《遗传变异、比较基因组学和疾病诊断》的综述,总结了人类遗传变异的分类,简介了基因组时代发现疾病变异体的方法,并呼吁科学界共同努力,提供更多和更完整的参考基因组(Genetic variation, comparative genomics, and the diagnosis of disease. N Engl J Med 2019;381:64-74)。
该文作者是华盛顿大学(University of Washington)医学院基因组科学系教授、霍华德·休斯医学研究所研究员Evan E. Eichler。
我们在此对该文进行简要介绍,文中涉及图片均源自NEJM综述原文。阅读全文翻译,请点击本文开头微信小程序图片或文末“阅读原文”,访问《NEJM医学前沿》官网(www.nejmqianyan.cn)或APP。
人类遗传学研究者最常应用的方法是病例对照设计,但也有在家族背景下追溯变异体和疾病的其他方法,或者根据趋异或新生突变的进化模式考虑不同类型突变概率的其他方法。这些方法可能简单明了,但发现致病变异及其作用机制的过程却并不简单,可能需要数十年研究才能鉴定出孟德尔遗传性状和复杂遗传性状的基础变异体。
常用遗传病基因组学词汇表
图1. 红绿色盲基因座的结构和表达
基因座控制区(LCR)与红色视蛋白或第一个绿色视蛋白基因的启动子交联,可驱动转录并促使视网膜中形成红色或绿色视锥。远端绿色视蛋白基因中的复制和终止突变,该情况对色觉无影响,因为远端拷贝基因很少在视网膜中表达(图G)。如果要理解这一人类性状的基因型-表型相关性,了解序列结构、调控和拷贝数变异是关键。
遗传病的关联有三个关键方面:全面发现变异体,准确测定等位基因频率,以及理解正常变异模式及其对表达的影响。遗传变异的正常模式包括在任何特定基因座发生的新生突变频率、人口统计学差异和进化选择。理解上述每一方面都依赖于基因组技术的进步,包括对其他物种基因组的准确测序和组装。
人类遗传变异的类别
并非所有类别的突变都以相同的频率发生,它们在促发疾病方面产生的作用也不相同。人类遗传变异的范围很广,从点突变(如HBB[编码β珠蛋白]的腺嘌呤核苷酸被胸腺嘧啶核苷酸取代,这一突变是镰状细胞病的病因)到涉及整个染色体的大染色体非整倍性事件(如21三体[唐氏综合征])。
表1. 人类遗传变异的类别
更多和更完整的参考基因组
对第一个人类基因组(它为当前的人类参考基因组GRCh38提供了基础)进行最初测序之后,令我们非常惊讶的状况之一是测序的第一个基因组和其他人类基因组在组成和结构方面有巨大差异。不同人的遗传密码有数万较大(>50 bp)的插入、缺失和倒位差异(表1)。因此,我们需要对多个人类基因组进行更系统的分析,这些基因组可为不同的人群产生参考基因组。
临床医师和遗传学家在发现与疾病相关的遗传变异体时,参考基因组基准。广泛的基因组结构变异意味着任何单一的人类单体型(如第一个人类参考基因组)都可能缺失或包含序列变异体(包括结构变异体),而这些变异可能存在于,也可能不存在于大多数人类。
此外,在人类以外,我们并未能很好地理解复杂的遗传变异区域,因为非人灵长类动物基因组的完成程度尚未达到与人类参考基因组相同的标准,并且在这些复杂的遗传变异区域之上通常有数十万间隙。由于我们缺少这一信息,因此关于这些区域的变异耐受性和保守程度,我们目前的了解有限,而且其中的基因也被排除在疾病关联研究之外。
长读长测序技术使我们能够对大片段(从10,000 bp至1,000,000 bp)的天然DNA进行直接测序。这对于检测结构变异特别有利,因为长读长为锚定和解析大多数结构变异(不论序列组成如何)提供了必要的背景。许多研究已经提供了证据证明,长读长可增强对结构变异体的检测,尤其是长度50~2,000 bp的变异体。该技术还使我们能够检测之前人类遗传变异研究并无能力检测的区域,包括可变数目串联重复序列(VNTR)、片段重复和着丝粒。这会让我们发现的复杂遗传变异的数量激增。例如,应用长读长对15个人类基因组进行的分析解析出大约100,000个常见的结构变异体,其中约有一半是之前未知的。
表2. 遗传病和复杂变异体
展望
过去10年的技术进步极大地改变了我们发现和诊断致病变异的能力。尽管人类遗传学取得了许多成功,但在罕见的孟德尔疾病和常见的复杂疾病中,大部分的遗传原因仍然不明。在这种情况下,简单地用短读长数据集对更多的患者样本进行测序,并将测序片段与单一参考基因组进行比对并不是最好的方法。展望未来,我们要至少在下列几个领域取得进展,这将有助于我们更全面地理解遗传病的病因。
1. 多个人类参考基因组
鉴于遗传变异的复杂性,一个参考基因组显然不足以代表人类遗传多样性。我们需要对来自不同人群的正常基因组进行测序和组装,尤其是非洲裔人群,因为遗传变异的最大来源就是这一人群。据估计,以我们现在的发现速度,如果通过这一方式对300个人类基因组进行测序,将使目前已知的(在DNA序列水平)结构变异体数量加倍,理论上可以鉴定出大多数常见的结构变异体(或至少鉴定出等位基因频率≥1%的变异体)。
2. 组装和比对的比较
在临床上,我们有必要转变我们对于变异体的发现模式,即之前是基于序列片段与参考基因组之间的比对,现在应转向基于从头组装。在10年内,我们将有可能首先对患者的两个单体型进行临床测序和组装,然后通过与参考序列比较的方式发现变异体。这对于成年后发病,因而可能已经无法获得父母DNA的疾病尤其有意义,例如精神分裂症、阿尔茨海默病和帕金森病。在这种情况下,我们可以用新的基因组技术对长读长序列数据进行物理定相,从而解析两个亲本单体型,并与其他基因组进行比较。
3. 从端粒到端粒的测序
使用短读长序列数据对人类基因组进行的常规分析仅捕捉了大约85%的基因组,且排除了一些变异最丰富的区域,因此这些区域被排除在关联检验之外。我们应该明确人类染色体从端粒到端粒的完整序列特征,包括近端着丝粒、端粒、着丝粒和片段复制DNA。长读长和超长读长测序平台如今使我们能够进入这些传统上无法测序的人类遗传变异区域。
相关阅读
[1] NEJM综述:大海捞针不是梦——液体活检在肿瘤诊治中的应用
[3] 外显子测序发现慢性肝病防治新靶点
[4] 卢实春教授解读《新英格兰医学杂志》最新综述《肝细胞癌》
版权信息
本文由《NEJM医学前沿》编辑部负责翻译、编写或约稿。对于源自NEJM集团旗下英文产品的翻译和编写文章,内容请以英文原版为准。中译全文以及所含图表等,由马萨诸塞州医学会NEJM集团独家授权。如需转载,请联系nejmqianyan@nejmqianyan.cn。未经授权的翻译是侵权行为,版权方保留追究法律责任的权利。