外显子测序技术简介(一)
全外显子组测序(WholeExome Sequencing, WES)是指对在全基因组范围内利用探针捕获或PCR扩增技术获得的外显子区域进行的高通量测序。外显子(Exon)包含编码蛋白质(“生命活动的承担者”)所需的全部信息。全部的外显子称为外显子组(Exome)。
(human exome) | ||
* May vary depending on the sample types, species, and data analysis. |
人类基因组测序的费用在过去20年从数亿美元降到了不到1000美元,下降速度远超“摩尔定律”。2005年Roche 454测序仪运行一次产生400MB左右的基因序列文件;2010年Illumina HiSeq2000运行一次产生200GB的基因序列文件,短短的5年测序速度就提升了500倍,序列文件所占的存储也急剧上升。但随着计算机的进步,大量数据的存储和分析成本也在呈摩尔定律式地下降。
Cost per genome data– 2020. Pic From NIH
“ 在价格不变的情况下,集成电路上可容纳的元器件的数量每隔 18~24 个月便会增长 1 倍,同时性能也将提升 1 倍”。——戈登.摩尔(Gordon Earle Moore)
测序仪
IlluminaHiSeq3000 | 0.2% |
IlluminaNextSeq500 | 0.2% |
IlluminaMiSeq | 0.2% |
IonTorrent Proton Ⅱ | 1% |
IonTorrent PGM | 1% |
Nanopore | 10%? |
PacBio | 12% |
454 | 大于6碱基的homopolyer读不准 |
Sanger | 0.001%(前提是突变丰度在30%以上) |
利用云端服务器处理NGS数据
百例样本以上WES数据,其分析仍依赖于计算能力强的云端服务器。数据通过硬盘邮寄或云端传输。•几个或几十个样本的WES数据,其分析通过本地的Windows工作站(高配置的PC机)即可完成。
WES技术应用
人类外显子组所占基因组的比例不超过2%,但包含了约85%的已知与疾病相关的变异。大多数孟德尔疾病或遗传病是由外显子突变或剪接位点(SNV& InDel)突变引起的,这些突变改变了氨基酸序列,从而使蛋白质失去功能。拷贝数变异(CopyNumber Variation, CNV)等染色体结构变异(StructureVariation, SV)也是人类疾病的致病因素之一。不限于遗传病,对于几乎所有的人类疾病,个体的易感性都在某种程度上均受到遗传变异的影响。遗传病、罕见病及复杂疾病的病因研究。已被文献报道或被相关数据库收录,致病机制明确。发现新的致病位点。对于病因复杂的遗传病,每个人的致病突变可能不一样,病人中发现的变异可能尚未被报道。
对于常见疾病,目前的焦点是多基因风险评分的临床潜力。发展对几种常见疾病的、稳健的多基因评分。例如,从包括660万个变异的心脏病发作全基因组多基因评分表明,5%的欧洲血统个体有心脏病发作的风险,未来心脏病的发生率相当于高胆固醇血症的常见单基因型。
开发风险模型,需要有力地整合不同的数据类型。例如环境和生物标志物数据,以量化非遗传风险。实现越来越精确预测个体疾病风险,并利用这些信息定制筛查、预防和治疗策略。
Jacek Majewski, et al. Whatcan exome … Med Genet. 2011
即发现先证者(Probands,指在遗传性状家系调查时第一个被确诊的人)有,但其父母没有的突变。大多是父母配子(精子、卵子)生成时产生并携带的变异,或受精卵发育过程中的自发突变。每个人身上都会有这样的变异,一般不会带来功能性的问题,但有一些先天的小儿疾病,部分新发突变刚好落在了一个重要的基因上。
生殖生育
无创性产前检查(2018年全球超过1000万次)或产前检测,可有效地避免疾病。在许多国家普遍使用,在接下来的十年中,新生儿筛查和产前检查的范围可能会显著扩大。需要检测胚系突变,与现有的数据库对比(突变的人群频率低,致病性高),一旦携带有这种突变得病的概率较高。
癌症主要由体细胞突变(Somaticmutation)驱动,后者又叫获得性突变,是体细胞(如肺、皮肤,肝脏等)在生长发育过程中或者环境因素影响下后天获得的突变,通常身上只有部分细胞带有突变。体细胞突变通常不会遗传给后代。单有肿瘤样本时无法(直接)区分胚系突变与体细胞突变,需将该个体的正常组织作为配对样本,过滤胚系突变。
个性化医疗与保健
Claussnitzer, M., et al. A brief history ... Nature. 2020
从新药研发到上市的成功率只有约10%,多数是因为药物安全性或有效性不足。对潜在药物靶点进行完善的筛选、评估和优先排序需要分析大量的数据。但最具可操作性的新见解可能来自罕见的或个体特异的功能性遗传变异。深入了解这些变异如何导致蛋白质功能的破坏或高度地外显,以及对生物体产生哪些不良后果,可为药物开发提供有意义的信息。例如药物针对的人群和靶点、药物不良反应的预测。
例1:囊性纤维化(CF)是一种肺部遗传性疾病,是由于CFTR蛋白发生缺陷而引起。相关新药于2019年10月获FDA批准用于CFTR基因中至少有一个F508del突变的CF患者,缓解病情。据估计,带有F508del突变的患者占该疾病患者的90%。
例2:EGFR和KRAS的体细胞突变后导致蛋白功能的高度外显变异,即不再需要配体激活即可自磷酸化,一直处于活性状态,不受控制地、持续刺激细胞生长。相关上市药物包含了酪氨酸激酶抑制剂。
例3:遗传变异研究发现,罕见的、高度外显的DGAT1可导致先天性腹泻。因此DGAT1抑制剂的临床试验也被预测、也确实观测到了胃肠道不良反应事件,这为该药物的安全性预警和改进提供了帮助。
大规模的人类遗传学数据是罕见编码变异的丰富资源,对药物的发现有重要价值。对药物开发成功和失败的回顾性分析表明,具有人类遗传证据或与疾病有明确因果关系(clearcausal relationships)的药物靶标,相关药物获得批准的可能性比其他药物至少提高了两倍,上市成功率更高。
近年来国外生物制药行业也越来越多地利用人类遗传学来提高药物发现的成功率。英国生物银行外显子组测序联盟(The UK Biobank ExomeSequencing Consortium,UKB-ES)是英国生物银行(UKB)和8家生物制药公司之间的合作,将完成约50万UKB参与者的外显子组测序,用于提高药物发现的成功率。
随着人类基因组研究的发展,临床医生和临床药师认识到患者个体遗传因素影响药物的代谢、吸收、排泄。基因中特定的核酸序列变异(遗传多态性)导致个体产生不同的药物代谢或分布。图为美国食品和药物管理局(FDA)目前批准的部分药物清单及其相关的药物基因组信息。
一些药物代谢酶,如细胞色素氧化酶P450(CYP450)家族的基因多态性。6种CYP亚型基因可参与药物代谢:CYP1A2、CYP2C9、CYP2C19、CYP2D6、CYP2E1和CYP3A4,部分基因的多态性在个体间差异很大。
肿瘤化疗药物:主要检测人体正常细胞的基因多态性(除了肿瘤组织的基因表达量),推测化疗反应。不是测肿瘤细胞的基因突变,不涉及对肿瘤细胞基因突变的分析。
肿瘤免疫药物:检测与免疫治疗相关的生物标志物(可能不止DNA层面),比如TMB,PD-L1,MSI,MMR,HLA等,以期指导免疫治疗
肿瘤靶向药物:检测肿瘤信号通路中特定基因的点突变/插入缺失/拷贝数变异/融合(结构变异)情况,从而找到对特定患者有效的药物或方案,精准施药。如EGFR/KRAS。
此外还有肿瘤早期筛查(通过液体活检技术对ctDNA的突变负荷或甲基化进行检测)、肿瘤预后预测、疗效评估等基因检测。
Gullapalli, et al.Next generation sequencing in ... J Pathol Inform. 2012
目前有50多个FDA批准的治疗遗传性疾病的药物。虽然基因治疗自其早期引入以来发展缓慢,最近的进展在基因编辑领域,正在重新激活通过基因治疗疾病的方法操控潜在的基因缺陷。
撰写:宋红卫