查看原文
其他

外显子测序技术简介(一)

宋红卫,叶明皓 聊生信 2022-05-14

全外显子组测序(WholeExome Sequencing, WES)是指对在全基因组范围内利用探针捕获或PCR扩增技术获得的外显子区域进行的高通量测序。外显子(Exon)包含编码蛋白质(“生命活动的承担者”)所需的全部信息。全部的外显子称为外显子组(Exome)。


高通量测序(High-ThroughputSequencing, HTS)是指一次(一轮反应或拍照)对几十万到几百万条核酸分子进行序列测定的技术,也叫下一代测序技术(NextGeneration Sequencing,NGS)或二代测序。
全基因组测序(WholeGenome Sequencing, WGS)是指对全基因组范围内的所有区域进行的高通量测序。
国际千人基因组计划数据库(一)国际千人基因组计划数据库(二)



WES
Target Region Sequencing
Objective
Accurate  variants detection within exon region
Detecting  cancer specific and/ or rare variants
Sufficient  depth
   (human exome)
100X
500X
Capture  region
Agilent  SureSelect  Exome Capture Kit/ Customized capture kit
Sample  Requirements
Minimum  Quantity 1 µg, Minimum Concentration = 50 ng/µl,
 OD 260/280=1.6~2.0
Deliverables
Raw  data(FASTQ/VCF),  Summary of data production, Mapping statistics, Statistics of sequencing  reads, SNPs and InDels  calling, Variant annotation, SNVs concordance.
Trio  (Family-based) analysis,Tumor-Normal paired  analysis
   * May vary depending on the sample types, species, and data analysis.


人类基因组测序的费用在过去20年从数亿美元降到了不到1000美元,下降速度远超“摩尔定律”。2005年Roche 454测序仪运行一次产生400MB左右的基因序列文件;2010年Illumina HiSeq2000运行一次产生200GB的基因序列文件,短短的5年测序速度就提升了500倍,序列文件所占的存储也急剧上升。但随着计算机的进步,大量数据的存储和分析成本也在呈摩尔定律式地下降。

另外,WES是一种比WGS更加经济的替代方法。与WGS相比,WES由于在测序前使用特异性试剂盒捕获靶区(1% of the genome, ~30 Mb),不仅增加这些区域的测序深度,费用也更为经济。这导致WES逐渐成为常规检测或试验。主要的困难不再是测序,而是对测序数据的分析、统计、关联和可视化。测序数据分析困难,学习门槛高,但却是不可逆转的趋势。

Cost per genome data– 2020. Pic From NIH

Gullapalli, et al.Next generation sequencing in ... J Pathol Inform. 2012

“ 在价格不变的情况下,集成电路上可容纳的元器件的数量每隔 18~24 个月便会增长 1 倍,同时性能也将提升 1 倍”。——戈登.摩尔(Gordon Earle Moore)



测序仪

碱基质量值是用于衡量测序质量的重要指标,质量值(Q)越高代表碱基被测错的概率(P)越小,计算公式为Q=-10lgP。下表为常见测序仪平均碱基判读错误率

IlluminaHiSeq3000

0.2%

IlluminaNextSeq500

0.2%

IlluminaMiSeq

0.2%

IonTorrent Proton Ⅱ

1%

IonTorrent PGM

1%

Nanopore

10%?

PacBio

12%

454

大于6碱基的homopolyer读不准

Sanger

0.001%(前提是突变丰度在30%以上)


   



利用云端服务器处理NGS数据

百例样本以上WES数据,其分析仍依赖于计算能力强的云端服务器。数据通过硬盘邮寄或云端传输。•几个或几十个样本的WES数据,其分析通过本地的Windows工作站(高配置的PC机)即可完成。



WES技术应用

人类外显子组所占基因组的比例不超过2%,但包含了约85%的已知与疾病相关的变异。大多数孟德尔疾病或遗传病是由外显子突变或剪接位点(SNV& InDel)突变引起的,这些突变改变了氨基酸序列,从而使蛋白质失去功能。拷贝数变异(CopyNumber Variation, CNV)等染色体结构变异(StructureVariation, SV)也是人类疾病的致病因素之一。不限于遗传病,对于几乎所有的人类疾病,个体的易感性都在某种程度上均受到遗传变异的影响。遗传病、罕见病及复杂疾病的病因研究。已被文献报道或被相关数据库收录,致病机制明确。发现新的致病位点。对于病因复杂的遗传病,每个人的致病突变可能不一样,病人中发现的变异可能尚未被报道。

对于常见疾病,目前的焦点是多基因风险评分的临床潜力。发展对几种常见疾病的、稳健的多基因评分。例如,从包括660万个变异的心脏病发作全基因组多基因评分表明,5%的欧洲血统个体有心脏病发作的风险,未来心脏病的发生率相当于高胆固醇血症的常见单基因型。

开发风险模型,需要有力地整合不同的数据类型。例如环境和生物标志物数据,以量化非遗传风险。实现越来越精确预测个体疾病风险,并利用这些信息定制筛查、预防和治疗策略。


Jacek Majewski, et al. Whatcan exome … Med Genet. 2011

新发变异

即发现先证者(Probands,指在遗传性状家系调查时第一个被确诊的人)有,但其父母没有的突变。大多是父母配子(精子、卵子)生成时产生并携带的变异,或受精卵发育过程中的自发突变。每个人身上都会有这样的变异,一般不会带来功能性的问题,但有一些先天的小儿疾病,部分新发突变刚好落在了一个重要的基因上。

生殖生育

无创性产前检查(2018年全球超过1000万次)或产前检测,可有效地避免疾病。在许多国家普遍使用,在接下来的十年中,新生儿筛查和产前检查的范围可能会显著扩大。需要检测胚系突变,与现有的数据库对比(突变的人群频率低,致病性高),一旦携带有这种突变得病的概率较高。

癌症研究

癌症主要由体细胞突变(Somaticmutation)驱动,后者又叫获得性突变,是体细胞(如肺、皮肤,肝脏等)在生长发育过程中或者环境因素影响下后天获得的突变,通常身上只有部分细胞带有突变。体细胞突变通常不会遗传给后代。单有肿瘤样本时无法(直接)区分胚系突变与体细胞突变,需将该个体的正常组织作为配对样本,过滤胚系突变。

个性化医疗与保健

WES可有效发现许多罕见病和一些常见疾病的易感基因,以及某些可能产生严重药物或食物不良反应的易感基因。易感基因变异的致病性低,通常不直接致病,而是增加患病的风险。例如BRCA1和BRCA2突变与早发性乳腺癌和卵巢癌。这将越来越多地侧重于为具有遗传易感性的个体提供个性化的医疗保健。包括治疗、改变饮食或行为、预防性干预措施、加强特定疾病的监视。

Claussnitzer, M., et al. A brief history ... Nature. 2020

药物开发

从新药研发到上市的成功率只有约10%,多数是因为药物安全性或有效性不足。对潜在药物靶点进行完善的筛选、评估和优先排序需要分析大量的数据。但最具可操作性的新见解可能来自罕见的或个体特异的功能性遗传变异。深入了解这些变异如何导致蛋白质功能的破坏或高度地外显,以及对生物体产生哪些不良后果,可为药物开发提供有意义的信息。例如药物针对的人群和靶点、药物不良反应的预测。

例1:囊性纤维化(CF)是一种肺部遗传性疾病,是由于CFTR蛋白发生缺陷而引起。相关新药于2019年10月获FDA批准用于CFTR基因中至少有一个F508del突变的CF患者,缓解病情。据估计,带有F508del突变的患者占该疾病患者的90%。

例2:EGFR和KRAS的体细胞突变后导致蛋白功能的高度外显变异,即不再需要配体激活即可自磷酸化,一直处于活性状态,不受控制地、持续刺激细胞生长。相关上市药物包含了酪氨酸激酶抑制剂。

例3:遗传变异研究发现,罕见的、高度外显的DGAT1可导致先天性腹泻。因此DGAT1抑制剂的临床试验也被预测、也确实观测到了胃肠道不良反应事件,这为该药物的安全性预警和改进提供了帮助。

大规模的人类遗传学数据是罕见编码变异的丰富资源,对药物的发现有重要价值。对药物开发成功和失败的回顾性分析表明,具有人类遗传证据或与疾病有明确因果关系(clearcausal relationships)的药物靶标,相关药物获得批准的可能性比其他药物至少提高了两倍,上市成功率更高。


近年来国外生物制药行业也越来越多地利用人类遗传学来提高药物发现的成功率。英国生物银行外显子组测序联盟(The UK Biobank ExomeSequencing Consortium,UKB-ES)是英国生物银行(UKB)和8家生物制药公司之间的合作,将完成约50万UKB参与者的外显子组测序,用于提高药物发现的成功率。


药物基因组与用药指导
胚系变异

随着人类基因组研究的发展,临床医生和临床药师认识到患者个体遗传因素影响药物的代谢、吸收、排泄。基因中特定的核酸序列变异(遗传多态性)导致个体产生不同的药物代谢或分布。图为美国食品和药物管理局(FDA)目前批准的部分药物清单及其相关的药物基因组信息。

一些药物代谢酶,如细胞色素氧化酶P450(CYP450)家族的基因多态性。6种CYP亚型基因可参与药物代谢:CYP1A2、CYP2C9、CYP2C19、CYP2D6、CYP2E1和CYP3A4,部分基因的多态性在个体间差异很大。

肿瘤化疗药物:主要检测人体正常细胞的基因多态性(除了肿瘤组织的基因表达量),推测化疗反应。不是测肿瘤细胞的基因突变,不涉及对肿瘤细胞基因突变的分析。

肿瘤免疫药物:检测与免疫治疗相关的生物标志物(可能不止DNA层面),比如TMB,PD-L1,MSI,MMR,HLA等,以期指导免疫治疗

体细胞变异

肿瘤靶向药物:检测肿瘤信号通路中特定基因的点突变/插入缺失/拷贝数变异/融合(结构变异)情况,从而找到对特定患者有效的药物或方案,精准施药。如EGFR/KRAS。

此外还有肿瘤早期筛查(通过液体活检技术对ctDNA的突变负荷或甲基化进行检测)、肿瘤预后预测、疗效评估等基因检测。

Gullapalli, et al.Next generation sequencing in ... J Pathol Inform. 2012

目前有50多个FDA批准的治疗遗传性疾病的药物。虽然基因治疗自其早期引入以来发展缓慢,最近的进展在基因编辑领域,正在重新激活通过基因治疗疾病的方法操控潜在的基因缺陷。

常见病联盟旨在建立:(a)全面的不同人群和环境的基因型-表型关系;(b)跨基因组变异和基因水平功能的系统分析细胞类型、状态和暴露;(c)将这些基础知识转化为充分发展的分子、细胞、疾病发病机制的生理模型;(d)利用这些生物学见解推动新的预防和治疗方法。其中第一项将涉及记录所有人类群体的自然遗传变异的全谱,包括收集随时间累积的体细胞突变和结构变异,并将这些变异纳入生物库和电子健康记录。随着时间的推移,临床测序的基因组数量将超过学术界。研究界和医疗保健界需要制定一个基因组学协调方法。进展将在很大程度上取决于平台和管理,降低遗传和表型数据整合的障碍。在里面特别是,多基因评分推导的改进将促进对多因素性状的风险预测,利于疾病分类、促进生物标记物发现和治疗优化,并有助于理解单基因条件的可变外显率。这将推动临床应用,超越目前对新生儿测序、孟德尔疾病诊断和体细胞肿瘤测序的关注。
随着多基因评分效果的提高,对遗传易感性和现实世界的临床结果之间存在显著差异,应定义暴露(如生活方式选择或肠道微生物组)对疾病病因的贡献仍不清楚。总的来说,这些发展有望加速医疗服务的个性化。只要成本是可持续的,一个更具预防性的健康观点可能会出现,并得到管理通过使用风险评估进行前瞻性基因组、临床和生活方式监测分数、复杂的生物标志物、液体活检和可穿戴设备。
促进了解病因学的异质性、共病模式不同疾病的遗传风险、治疗反应和风险的差异不良事件的预防,将增强预防和治疗干预的针对性。然而,为了充分发挥基因组医学的潜力,需要在几个方面进行持续的合作努力确保生成更详细地图的能力。
序列变异和生物医学表型之间关系的研究提供了对疾病机制的全面理解,这可以转化为明天的药物。


撰写:宋红卫

校对:叶明皓

更多人类遗传学知识、文献和分析技术
请关注和星标聊生信

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存