为什么基因组医学研究要使用FFPE样本
福尔马林溶液固定、石蜡包埋保存组织是用于诊断组织保存的金标准方法(FFPE)。这种方法保存材料在降低新鲜组织可能存在的感染源风险及分析组织结构方面都有许多优点,石蜡包埋后的组织块可以切成薄片,并使用苏木精和蕃红等简单的染料检测组织结构,及描绘细胞的不同成分。大多数癌症诊断仍然是使用将正常组织结构的变化与疾病的不同阶段联系起来的方法,并使用免疫组化来检查与细胞功能相关的关键蛋白丰度的变化再进一步加强判断。通过使用已在FFPE组织上验证并经适当机构如美国的CLIA(临床实验室改进修正案)和英国的NEQAS(国家外部质量评估服务)审核的方案,确保了机构间诊断的一致性。
随着基因检测的兴起,主张恢复使用新鲜冷冻组织作为诊断标本的呼声越来越高。主要是在从FFPE样本中获得基因序列的过程中,已经暴露了一些问题,由于福尔马林的固定导致的DNA断裂、胞嘧啶(C)脱氨基、无碱基位点的产生等化学交联问题,可能导致得到错误的核酸信息,特别是脱氨基导致的C:G > T:A人为突变的增加。
FFPE DNA序列伪影(sequence artifacts,固定、包埋等过程人为引入的突变)具体表现为NGS结果中DNA序列出现了一些在固定之前不存在的碱基变化,棘手的问题是需要区分真正的突变和由于固定引起的人为突变。多项研究表明,与新鲜组织相比福尔马林处理后的样本出现了较多人为引入的序列变化(表1)。
表1
通常很难区分真实的突变和人为引起的突变,因此增加了假阳性突变检出的风险。在某些情况下,序列伪影可能被错误地解释为临床上重要的突变。Tsao和他的同事检测到了FFPE DNA中的多个新的EGFR突变,这些突变从未在2000多个新鲜冷冻的非小细胞肺癌样本中发现。其他研究发现,在12244例非小细胞肺癌患者中有3381个体细胞EGFR突变,71%的EGFR突变仅见于单个病例,提示许多已报道的EGFR突变可能是序列伪影。序列伪影可以表现出与常见突变相同的碱基变化,例如,KRAS突变和EGFR T790M突变分别是抗EGFR单克隆抗体和EGFR酪氨酸激酶抑制剂耐药性的预测标志,但在福尔马林固定的结直肠癌和非小细胞肺癌的DNA中已经报告了与KRAS和EGFR T790M突变相对应的人为突变。Lamy和他的同事研究发现,在993例福尔马林固定的结直肠癌中,有53例(5%)存在密码子12和13KRAS人工变异(14例)。序列伪影可能有多个来源,包括FFPE样本制备过程中存在的损伤、样本提取中DNA氧化损伤、DNA聚合酶错误、假基因扩增、接头嵌合体、测序及在热循环过程中核苷酸的自发脱氨等,本章节主要介绍的是样本制备(固定、包埋)过程中引入的损伤。
在福尔马林固定的组织中,有几种类型的DNA损伤被确认为序列伪影的来源,组蛋白-DNA交联、甲醛-DNA复合物、DNA-蛋白质交联、DNA-DNA交联、C>U、C>T、碱基缺失、DNA链断裂等(图1)。
图1
甲醛诱导的交联
甲醛是福尔马林的主要成分,是一种反应性的亲电化学物质,能与细胞内的大分子(如蛋白质和DNA)之间产生各种交联。甲醛诱导的交联包括蛋白质-蛋白质、蛋白质-DNA、DNA-甲醛复合物和链间DNA交联。甲醛与氨基酸的官能团相互作用形成羟甲基复合物,该复合物可通过亚甲基桥与其他氨基酸进一步交联(图2)。
图2
甲醛渗透到组织中,氨基酸和碱基的亲核部分与甲醛反应,产生不稳定的羟甲基复合物和席夫碱中间体。这些中间体通过与第二个亲核基团(通常在另一个分子上的DNA和蛋白质)形成稳定的亚甲基桥交联,这种交联在热处理和/或碱性pH下是可逆的。
甲醛还通过与DNA碱基的亚氨基反应使DNA交联。由于亚胺基团中的原子参与了介导碱基配对的氢键,甲醛诱导的DNA复合物通过减少双链DNA中氢键的数量而削弱了双链DNA的结合强度,降低了双链DNA的稳定性,导致DNA部分变性。
DNA片段化
DNA链断裂是福尔马林固定组织中常见的DNA损伤形式,DNA的断裂程度随着福尔马林储存时间的延长和用于组织固定的pH值的降低而增加。与新鲜福尔马林固定的组织DNA相比,来自较老福尔马林固定的组织DNA PCR成功率降低,这表明DNA在储存过程中可能会持续发生断裂。FFPE DNA的片段化损伤直接影响可用于PCR扩增的模板数量,因此,不同样品中相同量的FFPE DNA可能包含明显不同数量的可扩增模板,这取决于片段化损伤的程度。
碱基丢失
甲醛与空气接触会被氧化成甲酸,从而降低福尔马林的pH值,因此,福尔马林通常被缓冲以维持中性的pH水平。嘌呤碱基和糖骨架的N-糖苷键在低pH时容易水解,从而在DNA中产生无碱基位点,因此,在没有缓冲的福尔马林中固定组织将显著降低可扩增DNA模板的数量。
单链DNA的脱嘌呤率是双链DNA的4倍,DNA链末端的嘌呤碱基比位于内部位置的嘌呤碱基更容易脱嘌呤,碱基上的的醛残基可以通过与鸟嘌呤的环外氨基反应生成链间交联。此外,DNA中的碱基缺失强烈破坏双螺旋的稳定性,导致DNA的局部变性。由于单链DNA的损伤率高于双链DNA,因此甲醛引起的DNA变性可能会促进DNA的进一步损伤。
DNA聚合酶绕过无碱基位点继续延伸的效率通常较低,从而阻止了带有无碱基位点DNA模板的扩增。但有研究表明,有些DNA聚合酶有一定比例能通过无碱基位点,且会优先在对应链加入腺嘌呤,也可能会是少量的鸟嘌呤或产生1-3个碱基的缺失,结果就是人为的在无碱基位点的地方引入了各种类型的单核苷酸变异或者缺失。
胞嘧啶碱基的脱氨
图4
在活细胞中,胞嘧啶水解脱氨成尿嘧啶的速率大概是每天70-200次,但是该损伤很快会被尿嘧啶-DNA糖基化酶(UDG)去除,产生的无碱基位点会通过互补链的鸟嘌呤被正确恢复。然而当胞嘧啶在活细胞外脱氨时,尿嘧啶损伤不会被修复,当带有尿嘧啶的DNA模板被PCR扩增时,由于DNA聚合酶结合了与尿嘧啶互补的腺嘌呤,从而人为产生了C:G>T:A的突变(图4)。
在FFPE DNA中检测到的序列伪影中,C:G>T:A突变是最常见的SNV类型,当检测低拷贝数的FFPE DNA时,序列伪影更容易被检测到,这在基于扩增子的实验中最常见。如图是三个鳞状细胞肺癌的FFPE样本DNA在进行UDG处理前(黑)后(灰),使用TruSeq建库的测序数据检测到的单核苷酸改变(SNC)数量统计结果,可以发现,3个样本经UDG处理后,人为的C:G> T:A SNC均显着减少:SCC4减少81%,SCC30减少60%,SCC39减少75%。C:G> T:A SNC的显著减少导致SCC4的总体SNC减少65%,SCC30的SNC整体减少40%,SCC39的SNC整体减少50%。相反,其他类型的单核苷酸改变基本上保持不变。表明尿嘧啶损伤是FFPE DNA人为导致C:G>T:A变异的主要来源(图5)。
图5
但并不是所有脱氨基的胞嘧啶都能被UDG切除,胞嘧啶在DNA中可以被甲基化或未被甲基化,而5甲基胞嘧啶几乎只存在于CpG二核苷酸中,如图胞嘧啶被氨基化为尿嘧啶,而5-甲基胞嘧啶被氨基化为胸腺嘧啶(图6)。
图6
如图所示(图7)是三个鳞状细胞肺癌的FFPE样本DNA在进行UDG处理前(黑)后(灰),使用TruSeq建库的测序数据中212个扩增子的4个CpN(n=A,C,G和T)二核苷酸处C>T统计结果。UDG处理后CpN二核苷酸的总体C>T变化显着降低,SCC4降低5.6倍,SCC30降低4.4倍,SCC39降低4倍。C>T变化的显著减少仅限于CpA,CpC和CpT二核苷酸,而C>T变化的发生率在CpG二核苷酸几乎没有变化。UDG仅对尿嘧啶有活性,因此UDG处理将仅减少脱氨基的胞嘧啶上引起C>T突变(图4),但不会减少在5-甲基胞嘧啶上人为引起C>T突变(图6)。
图7
组织样本经福尔马林固定、石蜡包埋处理后,核酸的碱基序列会发生不同程度的改变,由此看来,新鲜冷冻组织在序列检测准确性方面明显比FFPE样本有优势,但实际情况是,获取具有代表性的冷冻肿瘤样本通常并不现实,即使在可行的情况下,收集和持续存储也会涉及额外的费用。目前阶段对诊断正常的FF组织和来自同一个体的FFPE肿瘤材料进行基因测试的比较可能是非常有挑战性的。在英国100,000人基因组计划的初步研究中(图8),旨在确定应该使用FF还是FFPE材料进行临床全基因组测序,调查结果显示最大的样本剔除率(184份中有87份;48%)是由于缺乏合适的FF样本,FF相较于FFPE样本储存更困难。
图8
而且对采集的新鲜组织病变评估并不简单-只有当组织被制成足够坚固的(即冷冻的)材料进行切割和染色时,才能正确地评估细胞密度。即便如此,使用FF组织切片评估肿瘤分期和分级也远不如FFPE切片精确。尽管冰冻切片在需要术中立即诊断时无疑是有价值的,但它们也一直比FFPE有更高的诊断错误率(主要是特异性)。因为肿瘤体积小等原因,可用的材料有限,重复采集新鲜的手术标本通常是不切实际的。
新鲜组织样本的获取和储存并不简单,现阶段生物样本库中仍有大量的FFPE样本等待研究,既然避不开使用FFPE样本,那就需要研究一下如何最小化序列伪影带来的影响。
降低DNA损伤的方法
最大限度地减少序列伪影对于准确检测福尔马林固定的临床组织中的actionable(可能对靶向治疗有反应)突变至关重要,可以提高对靶向治疗有反应的患者检出准确率,也将降低因对无反应的患者进行不当治疗而产生的不必要不良影响的比例。
增加有效扩增模板投入量
实验开始前先评估FFPE样本情况对于优化突变检测的实验条件和结果的慎重解释是至关重要的,主要的评估部分是需要有经验的病理学家对肿瘤组织的检查和对可扩增模板的预估。
病理诊断主要是确定肿瘤组织的大小、富集区域、肿瘤细胞含量等信息,肿瘤纯度信息对于解释结果很重要,因为如果正常组织占主导地位,突变的频率会更低。不同分子检测方法的分析灵敏度有很大的不同,肿瘤纯度的最低要求水平也因检测方法的不同而不同。对于Sanger测序,最低纯度为20%,而大规模平行测序(MPS)的深度测序允许以较低的肿瘤纯度检测突变,但较低的肿瘤纯度同时会增加区分序列伪影和真正突变的难度。
提取得到的FFPE DNA常用分光光度或荧光法定量,但这两种方法往往会高估可扩增模板的实际数量,主要与DNA的降解程度有关,使用qPCR和数字PCR等基于PCR的方法定量可扩增模板实际数量的方法是最准确的。进入建库可扩增模板的多少决定了检测结果的可靠程度,在低可扩增模板的情况下,由于等位基因的随机变化会导致真实突变被错误检测,突变分析中使用的模板越少,假阴性的风险就越高,特别是在肿瘤细胞含量较低的情况下,即使是真实的突变也是较低的频率。而且在这种情况下,由于DNA损伤引起的人为突变也会被频繁的检测到,从而增加了假阳性的风险。因此,对提取的DNA进行精确定量并使用足够的DNA进行文库构建是尤为重要的,可以降低在背景噪音和数据过滤阈值之上检测到随机伪影突变的可能性。
热处理解交联
甲醛诱导的DNA-DNA、DNA-蛋白质交联会对从福尔马林固定的组织中提取到的可扩增DNA模板数量产生不利影响,甲醛诱导的交联通过热处理是可逆的,逆转速率与缓冲液的温度和pH密切相关,甲醛交联的半衰期与温度成反比。研究表明经过高于90℃的加热处理,不仅可以提高DNA的得率,而且可以提高从FFPE组织中获得可扩增模板的比例。
尿嘧啶DNA糖基化酶(UDG)处理
C:G>T:A突变是FFPE DNA中胞嘧啶脱氨基产生的最常见的序列伪影,在PCR扩增前用UDG在体外去除FFPE DNA中的尿嘧啶碱基,可显著降低人工引入的C:G>T:A突变,这一比例在某些FFPE DNA中可能高达60%-80%。
UDG从双链DNA中的U:G错配中去除尿嘧啶碱基,产生的无碱基位点通过降低DNA聚合酶延伸率并在PCR过程中引起模板的热切割而显著阻碍模板的扩增。因此,在PCR扩增前对FFPE DNA进行UDG预处理,结合使用不能通过无碱基位点的聚合酶进行扩增,可显著降低人为引入C>T突变的丰度。UDG处理后,仍可观察到一定数量的C>T伪影突变,其中许多位于CpG位点,推测为甲基化位点。理论上,由5-mC脱氨产生的胸腺嘧啶损伤可以使用碱基切除修复酶MBD4和胸腺嘧啶-DNA糖基化酶中的任何一种从双链DNA中移除,但目前阶段这一方案还没有被用于FFPE DNA的研究中。
高保真聚合酶对受损模板的扩增抑制
绕过DNA损伤位置效率较低的DNA聚合酶可用于减少序列伪影,有些DNA聚合酶在延伸过程遇到尿嘧啶碱基时会在对应位置添加上腺嘌呤(旁路效应),有一些DNA聚合酶,特别是B家族DNA聚合酶(如PFU和KAPA),具有预读功能,可以识别尿嘧啶损伤并在腺嘌呤误掺入之前终止延伸。PFU(高保真)聚合酶已被证明在70%-99%的模板中终止了尿嘧啶损伤上的延伸。因此,使用旁路效率较低的高保真聚合酶扩增受损伤的DNA是减少序列伪影简单有效的方法。
DNA双链测序
使用分子倒置探针和其他延伸连接技术对靶序列的正义链和反义链独立测序,可以提高突变检出的准确性。因为每个模板损伤将只出现在1条DNA链中,这种方法可以将DNA损伤引起的序列伪像与真正的突变区分开来。
DNA模板分子标记
用独特的序列标记DNA模板是一种有效减少序列伪影的方法。用14bp简并序列的唯一标识符(UID)标记单个单链DNA,以允许跟踪测序Reads的起始模板。真正的突变存在于所有子分子中,而在实验步骤中引入的任何错误只存在于较低比例的UID群体中。通过消除具有相同UID的序列Reads中出现的低于95%的突变,可将错误率降低约20倍。
生信分析验证
序列伪影检测频率一般在MPS背景噪音和数据过滤阈值水平之上,很难把伪影和由于肿瘤纯度低或肿瘤异质性造成的真正的低水平突变区分开。生物信息过滤已经被作为一种减少伪影的方案,但序列伪影的生物信息学去除也会增加临床上重要突变的假阴性风险,特别是存在于低水平的耐药突变。
当使用位点特异性单链分析突变时,所有检测到的突变位点都可以很容易地用独立的PCR产物来验证。然而,基于MPS的方法中检测到的突变位点的数量太多,对每个单一突变的有效性进行验证是不可行的。但对临床上检出的重要(可能对靶向治疗有反应)突变进行验证是有必要的,特别是当只需要验证一个或几个突变时,推荐使用Sanger测序或焦磷酸测序,不过可能会存在灵敏度较低的问题。
对17项已经发表的关于FFPE和FF配对样本NGS测序结果的文献研究发现3、14、15、21、23-35(表2),FFPE样本的DNA测序数据具有比FF的DNA更低的mapped reads(比对到参考基因组的读数)。其中7项研究报告表明来自FFPE的DNA覆盖率低于FF样本,但仍高于NGS的质量阈值3、14、24、27、30、34、35。另外7项研究发现FFPE和FF之间的覆盖率没有统计学上的差异15、21、23、25、29、31、32。一篇论文表明FFPE的覆盖率高于FF样本,两篇论文没有相关数据报道26,28,33。
表2
17项比较研究中有16项没有将UDG处理应用于FFPE样本提取,1项研究将其应用于三个DNA提取试剂盒中的比较中14。四篇报告显示FFPE DNA与FF DNA相比C:G>T:A突变比例升高(每项研究的平均覆盖率为77-130x)3、14、30、32,5项研究没有统计上显著的富集15、21、24、25、35。一项研究只在FFPE DNA特别降解的时候发现了甲醛诱导的人工突变23,一项研究只在CpG位点有发现29,还有6项研究没有任何报道26-28,31,33,34。
甲醛诱导的人工突变本质上是随机的,因此当测序覆盖率增加时,它们出现的频率会降低。Kerick等人15注意到,在20×覆盖率的FFPE中检测到0.98%的假阳性突变率,当覆盖率增加到80×时,这一点就被消除了。在另一项研究中,当覆盖度从4×增加到8×时,假阳性率从30%下降到10%31。
测序覆盖度的大小取决于文库的质量,而文库的质量又取决于DNA的质量和数量。Astolfi等人23对DNA(来自FFPE样本)进行了测序,根据它们是否通过了qPCR定量和QC分析将其定义为“良好质量”和“劣质”,QC分析:“优质”DNA与FF具有相同的覆盖率,而“劣质”DNA则不具有相同的覆盖率。Vanni等人34证明,10和20 ng DNA都可以成功的制备Ion Torrent平台测序文库,但20 ng DNA测序覆盖率(2/90 amplicons<500倍)比10 ng DNA(6/90 amplicons <500倍)更高。
在描述FFPE生物样品对NGS的适应性方面,17项研究的共识是,来自FFPE生物样品的原始NGS数据略差于来自FF生物样品的原始NGS数据,但这并不令人惊讶,因为FF是NGS的“黄金标准”。这些更高质量的NGS数据的价值必须与FFPE生物样本与患者诊断的更高相关性相抵消,相同的FFPE组织块还可以用于IHC和组织形态学分析。在大多数生物库中,FF生物样品要么比FFPE组织块稀少得多,要么根本就没有。因此,对使用FFPE生物样本持开放态度的研究人员有更多的生物样本可供选择,从而使他们能够使用更大的样本库,并更精确地匹配潜在的混杂参数,如患者年龄、性别和研究组内、组间的肿瘤百分比。对于临床诊断,最小取样方法(如针吸活检)太小,不能产生足够的组织来同时采集FF和FFPE样本。对于这些患者来说,选择FF方案是不可行的,因为诊断癌症、确定肿瘤分级和分期以及进行免疫组化的错误率太高。因此,当使用FF样本进行NGS时,需要额外的FFPE样本用于诊断,但是相反地,当已经获得用于诊断的FFPE样本时,用于NGS的额外的FF样本不是必需的,而且在大多数情况下是多余的。
综合考虑,研究者认为重点应该放在提高FFPE生物标本的质量控制失败率上,通过各个实验室优化其提取方案,可以在DNA提取时提高DNA产量和完整性。例如,研究者最近证明,54个FFPE临床组织块,优化DNA提取试剂盒的蛋白酶K消化和脱蜡步骤可以将不符合100000基因组计划初步研究中使用的QC验收标准的FFPE样本提取DNA的百分比从33%降低到7%,这相当于比那些因为无法获得FF组织块而被排除在外的患者要少得多(48%)。
尽管普遍认为对DNA序列的了解会比对组织结构、蛋白质丰度和细胞内位置的评估提供更多的信息,但这一观点尚未得到证实。因此现阶段使用组织学和免疫学对FFPE材料进行诊断仍将作为主流检测方法,直到更合适的方法得到验证。
参考文献
[1] Mathieson W, Thomas G A. Why Formalin-fixed, Paraffin-embedded Biospecimens Must Be Used in Genomic Medicine: An Evidence-based Review and Conclusion[J]. Journal of Histochemistry and Cytochemistry, 2020, 68(8):002215542094505.
[2] Robbe P, Popitsch N, Knight S, et al. Clinical whole-genome sequencing from routine formalin-fixed, paraffin-embedded specimens: pilot study for the 100,000 Genomes Project[J]. Genetics in Medicine Official Journal of the American College of Medical Genetics, 2018.
[3] Yun B, Guo J, Robert T. Formalin-Fixed Paraffin-Embedded Tissues—An Untapped Biospecimen for Biomonitoring DNA Adducts by Mass Spectrometry[J]. Toxics, 2018, 6(2):30.
[4] Patricia H, Udo S, Briggs A W, et al. Road blocks on paleogenomes—polymerase extension profiling reveals the frequency of blocking lesions in ancient DNA[J]. Nucleic Acids Research, 2010(16):e161.
[5] D Hongdo, Wong S Q, Li J, et al. Reducing Sequence Artifacts in Amplicon-Based Massively Parallel Sequencing of Formalin-Fixed Paraffin-Embedded DNA by Enzymatic Depletion of Uracil-Containing Templates[J]. Clinical Chemistry, 2013(9):1376-1383.
[6] Do H, Dobrovic A. Limited copy number - high resolution melting (LCN-HRM) enables the detection and identification by sequencing of low level mutations in cancer biopsies[J]. Molecular Cancer, 2009, 8(1):1-11.
[7] Sah S, Chen L, Houghton J, et al. Functional DNA quantification guides accurate next-generation sequencing mutation detection in formalin-fixed, paraffin-embedded tumor biopsies[J]. Genome Medicine, 2013, 5(8):77.
相关阅读
植物单细胞测序:一种研究植物功能基因组学的高分辨途径 | 原生质体专题
点击下方图片进入云平台资料汇总:
所见即所得,figure有bi格
联川云平台,让科研更自由