四篇文章教你如何提高cfDNA/ctDNA检出率和预测性
液体活检,是近几年非常热门的体外诊断技术,是通过血液或尿液等对癌症等疾病做出诊断,其优势在于能通过非侵入性取样降低活检的危害。目前液体活检的主要检测物包括血液中游离的循环肿瘤细胞(CTCs)、循环肿瘤DNA(ctDNA)碎片、循环RNA(Circulating RNA)和外泌体(携带有细胞来源相关的多种蛋白质,脂类,DNA,RNA等)。
由于其可以应用于肿瘤早筛、诊断和治疗监测方面的巨大前景,加上近几年来技术上的不断突破,液体活检被科研、资本都快炒上天了。据摩根大通预测,癌症的液体活检是一个千亿美元级的大市场,而其中的cfDNA、ctDNA更是重中之重。
科技君整理了今年各大期刊上cfDNA的内容干货,带您深度了解cfDNA。
何为cfDNA?
cfDNA即cell-free DNA,是凋亡细胞酶解后释放到外周血、尿液、其他体液中的游离DNA。其长度大约在167bp,这个长度差不多是核小体缠绕的DNA长度(~147bp)加连接DNA片段(~20bp)的总长(图1)。我们接下来讲的是关于血浆cfDNA。
图1 染色质结构
核小体是由DNA和组蛋白形成的染色质基本结构单位,每个核小体由147bp的DNA缠绕组蛋白八聚体近两圈形成,核小体核心颗粒之间通过20bp左右的连接DNA相连。
正常个体的cfDNA主要来自凋亡的骨髓细胞和淋巴细胞,少部分来自组织。但在有些个体中,组织来源的cfDNA比例较多,因此衍生出来cfDNA在临床上的一些应用:
1.孕妇:cfDNA的10%-15%来自胎盘滋养层细胞,其部分DNA来自胎儿,因此被应用于无创产前诊断。
2.肿瘤病人:肿瘤病人的cfDNA包含部分来自癌细胞的ctDNA,对cfDNA体细胞突变的检测可用于癌症早期诊断、用药、监测。
3.移植个体:排斥反应与血液中高水平的供体来源的cfDNA有关,可用于监测排斥反应。
Cell-free DNA Comprises an In Vivo Nucleosome Footprint that Informs Its Tissues-Of-Origin. Cell. 2016 Jan 14.
尽管cfDNA突变的检测技术不断提升,但是由于背景DNA(正常细胞凋亡形成的DNA)的干扰,体细胞突变的检测仍受限,进而影响癌症诊断和监控的准确性。华盛顿大学的研究人员,利用cfDNA测序数据推测核小体模式(nucleosome patterns),进而推断不同基因的表达情况(核小体位置、间距与基因的表达状态有关),再与不同细胞系和组织的RNA数据库对比,可推测cfDNA来自哪些部位,也可用于推测肿瘤的原发部位。
图2 文章思路图
1.推断核小体位置
蛋白结合的DNA不易被消化,因此cfDNA可以反映DNA和蛋白结合的情况,例如核小体位置、转录因子结合位置。不同蛋白的结合会产生不同的剪切模式,例如核小体间剪切会形成120-180bp的长cfDNA片段,而TFBS(转录因子结合位点)间剪切会形成35-80bp的短cfDNA片段。
文章采用WPS(windowed protection score)打分的方法,以120bp为窗口,分析不同区域受核小体保护的程度。WPS分数高的区域受保护,不易被DNase消化;WPS分数低的区域未受保护,易被DNase消化。
2.cfDNA与基因表达的相关性,推测其来源
对长cfDNA片段进行FFT(fast Fourier transformation)分析,发现核小体间隔170-180bp的区域内,FFT信号强度与表达量正相关,而在间隔199bp区域内,FFT信号强度与表达量负相关。据此推测的基因表达情况,与不同细胞系和组织来源的RNA表达数据库(n=76)做对比,可分析出健康人cfDNA主要来自淋巴细胞和骨髓细胞,而不同癌症病人cfDNA来自不同的原发灶,例如IC17为肝细胞癌,由cfDNA推测的表达数据与HepG2(肝细胞癌细胞系)类似(图3)。
图3 76个RNA表达数据库与健康人、癌症病人的FFT信号强度
Inferring expressed genes by whole-genome sequencing of plasma DNA. Nat Genet. 2016 Aug 29.
与上一篇类似,奥地利的科学家采用核小体与测序深度的关系预测基因表达量。
cfDNA中包含核小体保护的DNA,而基因TSS(转录起始位点)的核小体结合情况能够反映基因的转录状态(活跃或沉默)。使用微球菌核酸酶(Micrococcal nuclease,MNase),来消化没有受到组蛋白保护的DNA序列,这样就能通过分析未消化DNA序列片段,间接了解核小体的位置,即reads覆盖多的区域为核小体的位置。
本研究就是通过分析cfDNA基因TSS的reads覆盖情况,来预测cfDNA来源的组织或细胞的基因转录状态,也可以用于预测肿瘤个体原发灶的基因表达情况。
图4 核小体保护的cfDNA覆盖度分布情况
峰的高低代表reads高低,峰高的地方即为核小体分布的位置。
样品及策略:179个血浆DNA样品(50个男性、54个女性、2个乳腺癌病人)进行WGS分析,426个癌症病人血浆样品进行核小体启动子分析。
1.建立方法:正常个体中验证血浆cfDNA TSS区测序深度与基因表达量关系
正常人的血浆DNA主要来自凋亡的淋巴细胞和骨髓细胞,所以该阶段选用正常人的血浆cfDNA与淋巴细胞系RNA-seq数据进行对比。
图5 正常个体血浆cfDNA预测基因表达量
2.肿瘤应用:在肿瘤病人中验证cfDNA TSS区测序深度与原发灶基因表达量关系
根据模拟,肿瘤来源的片段比例在75%以上的cfDNA才适合用于推断原发灶基因表达量。文章选取2例转移性乳腺癌(B7和B13)的原发灶和血液,分别对血浆DNA(即cfDNA)和原发灶样品进行低深度全基因测序和拷贝数变异(CNA)分析,因为ctDNA的频率要考虑CNA的影响,同时CNA区域往往含有driver gene。对cfDNA的B7(1q)、B13(8p11-qter)TSS进行测序,预测的表达和不表达基因,与实际原发灶RNA-seq测到的Top100基因进行对比,发现cfDNA预测的准确性高达86.1%和88.1%,而对所有区域基因表达量的预测准确率达到78%。该方法对于一个基因含有多个TSS的区域同样适用。
对单个肿瘤基因表达量的准确预测,例如ERBB2,曲妥珠单抗的靶点基因,可以在临床上作为用药监测的重要途径。
图6 肿瘤病人cfDNA预测原发灶基因表达量
图a ctDNA纯度与预测准确性关系,图b 预测方法的测试流程。
Fragment Length of Circulating Tumor DNA. PLoS Genet. 2016 Jul 18.
华盛顿大学的研究人员在胶质母细胞瘤和肝细胞癌的大鼠模型中均发现,ctDNA比正常的cfDNA片段更短:人类ctDNA片段长度约134-144 bp,而大鼠正常cfDNA片段长度约167bp,说明这种现象可能是ctDNA的一种普遍特征。
图7 胶质母细胞瘤(GBM)移植瘤大鼠中检测到的cfDNA片段分布
蓝色线代表人的ctDNA,绿色线代表大鼠的cfDNA。
为了验证这个现象是不是在人体中也存在,研究人员对比了黑色素瘤和健康人的cfDNA,结果发现病人的cfDNA比健康人短20bp(132-145 bp vs. 165 bp)。并且发现BRAF V600E等位基因在较短的片段中频率更高。另外,在15个肺癌患者和9个健康人的对比研究中,也发现病人的cfDNA更短。在病人cfDNA的短片段中发现与肺癌相关的突变,例如EGFR T790M突变。
图8 黑色素瘤病人的cfDNA比健康人短
A. 黑色素瘤病人和健康人cfDNA对比,发现黑色素瘤病人cfDNA片段更短(132-145 bp vs. 165 bp);
B. 黑色素瘤病人cfDNA样品中,含有BRAF V600E突变的片段比不含突变的片段更短。
设想:通过筛选较短的cfDNA也许可以提高样品中突变等位基因的比例,从而提高检测灵敏度。
实验:选取四个肺癌病人(LC1、LC3、LC4、LC10)和一个健康人(C5)的cfDNA样品做EGFR T790M突变频率对比,发现:LC1、LC4、LC10的突变频率比正常样品高2.5-9.1倍,LC1突变频率虽然没有提高,但发现该样品的长片段中EGFR突变频率出现下降。因此,选取较短的cfDNA片段可提高突变等位基因的检测灵敏度。
图9 肺癌病人中EGFR野生型(WT)和突变型(T790M)的cfDNA片段长度
突变等位基因更常出现在较短的cfDNA片段中。
Integrated digital error suppression for improved detection of circulating tumor DNA. Nat Biotechnol. 2016 May
斯坦福大学研究团队开发了一种iDES(integrated digital error suppression)的方法,采用一种特有的标记(molecular barcoding)策略,结合算法纠正系统错误,可检测到ctDNA中频率低至0.004%的突变。
背景DNA错误对cfDNA检测的准确性至关重要。当等位基因频率低于0.02%时,该位点的假阳性高达50%,针对这个问题,研究人员采用两种策略来改进:
1.改进cfDNA标记方法(molecular barcoding)
目前有两种针对测序接头的标记方法,单链标记和双链标记。双链标记虽然更利于纠正错误,但是效率较低。因此文章巧妙的将两种方法结合起来,使两种方法互补结合。
Index barcode:4bp长,标记在每条单链上,可标记不同样品。
Insert barcodes:2bp长,在双链cfDNA的两端均有标记,用于还原双链cfDNA。
图10 混合标记法图示
2.算法纠正背景DNA错误
针对12种替换方式进行评估,主要发生G>T错误,少部分是C>T和G>A错误,这些错误是由于杂交捕获导致的。因此,研究人员通过训练集(training cohort)建立计算模型,可以将特定位置有规律出现的背景错误(position-specific errors)去除。
3.iDES
分子标记(barcoding)和算法去除背景(polishing)的方法结合起来,被称为iDES。将No barcoding or polishing、barcoding、polishing、iDES进行对比,发现iDES校正后的SNP错误率是最低的,可以将准确检测的区域范围从90%提高到98%。
图11 不同方法对SNP错误率的影响
双侧配对t检验发现iDES校正后的SNP错误率最低(P < 8.5 × 10-6)。
4.iDES对癌症cfDNA检测的准确性评估
对66例非小细胞肺癌(NSCLC)患者的cfDNA进行检测,应用iDES校正后热点突变位点的PPV(阳性预测值=真阳性/真阳性和假阳性结果总和)可达到72%,并且效果优于其他两种方法。
图12 不同方法在24例NSCLC cfDNA中热点突变位点的检测效力
EGFR基因对肺癌的治疗至关重要,对该基因区域进行检测发现:iDES对EGFR激酶结构域突变水平检测灵敏性(Sn)可达到92%,特异性(Sp)达到99.99%,在病人水平灵敏性达到90%,特异性达到96%。
图13 37个晚期NSCLC病人的cfDNA样品中突变检测准确性
选取37个晚期NSCLC病人,并且有活检样品的验证结果。27个无EGFR突变的样品,包括健康人和无EGFR突变NSCLC病人。
Sn:Sensitivity;Sp:Specificity;
PPV:Positive predictive value;NPV:Negative predictive value.
5.iDES检测极限为4/105
采用一例黑色素瘤病人DNA样品与正常人cfDNA进行不同比例的混合,发现iDES检测的理论极限值为2.5/106。而对30例NSCLC病人,不同时间点的cfDNA样品进行检测,发现ctDNA实际的检测极限为4/105。
图14 一例三期NSCLC病人不同时间点的iDES检测极限
PD:疾病进展,ND:未检出。
参考文献:
1.Underhill H R, Kitzman J O, Hellwig S, et al. Fragment Length of Circulating Tumor DNA[J]. PLoS Genet, 2016, 12(7): e1006162.
2.Ulz P, Thallinger GG, Auer M, et al. Inferring expressed genes by whole-genome sequencing of plasma DNA[J]. Nat Genet. 2016 Aug 29.
3.Snyder M W, Kircher M, Hill A J, et al. Cell-free DNA comprises an in vivo nucleosome footprint that informs its tissues-of-origin[J]. Cell, 2016, 164(1): 57-68.
4.Newman A M, Lovejoy A F, Klass D M, et al. Integrated digital error suppression for improved detection of circulating tumor DNA[J]. Nature biotechnology, 2016.
关注华大科技,尽享精彩科研!