查看原文
其他

Nat Commun | 血浆cfDNA甲基化和半甲基化分析结合机器学习,可提高多癌种检测准确性

九生 测序中国
2024-11-07

液体活检可通过分析血浆中的循环游离DNA(cfDNA)来实现癌症早期检测,特别是分析cfDNA中与癌症相关的突变、表观遗传特征等;其中,DNA甲基化模式分析在肿瘤检测中表现出色。哺乳动物细胞中,绝大多数DNA甲基化以对称(SM)的方式发生在CpG二核苷酸上,但有约10%以半甲基化(HM)方式发生。通过亚硫酸氢盐测序(BS-Seq)或MeDIP-Seq,人们已在各种细胞系中分析了半甲基化区域(HMR),但很少有研究单独或与对称甲基化CpG联合探索这些HMR用于肿瘤检测和肿瘤发生。


近日,美国哥伦比亚大学张志国教授团队在Nature Communications上发表文章,报道了两种甲基化DNA免疫共沉淀和链特异性(ss)测序方法(MeDIP-Seq),分别用于基因组DNA(ssg-MeDIP-Seq方法)和血浆cfDNA(sscf-MeDIP-Seq方法)的甲基化组分析,并利用MeDIP-seq技术与机器学习算法,对肝癌患者肝脏肿瘤DNA及cfDNA中的差异半甲基化区域(DHMRs)进行了探究。

结果显示,绝大多数DHMRs与同一样本中的差异甲基化区域(DMRs)并不重叠,表明DHMRs能作为独立的生物标志物。此外,结合DMRs和DHMRs的机器学习模型在肿瘤检测方面性能更优异

文章发表在Nature Communications

开发ssg-MeDIP-Seq方法

MeDIP-seq是一种用于分析DNA甲基化(5-mC)的技术,但几乎所有已发表的MeDIP-Seq程序都依赖于将基因组DNA超声处理成小片段。为此,研究团队检测了在免疫沉淀前使用Tn5转座酶能否用于基因组DNA片段化,并开发了基于pA-Tn5的MeDIP-Seq方法ssg-MeDIP-Seq,以链特异性方式分析DNA甲基化模式,检测SM和HM

研究团队利用ssg-MeDIP-Seq分析了16个组织样本的DNA甲基化,包括8个肝肿瘤样本和8个邻近非肿瘤组织样本(图1),显示该方法可有效检测DNA甲基化。此外,通过比较肝肿瘤与邻近非肿瘤组织的甲基化组,研究鉴定了11,930个高甲基化和12,974个低甲基化DMRs;经分析,这些DMRs与使用TCGA肝癌数据集鉴定的高、低甲基化DMRs显著重叠。上述结果表明,ssg-MeDIP-seq程序可用于分析基因组DNA甲基化组

图1.ssg-MeDIP-Seq以链特异性方式分析基因组DNA的甲基化组。


肝肿瘤DNA、DHMR和DMR可能是独立的生物标志物

通过ssg-MeDIP-Seq方法,研究团队对肝癌样本进行DNA HM分析(图2)。在8个肝肿瘤样本及其相应的邻近正常组织中,分别鉴定了192,106和228,575个HMRs;并鉴定出6,864个DHMRs,包括2,330个HM增加的区域和4,534个HM减少的区域,其中大部分DHMRs与DMRs不重叠,表明DHMRs可能代表独立的生物标志物。有趣的是,与这些肝肿瘤HMRs和HM增加的DHMRs最接近(20kb范围内)的基因都富集在与细胞代谢有关的途径中

研究团队分析了来自8个肝肿瘤样本的24,904个DMR和6,864个DHMR中双链的甲基化密度。结果显示,DHMRs是由一条链的DNA甲基化变化引起的,DMRs是由两条链的DNA甲基化的变化引起的,这表明肝肿瘤DHMRs和DMRs可能是独立的生物标志物。

图2.通过ssg-MeDIP-Seq分析肝癌样本的DNA半甲基化


开发sscf-MeDIP-Seq方法

已知血浆cfDNA由双链DNA(dsDNA)和单链DNA(ssDNA)混合组成,研究团队基于ssDNA文库制备经验,开发了sscf-MeDIP-Seq方法,用于分析cfDNA甲基化组,包括dsDNA、ssDNA和受损DNA。重要的是,sscf-MeDIP-Seq可同时分析SM和HM区域。

研究团队利用sscf-MeDIP-Seq对10名肝肿瘤患者和10名健康对照组的cfDNA样本进行分析(图3),共鉴定出2,229个高甲基化和5,002个低甲基化cfDNA DMRs,其分别与经ssg-MeDIP-Seq鉴定的肝肿瘤DNA高和低甲基化DMR有明显重叠。此外,与ssg-MeDIP-seq类似,与无CGI的基因相比,有CGI的基因启动子区域的sscf-MeDIP-seq信号减少。上述结果表明,使用sscf-MeDIP-Seq方法鉴定的肝肿瘤患者血浆cfDNA DMRs能反映肝癌细胞中DNA甲基化的变化

研究团队还分析了8个未甲基化的DNA样本和10个肝肿瘤样本的cfDNA DHMRs,发现与肝肿瘤基因组DNA DMRs和DHMRs一致,肝肿瘤样本中的绝大多数血浆cfDNA DHMRs与相同样本的cfDNA DMRs没有重叠,表明cfDNA DHMRs也可作为肿瘤检测的独立生物标志物。

图3.用于分析cfDNA甲基化的sscf-MeDIP-Seq方法


利用DMRs+DHMR训练机器学习模型进行多癌种检测

为确定sscf-MeDIP-Seq程序能否用于肿瘤起源预测,研究团队分析了三组个体(肝癌、脑癌和对照组)血浆cfDNA样本甲基化组(图4),共生成271个sscf-MeDIP-Seq数据集;随机选择215个数据集和80个对照组作为训练队列,用于训练GLMnet、随机森林和深度神经网络(DNN)模型,56个数据集作为验证队列。结果显示,GLMnet模型性能最佳

接下来,研究团队使用DMRs、DHMRs或两者结合来训练GLMnet模型,发现与单独使用DMR或DHMR的模型相比,结合使用DMR和DHMR的模型预测更准确、预测精度更高;验证队列中,其对脑癌、肝癌和对照组的AUROC分别为0.983、0.990和0.978。基于DMR+ dhmr的模型识别脑癌、肝癌和对照样本的平均概率分别为0.72、0.75和0.76。上述结果表明,sscf-MeDIP-Seq提供了一种独特的方法来分析cfDNA DMRs和DHMRs,在肿瘤检测中具有潜在应用价值。

图4 使用DMRs和DHMRs以及机器学习模型进行多癌种检测


通过cfDNA甲基化组区分脑肿瘤亚型

研究团队探究了cfDNA甲基化组分析能否用于区分脑肿瘤的亚型(图5),将训练队列中77个脑肿瘤样本分为IDH突变组和IDH野生型(WT)组,使用DMRs或DHMRs作为输入来训练模型。结果显示,通过上述模型可准确识别IDH突变型和IDH野生型脑肿瘤亚型,其中基于 DMR+DHMR的模型性能最佳,对IDH突变型和IDH WT的AUROC分别为0.947和0.955这一结果表明,使用DMRs和DHMRs作为输入的模型可准确识别神经胶质瘤亚型。

图5.使用sscf-MeDIP-Seq数据集预测脑肿瘤亚型


cfDNA DMRs与肿瘤组织样本基因表达相关

为探索cfDNA DMRs与肿瘤样本中基因表达之间的潜在关系(图6),研究团队比较了训练队列中58个肝癌样本的cfDNA甲基化组与对照组和训练队列中脑肿瘤样本的cfDNA甲基化组,鉴定出10,051个肝癌特异性cfDNA DMRs,对其20Kb内1,689个基因进行注释,在TCGA数据库分析这些基因的表达及患者生存的关系。结果显示,有150个基因的表达与肝癌患者生存率相关,其中62个基因与高甲基化cfDNA DMRs相关,88个与低甲基化cfDNA DMRs相关

接下来,依据上述150个基因的表达,研究团队对371例TCGA肝癌患者样本进行无监督聚类分析。结果显示,371例样本可以分为两个聚类(聚类1、2),两组患者生存期有显著差异,中位生存期分别为80个月和30个月。与聚类1相比,聚类2肝癌样本中靠近低甲基化cfDNA DMRs的基因表达量较高。

研究团队将同样方法应用于156个TCGA原发性脑肿瘤样本,发现37个基因表达与患者生存率相关;依据这些基因表达也可将样本分离成两个不同的聚类,IDH突变患者在生存率较高的聚类中富集。上述结果显示,cfDNA DMR可能与肿瘤发生相关基因表达变化有关。

图6.基于TCGA肝脏肿瘤组织中具有肝脏肿瘤特异性cfDNA DMR邻近的基因表达对肝癌样本进行分类及患者生存预测

该研究揭示了DHMRs与同源样本中的DMRs之间存在显著的非重叠性,且DHMRs可作为独立生物标志物,为癌症的早期检测与分类提供了一种新视角。同时,研究团队创新性地开发了sscf-MeDIP-Seq技术,能够同步解析cfDNA中的对称甲基化及半甲基化状态;当机器学习模型综合运用DMRs与DHMRs信息时,能够有效提升多癌种检测的精确度。

论文原文:

Hua X, Zhou H, Wu HC, et al. Tumor detection by analysis of both symmetric- and hemi-methylation of plasma cell-free DNA. Nat Commun. 2024;15(1):6113. Published 2024 . doi:10.1038/s41467-024-50471-1

·END·

热文推荐

太空组学和医学图谱SOMA

李昊等开发人工智能计算方法CGMega解析癌症基因模块

基于长读长测序高分辨率解析完整端粒序列

张勇/阮珏团队合作开发低DNA用量、无扩增的PacBio建库技术LILAP

快点亮"在看”吧

继续滑动看下一个
测序中国
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存