DNA甲基化在调控基因表达、维持基因组稳定性方面发挥着重要作用。异常的DNA甲基化模式,如全局低甲基化和基因特异性高甲基化,是癌症的标志之一。除环境因素外,DNA甲基化也受遗传因素影响。因此,解析组织特异性遗传预测的DNA甲基化有望揭示复杂性状(包括癌症易感性)的遗传易感性。此前,美国弗吉尼亚大学综合癌症中心研究团队已在血液中发现了1343个CpGs,其基因预测DNA甲基化水平与癌症风险相关,但组织DNA甲基化数据的缺乏阻碍了对其在癌症相关组织中的评估。近期,在Nature Communications发表的一项新研究中,该研究团队确定了与癌症风险相关的组织特异性DNA甲基化生物标志物。研究团队开发了可预测七种组织类型基因组中CpG位点DNA甲基化的统计模型,并将该模型应用于癌症GWAS数据,推断遗传预测的CpG甲基化与乳腺癌、结直肠癌、肾细胞癌、肺癌、卵巢癌、前列腺癌和睾丸生殖细胞癌风险之间的关联。对于识别的癌症风险相关CpG位点,研究团队通过整合DNA甲基化组学、转录组学、基因组学和癌症GWAS数据进一步探索其是否通过调控邻近基因的表达影响癌症风险。经过处理的DNA甲基化数据,包括来自GTEx联盟的987个无癌供体样本中的754,054个CpG位点的BMIQ标准化β值。经过筛选,研究保留了来自367名受试者的856个样本(主要为欧洲裔和非洲裔),包括49个乳腺、189个结肠、47个肾脏、190个肺、140个卵巢、105个前列腺、47个睾丸、47个全血和42个肌肉组织样本。图1.研究总体工作流程和数据资源。
对于特定组织内的每个CpG位点,研究团队使用两种方法开发了预测模型,保留了预测性能最好的模型。分析发现,跨组织模型的预测性能显著高于单组织模型。在研究的754,054个CpG中,478,360个(63.4%)的模型具有可靠的预测性能。值得注意的是,这些模型中46.8%是高度组织特异性的,只有3.2%在所有组织中普遍存在。最终,研究团队分别建立了101497个乳腺模型、197947个结肠模型、125745个肾脏模型、195764个肺模型、187911个卵巢模型、152341个前列腺模型和118568个睾丸组织模型。随后,研究团队评估了与使用单个最佳顺式mQTL相比,利用多个顺式变异的预测策略能否提高预测性能。对于通过该研究方法建立可靠模型的每个CpG,研究团队尝试利用与预测方法相同的数据构建仅基于最佳顺式mQTL的模型。在7种组织中,单个最佳顺式mQTL方法仅能为33.1%的CpG建立可靠模型。此外,对于通过该研究方法和单一最佳顺式mQTL方法均建立模型的CpG,该研究方法的预测精度始终高于后者。
对于7种组织类型,将预测模型应用于相应癌症的GWAS数据,以鉴定具有遗传预测DNA甲基化水平与癌症风险显著相关的CpGs。研究团队在7种组织中识别出了4248个与至少一种癌症风险显著相关的CpG位点(图2),其中4052个(95.4%)特定于某种癌症类型。通过共定位分析,在4461个CpG-癌症对中,1454对(32.6%)和866对(19.4%)表现出中等至高的共定位概率。在这4461个CpG-癌症对中,4210对CpG分布在先前GWAS分析鉴定的801个(56.5%)癌症易感位点中的453个,其余的251对CpG分布在73个位点上,距离GWAS鉴定的任何癌症风险变异至少1Mb(图2)。总之,研究团队在56.5%的已知GWAS基因位点中发现了大量DNA甲基化可能介导癌症风险遗传效应的CpGs,揭示了55个假定的新基因位点,并在52个已知GWAS基因位点中检测到独立于GWAS识别的风险变异的关联信号。值得注意的是,对于研究发现的453个已知含有癌症相关CpGs位点中的31.6%,TWAS无法发现任何显著的关联。与TWAS相比,该研究方法在检测GWAS识别位点内关联信号方面具有更高有效性。<滑动查看>
图2.曼哈顿图显示CpG基因预测的DNA甲基化与癌症风险之间的关联。为了进一步理解上述显著CpG位点在癌症风险中的作用机制,研究团队进行了多组学整合分析。研究团队将CpG位点与GTEx数据中的基因表达和DNA甲基化数据进行整合,评估它们是否通过调控邻近基因的表达来影响癌症风险。多组学系统分析显示,在4248个显著CpG位点中,有854个(20.1%)CpG-基因-癌症三联体,在每个三联体中,CpG-癌症、CpG-基因和基因-癌症的关系呈现一致的方向。这些三联体涉及309个独特的CpGs,其DNA甲基化通过调控205个不同的顺式基因的表达来影响7种癌症的风险。这些CpG-基因-癌症三联体的发现,为理解DNA甲基化在癌症病因学中的作用提供了新见解。此外,研究团队还评估了这些显著CpG位点是否与已知癌症相关基因的表达调控相关。结果显示,在4248个显著CpG位点中,有265个(6.2%)位点位于已知癌症相关基因的启动子区域,且这些位点中的大部分(85.3%)与相应基因的表达显著相关。这进一步支持了这些CpG位点在癌症风险中的潜在调控作用。图3.CpG-基因-癌症三联体分析表明DNA甲基化通过调节顺式基因表达来影响癌症风险。
综上所述,研究团队开发了用于预测7种组织中CpG位点DNA甲基化的遗传模型,结合相应癌症的全基因组关联研究(GWAS)数据,识别了4248个与癌症风险显著相关的CpG位点,其中大部分与特定的某一种癌症类型有关。此外,该研究还发现了一些新的候选基因位点,并通过多组学整合分析,揭示了DNA甲基化在癌症风险中的潜在调控作用。该研究果强调了多组学整合在癌症生物标志物发现中的有效性,并增强了对遗传学和表观遗传学在癌症病因学中关键作用的理解。未来的研究可进一步探索上述显著CpG位点的功能和机制,为癌症的早期诊断、预防和治疗提供新思路。论文原文:
Yang, Y., Chen, Y., Xu, S.et al. Integrating muti-omics data to identify tissue-specific DNA methylation biomarkers for cancer risk. Nat Commun 15, 6071 (2024). https://doi.org/10.1038/s41467-024-50404-y
·END·
快点亮"在看”吧