其他
多组学分析为癌症治疗助力
杂志期刊:IEEE/ACM Trans Comput Biol Bioinform
发表时间:2019.10.4
影响因子:2.896
背景介绍癌症可根据其明显不同的临床特征划分为不同亚型,将癌症进行细分对癌症诊断及治疗具有极其重要的意义。传统预测方法基于肿瘤的形态学特征,这一方法有诸多的局限性,例如:有些肿瘤块具有相似的组织病理学特征,但是其临床表现却具有极大差异
癌症亚型预测分为两步:鉴别和归类。传统预测手段利用监督式学习手段,这就需要对数据进行标记,而数据标记费时费力而且会存在小样本量问题。由于癌组织样本具有高度异质性和极度复杂性的特征,不同技术手段和数据类型会得到不同的结果。高通量测序能提供大量数据,对分析癌组织基因表达模式的分析及在分子水平预测癌症亚型,加深相关问题的理解等方面大有裨益。然而,由于癌组织基因复杂、相互关联、多分子调控等问题的存在,癌组织基因与表型之间关联性研究还存在较大困难。DNA结构及拷贝数的改变、DNA甲基化及组蛋白修饰、miRNA参与调控导致转录、翻译、翻译后修饰等调控水平上都具有极大的可变性。整合多组学数据对复杂癌组织进行判别是一种新兴的发展趋势。肿瘤基因组计划(The Cancer Genome Atlas, TCGA)搜集了大量高质量的多组学数据助力于癌症研究,如何有效利用这些数据进行癌组织亚型鉴定仍是待解决的问题。 Similarity Network Fusion (SNF)能整合多组学数据进行分析,以加强对肿瘤发生相关问题的理解。但是SNF引入欧氏距离评估不同病人之间的相似性使得这种方式存在一些局限性。本文作者在此基础上提出 Deep Subspace Fusion Clustering (DSFC)技术,DSFC利用自动编码器和数据自表达手段指导深度子空间模型建立,使得相似病人也能根据其不同得到有效分离,计算得到的不同簇的簇间能够得到有效区分而簇内能够有效聚合。作者利用mRNA表达数据、DNA甲基化数据、miRNA表达数据等组学数据对计算方法进行检测,结果显示DSFC对六种不同癌症类型都具有良好的鉴别效果。
DSFC分析流程DSFC分析过程主要包含三部分,上一步的输出结果作为下一步的输入数据:
1.每个组学数据建立一个具有编码、自表达、解码层的深度子空间学习网络。经过训练,输出每个组学数据的自表达矩阵。2.运用SNF方法将矩阵整合为一个统一的相似矩阵。3.在统一的相似性矩阵上进行谱系聚类,以发现患者组隐含不同癌症亚型。
相关分析方式Bayesian network-based algorithm
Kernel-based statistical learning algorithmGraph-based algorithmWeighted similarity network fusion algorithmRegularized multi-view subspace clustering methodSimilarity Network Fusion ( SNF)Deep Subspace Fusion Clustering (DSFC)Hierarchical Similarity Network Fusion (HSNF)Consensus Cluster (CC)
几种分析方式的实验检验1. 数据库:TCGA
1.1 数据集:lioblastoma multiforme (GBM), breast invasive carcinoma (BIC), kidney renal clear cell carcinoma (KRCCC),lung squamous cell carcinoma (LSCC),colon adenocarcinoma (COAD) ,ovarian (OV)1.2 组学数据:mRNA表达数据、DNA甲基化数据、miRNA表达数据
2.1 不同计算方法聚类p值展示DSFC作为SNF的增强版,为了对两种方式进行直接比较,作者采用了SNF的指导聚类数量,GBM:3,BIC:5,KRCCC:3,LSCC:4,COAD:4,OV:4。
2.2 病人存活时间预测曲线
总结癌症亚型预测是个性化医学治疗体系中的重要一环,精确的预测技术能够为选择合适的治疗方案提供重要参考信息。从基因组到蛋白组,利用多组学数据对癌症进行预测,能够从更多的数据中得到更加精确的结果,能够更好地理解癌症的发生、发展过程。本文作者通过对SNF算法进行改进提出DSFC技术,整合多组学数据更好的区分不同癌症患者,尤其是在短存活时间病人数据聚类、辨别上,能够为医学研究及治疗提供重要参考信息。
新发现:miRNA成熟体的甲基化修饰可作为癌症诊断的生物标志物?| miRNA甲基化助力胰腺癌早期筛查
单细胞转录组测序分析揭示了肝癌干细胞的异质性 | 单细胞转录组专题