使用一些机器学习的指标把HCC病人分成2类逆向收费读文献2019-21)
系列目录
本次要分享的文章发表于 March 2018,题目是:Deep Learning–Based Multi-Omics Integration Robustly Predicts Survival in Liver Cancer
癌症具有普遍的异质性,HCC也不例外,不同的组学数据不同计算方法可以把HCC稳定的聚为2~6类,有一个研究整合了256个HCC病人的mRNA, DNA methylation and miRNA 数据后聚集为5类。
3种数据的整合流程
作者使用的就是TCGA HCC cohort (360个病人), 这里选取了3种数据,mRNA, DNA methylation and miRNA 首先走deep Learning流程 (就是简单的keras)
值得一提的是,这里的methylation数据,是把基因的TSS前面1.5kb的探针取平均值后算作是基因的甲基化水平。
本文的deep Learning流程输入数据的 15,629 genes from RNA-seq, 365 miRNAs from miRNAseq, and 19,883 genes from DNA methylation data
走完deep Learning流程,最后可以得到 two survival risk subtypes
示意图如下:
很清晰的分成2类
S1: aggressive (higher-risk survival) subtype; S2: moderate (lower-risk survival) subtype.
差异分析可以拿到每一类自己特异性基因集,可以进行GO/KEGG数据库的功能注释,以及PPI网络图。
实际上,癌症异质性那么多,使用一些机器学习的指标把病人分成2类有什么用呢?
支持向量机的表现
首先看训练集合测试集的表现
再看看作者挑选的另外5个数据集的表现:
生存分析
发现作者使用深度学习算法得到的分类,在其它公共数据库也可以非常显著的区分生存的好坏。
同样的分析策略很容易应用到其它癌症
比如发表于 Front Genet. 2018; Deep Learning-Based Multi-Omics Data Integration Reveals Two Prognostic Subtypes in High-Risk Neuroblastoma
总结一下:一顿操作猛如虎,虚有其表,花里胡哨~
1
10.12-10.14
2
10.26-10.28
课程内容 | |
1 | 生信R语言入门 |
2 | GEO数据库挖掘 |
5 | 生信-Linux基础 |
转录组课题设计与流程分析 |