机器学习能加速空间站对接，更能加速科研

Asa 生信人 2022-06-21

昨天神舟十二号顺利发射并完成了与空间站的全自动化对接。

在感慨航天精神的同时，对其中的各种黑科技也深感震惊。

比如：

此前，神舟八号至神舟十一号与天宫一号目标飞行器、天宫二号空间实验室的交会对接，均采用传统交会对接模式，飞船从入轨到具备交会对接条件，需历时约2天，过程中需要大量人工参与。

例如，神舟十一号飞船在远距离段需要人工辅助操作，把飞船引导到距天宫二号一定的位置，然后，才能由飞船自主完成近距离交会对接。而这次实现了全自动化！交会对接全程无需人工干预，超级智能。

因此生信人推出本期人工智能在生信中应用的专题，希望大家在生信科研中也能用到机器学习，加速科研。

小伙伴们大家好，今天又来跟大家分享一篇关于识别癌基因算法的高质量文章，于2021年4月发表在Nature Machine Intelligence（2019年新刊暂无影响因子）。该文章整合多组学信息和蛋白质互作网络，利用机器学习方法来预测潜在的癌基因，是一篇很精彩的算法类文章，大家可以根据这篇文章来学习算法类文章的分析过程，还可以将这篇算法的框架思路借鉴到自己的分析中去。这里小编为大家整理了下这篇文章的分析脉络，话不多说，让我们来看这篇文章的主要内容。

Integration of multiomics data with graph convolutional networks to identify new cancer genes and their associated molecular mechanisms

整合多组学数据与图卷积神经网络来识别新的癌基因及其相关的分子机制

一、构建EMOGI算法

EMOGI算法以GCNs（图卷积神经网络）为基础，将多组学数据（包括基因的突变，拷贝数变异，甲基化和表达信息）作为节点特征，在蛋白互作网络中以半监督的方式进行训练，学习复杂的非线性结构，以识别癌基因和非癌基因（图1）。该算法输出是一个完全标记的图，其中包含每个基因为癌基因的概率。

图1. EMOGI算法流程图

二、算法性能评估

1. 与已有算法比较

作者接下来对该算法与已有的识别癌基因的算法进行比较（图2a）。这里采用的比较指标为预测癌基因时的AUC曲线线下面积。作者与4类算法进行了比较：仅用到组学数据的算法，仅用到网络信息的算法，结合组学数据和网络信息的算法和癌症特异的方法（如MuSigCV）。同时作者在不同的蛋白质互作网络层面进行比较（如STRING，CPDB等）（图2a）。结果发现在不同的互作网络，EMOGI相比于其他的算法均有着优越的性能。此外，当更换不同的真阳性集时（ONGene和OncoKB），算法的预测效能具有一致性（图2b）。

2. 算法输入特征分析

作者通过扰动实验来评估EMOGI相对于原始模型的性能（图2c）。扰动包括扰动特征，扰动网络边以及二者同时进行，扰动的节点从25%增加到50%、75%和100%，其中100%的情况对应于所有节点之间的随机连接。此外，作者还考虑一个节点度遵循幂律分布的随机网络。结果发现每次增加扰动程度均会显著降低算法预测效能，表明了组学数据和网络信息对于在保证模型准确性方面是必要的。

图2. EMOGI算法性能评估

3. 算法结果与先验知识比较

作者采用LRP（相关性逐层传播）来识别将每个基因识别为癌基因时贡献最大的组学特征，并在基因互作网络中寻找最重要的相互作用基因。作者通过比较算法结果与已有的文献结论来评估算法的性能。例如，作者分析了肿瘤抑制基因APC，文献表明该基因在结直肠癌中高频突变，并显示在肠道肿瘤细胞中激活Wnt信号转导通路。EMOGI正确地将结直肠组织的基因突变作为最相关的分类特征（图3a）。利用LRP筛选的相互作用基因对肿瘤发生机制提供了更多的见解。例如，作者发现肿瘤抑制基因RB1最重要的互作基因是转录因子E2F1和组蛋白去乙酰化酶HDAC1（图3b）。

图3. EMOGI算法能够解析癌基因的分子机制

三、算法应用

下一步，作者重点研究了在目前癌基因数据库中找不到的EMOGI最新预测的癌基因，并对它们进行了更深入的分析。

作者发现EMOGI得分（表示一个基因为癌基因的概率）与该基因与已知癌基因相互作用的数量之间存在显著相关性（图4a）。所有新预测的癌基因均与已知癌基因至少有1个互作，且二者的互作数量显著高于其他基因（图4b），同时发现著名的癌症基因如TP53, EP300, BRCA1和EGFR在新预测的癌基因的十大相互作用基因中。

为了从功能角度进一步表征新预测的癌基因，作者系统地将其与Achilles计划的数据进行比较，该计划是一项旨在识别必要基因的高通量筛选计划，主要包含在loss-of-function实验中，如CRISPR-Cas9或RNAi，能显著影响不同癌细胞系中细胞存活的基因。作者发现新预测的癌基因与必需基因显著富集（图4c）。作者还发现新预测的癌基因比已知癌基因平均影响更多的肿瘤细胞系（图4d）。

图4. 算法预测的新癌基因

作者使用双聚类算法，根据不同癌症类型的特征重要性LRP得分，对EMOGI的前1000个预测癌症基因进行了聚类。一些基因被聚在一起，对应于由一种或多种癌症类型的一组重要组学特征所标记的预测（图5a）。这些不同的基因簇具有不同的特征（图5b），如类6和类9以拷贝数变化为特征，包括已知经常被扩增的基因，如MYC或NRAS（类6）；周期蛋白依赖激酶和肿瘤起始基因EGFR和ERBB2（类9）。

图5. 癌基因聚类分析

互作基因形成得的癌症网络模块有助于进一步加强我们在细胞通路水平上对癌症起始和进展的理解。作者发现了一个包含149个基因的强连通组分（图6），该组分富集预测的癌症基因富集已知癌症通路，如细胞黏附、ECM受体相互作用、TGF-β、Wnt和ERBB信号通路等。

图6. 癌基因互作网络

本篇文章的内容就是这些，让我们来简要总结下该文章的思路。首先作者结合多组学信息和基因互作网络信息，借助图卷积神经网络来构建预测癌基因模型，接着对该模型进行了评估，最后分析了新预测的癌基因。该文章是个经典的算法文章，分析过程很值得学习，同时我们也可以将这个模型的框架应用到别的分析，如预测其他疾病基因，药靶等。看完这篇文章后希望大家能够有所收获，学会该文章思路。最后祝大家科研顺利！

有生信相关问题联系：18501230653

欢迎关注生信人

转录组| 甲基化 | 重测序 | 单细胞 | m6A|多组学

cytoscape | limma | WGCNA |水熊虫传奇|linux

电泳 | PCR | 测序简史 | 核型 | NIPT | 基础实验

基因| 2019-nCoV | 富集分析 | 联合分析 |微环境

瘟疫追凶| 思路汇总| 学者 | 科研 | 撤稿| 读博|工作