GNN 模型在生物化学和医疗健康中的典型应用

博文视点Broadview 2022-06-02

👆关注“博文视点Broadview”，获取更多书讯

计算生物化学和医疗健康的数据常常通过图来表示。

例如，分子和化合物可以自然地表示为以原子为节点、以键为边的图。蛋白质相互作用（Protein-ProteinInteractions，PPI）记录了两个或多个蛋白质之间的物理联系, 这种联系可以很自然地用图的形式表示。

此外，在制药行业中，药物相互作用（Drug-Drug Interactions，DDI）描述了在使用不同药物组合治疗复杂疾病时的不良结果，这种相互作用也可以用图来表示。

图神经网络模型具有强大的图表示学习能力，已被应用于许多生物化学和医疗健康应用中，包括药物开发与发现、药物相似性整合、复方药物副作用预测、药物推荐和疾病预测。

下面将讨论GNN 模型在生物化学和医疗健康中的一些典型应用。

图神经网络已经被用来推动药物开发和发现中的许多重要任务。

这些任务的实例包括：

1）分子表示学习，该任务可以用于辅助分子属性预测等下游任务，从而有助于将候选分子的搜索范围缩小到具有合适性质的分子上；
2）分子图生成，旨在生成具有某种期望性质的分子；
3）药物–靶标结合亲和力预测，即预测药物–靶标的相互作用强度，以便于新药开发和药物再利用；
4）蛋白质相互作用界面预测，其目的在于预测蛋白质相互作用界面，以便于理解分子相互作用界面，进而理解分子机制。

接下来介绍图神经网络在分子表示学习、药物–靶标结合亲和力预测以及蛋白质相互作用界面预测等方面的应用。

01分子表示学习

预测新型分子的性质对于材料设计和药物发现具有重要意义。

深度学习方法已经被用于预测分子性质。

通常来说，分子可以是任意大小和形状的，所以前馈网络和卷积神经网络等深度学习方法不能直接应用于分子数据。

预测过程通常包括两个阶段：特征提取，提取分子指纹，即编码分子结构信息的向量表示；性质预测，将提取的分子指纹作为输入，利用深度学习方法预测。

在传统方法中，可以使用一些现成的指纹软件提取分子指纹，而这样缺乏来自下游任务的指导。因此，提取出来的表示对于下游任务来说可能并不是最佳的。

文献[1]提出了一种端到端的预测框架，它采用图神经网络以一种可微的方式学习分子指纹。具体而言，一个分子可以表示为一个图，其中节点表示原子，边表示这些原子之间的键。因此，分子性质预测的任务可以看作图分类或图回归问题，这就需要学习图级表示。注意，在描述分子的背景下，这些表示称为分子指纹。应用于该任务的图神经网络模型由图滤波层和图池化层组成。具体而言，文献[1]采用了全局池化方法。

本文首先介绍其图滤波层，再介绍获取分子指纹的全局池化层。对于节点，第层中的图滤波操作可表述为：

(1)

式中，表示一个依赖于节点邻居数量的变换矩阵。因此，每一层中变换矩阵的数量由邻域大小的数目决定。在有机分子中，一个原子最多可以有5个邻居，因此，每一层有5 种不同的转换矩阵。分子的分子指纹可以通过如下的全局池化操作得到：

(2)

式中，表示图滤波层的层数；表示被用来变换第层中学习到节点的表示。

式(2) 中的全局池化操作聚合了来自所有图滤波层学到的节点表示。获得的分子指纹可用于诸如性质预测的下游任务。式(1) 中的图滤波过程和式(2)中的图池化过程会受给定的下游任务影响，如分子性质预测。

事实上，除了上面介绍的方法，任何为学习图级表示而设计的图神经网络都可以用来学习分子表示。如《图深度学习》一书中的第5 章介绍的，可以用图滤波层和图池化层组成一个图神经网络模型。特别地，5.3.2节介绍的MPNN-Filter 的通用框架的应用场景即为提取分子表示。

02蛋白质相互作用界面预测

如图1 所示，蛋白质是具有生化功能的氨基酸链。如图2 所示，氨基酸是一种有机化合物，它含有氨基（–NH2）、羧基（–COOH）官能团和每个氨基酸特有的侧链（R 基）。

图1 蛋白质由一串氨基酸组成

图2 氨基酸的一个说明性示例

蛋白质为了实现它们的功能，需要与其他蛋白质相互作用。预测这些相互作用发生的界面是一个具有挑战性的任务，同时这也在药物发现和设计中有着重要的应用。蛋白质相互作用界面由相互作用的蛋白质中相互作用的氨基酸残基和附近的氨基酸残基组成。

具体来讲，文献[3]考虑来自不同蛋白质的两个氨基酸残基，如果其中一个氨基酸残基中的任何一个非氢原子在另一个氨基酸残基中任何一个非氢原子的6Å 内，则认为它们是界面的一部分。因此，蛋白质相互作用界面预测问题可以建模为以来自不同蛋白质的一对氨基酸残基作为输入的二分类问题。

在文献[2]中，蛋白质被建模为图。在图中，蛋白质中的氨基酸残基被视为节点，这些节点之间的关系被定义为边，然后使用图神经网络模型学习节点表示，并利用这些表示进行分类。

接下来介绍如何将蛋白质表示为图，并介绍蛋白质相互作用界面预测的方法。

将蛋白质表示为图

一个蛋白质可以表示为一个图。蛋白质中的每个氨基酸残基都被视为一个节点，利用氨基酸残基之间的空间关系建立它们之间的边。每个氨基酸残基节点与其个最相邻的氨基酸残基相连，残基是否相邻由它们原子间的平均距离决定。图中的每个节点和边都与一些特征相关联。具体而言，节点的特征用表示，而边的特征用表示。

蛋白质相互作用界面预测

给定一对氨基酸残基，一个来自配基蛋白，另一个来自受体蛋白，蛋白质相互作用界面预测的任务是判断这两个残基是否在蛋白质相互作用界面上。这可以被视为一个二分类问题，其中每个样本都是一对氨基酸残基，其中且。将图滤波操作应用于和，学习图上的节点表示，然后将和的节点表示合并，得到该氨基酸残基对的统一表示，最后将其输入全连接层进行分类。类似于GCN-Filter 的图滤波器可用于学习节点表示，对于其中的第层：

式中，和分别表示针对中心节点和邻居节点的可学习的矩阵；表示偏置项。此外，为了结合边的特征，提出了以下图滤波操作：

式中，表示边的特征；表示对应于边的可学习的变换矩阵。注意，在训练过程中，边的特征是固定不变的。

03药物-靶标结合亲和力预测

开发一种新药通常既耗时又昂贵。

在药物开发的早期阶段，药物–靶标相互作用（Drug-Target Interactions，DTI）的识别对于缩小候选药物的搜索范围至关重要。它还可用于药物再利用，旨在识别现有或废弃药物的新靶标。

药物–靶标结合亲和力预测任务是推断给定的药物对与靶标之间的结合强度，可以将其视为一项回归任务。在药物–靶标亲和力预测任务中，经常涉及的靶标主要有4 种，即蛋白质、疾病、基因和副作用。本节以蛋白质为例说明如何在这项任务中使用图神经网络模型。

一个药物–蛋白质对表示为，其中、分别表示药物和蛋白质。药物表示为以原子为节点、以化学键为边的分子图。蛋白质既可以表示为序列，也可以表示为图。

在文献[4]中，这些蛋白质被表示为氨基酸序列，本节用如图1 所示的氨基酸序列说明药物–靶标结合亲和力预测的框架。在该框架中，药物通过图神经网络模型学习图级药物表示，而蛋白质被送入序列模型中学习蛋白质表示。这两个表示通过拼接（串联）生成该药物–蛋白质对的组合表示，然后利用该组合表示预测药物–靶结合亲和力。

《图深度学习》一书的13.2.1 节介绍的用于分子表示学习的图神经网络模型也可用于学习药物表示，例如1-D CNN、LSTM 和GRU 的序列模型可以用来学习蛋白质表示。此外，如果将蛋白质建模为图，还可以使用图神经网络来代替图3 中的序列模型。

图3 药物–靶结合亲和力预测的一般框架

▼

参考文献：

[1] DUVENAUD D K, MACLAURIN D, IPARRAGUIRRE J, et al. Convolutional networks on graphs for learning molecular fingerprints[C]. Advances in neural information processing systems, 2015: 2224–2232.

[2] FOUT A, BYRD J, SHARIAT B, et al. Protein interface prediction using graph convolutional networks[C]. Advances in Neural Information Processing Systems, 2017:6530–6539.

[3] AFSAR MINHAS F U A, GEISS B J, BEN-HUR A. Pairpred: Partner-specific prediction of interacting residues from sequence and structure[J]. Proteins: Structure,Function, and Bioinformatics, 2014, 82(7): 1142–1155.

[4] NGUYEN T, LE H, VENKATESH S. GraphDTA: prediction of drug–target binding affinity using graph convolutional networks[J]. BioRxiv, 2019.

以上内容节选自《图深度学习》一书！

▊《图深度学习》

马耀，汤继良著

王怡琦，金卫译

揭秘图深度学习的研究和学习路线图
全面覆盖图深度学习的基础理论、模型方法、实际应用及前沿进展
获俞士纶等十余位人工智能国际专家赞誉！

本书全面介绍了图深度学习的理论基础、模型方法及实际应用，既适合对数据挖掘、机器学习和社交网络分析感兴趣的本科生和研究生阅读，也适合企业开发者和项目经理阅读。对于没有计算机科学背景，但想要应用图神经网络来推进其所在学科发展的研究人员，本书同样是一本值得参考的读物。

（京东限时活动，快快扫码抢购吧！）

《图深度学习（全彩）》配套视频教学已正式开讲！

四大板块：基础理论、模型方法、实际应用、前沿进展

每周直播：共9讲、每周在线直播授课+答疑（预计8月12日前完课）

限时优惠：博文视点读者福利仅需19.9元（扫描下方二维码可免费观看首讲，购买后本套视频可永久回看）

▼

扫描下方二维码，了解课程详情

如果喜欢本文

欢迎在看丨留言丨分享至朋友圈 三连

热文推荐

▼点击阅读原文，获取本书详情~

“占坑式辩护”，侵犯了谁？

bxrf的瓜

嗷嗷哭！三斤午夜痛哭，压力太大了！阿哲遭恶意举报，爆瓜内幕！

童锦程爆阿哲抖音年度！哦嫂猫猫抖音复出开播！北王示爱囧囧丸！

陈泽心疼阿哲，回应大舞台节奏！哲修辰杭州聚会！宇文泡1600万叫价青蛙哥！

GNN 模型在生物化学和医疗健康中的典型应用

预测新型分子的性质对于材料设计和药物发现具有重要意义。

深度学习方法已经被用于预测分子性质。

通常来说，分子可以是任意大小和形状的，所以前馈网络和卷积神经网络等深度学习方法不能直接应用于分子数据。

预测过程通常包括两个阶段：特征提取，提取分子指纹，即编码分子结构信息的向量表示；性质预测，将提取的分子指纹作为输入，利用深度学习方法预测。

在传统方法中，可以使用一些现成的指纹软件提取分子指纹，而这样缺乏来自下游任务的指导。因此，提取出来的表示对于下游任务来说可能并不是最佳的。

本文首先介绍其图滤波层，再介绍获取分子指纹的全局池化层。对于节点，第层中的图滤波操作可表述为：

如图1 所示，蛋白质是具有生化功能的氨基酸链。如图2 所示，氨基酸是一种有机化合物，它含有氨基（–NH2）、羧基（–COOH）官能团和每个氨基酸特有的侧链（R 基）。

开发一种新药通常既耗时又昂贵。

在药物开发的早期阶段，药物–靶标相互作用（Drug-Target Interactions，DTI）的识别对于缩小候选药物的搜索范围至关重要。它还可用于药物再利用，旨在识别现有或废弃药物的新靶标。

您可能也对以下帖子感兴趣

“占坑式辩护”，侵犯了谁？

bxrf的瓜

嗷嗷哭！三斤午夜痛哭，压力太大了！阿哲遭恶意举报，爆瓜内幕！

童锦程爆阿哲抖音年度！哦嫂猫猫抖音复出开播！北王示爱囧囧丸！

陈泽心疼阿哲，回应大舞台节奏！哲修辰杭州聚会！宇文泡1600万叫价青蛙哥！

生成图片，分享到微信朋友圈

GNN 模型在生物化学和医疗健康中的典型应用

预测新型分子的性质对于材料设计和药物发现具有重要意义。

深度学习方法已经被用于预测分子性质。

通常来说，分子可以是任意大小和形状的，所以前馈网络和卷积神经网络等深度学习方法不能直接应用于分子数据。

预测过程通常包括两个阶段：特征提取，提取分子指纹，即编码分子结构信息的向量表示；性质预测，将提取的分子指纹作为输入，利用深度学习方法预测。

在传统方法中，可以使用一些现成的指纹软件提取分子指纹，而这样缺乏来自下游任务的指导。因此，提取出来的表示对于下游任务来说可能并不是最佳的。

本文首先介绍其图滤波层，再介绍获取分子指纹的全局池化层。对于节点 ，第 层中的图滤波操作可表述为：

如图1 所示，蛋白质是具有生化功能的氨基酸链。如图2 所示，氨基酸是一种有机化合物，它含有氨基（–NH2）、羧基（–COOH）官能团和每个氨基酸特有的侧链（R 基）。

开发一种新药通常既耗时又昂贵。

在药物开发的早期阶段，药物–靶标相互作用（Drug-Target Interactions，DTI）的识别对于缩小候选药物的搜索范围至关重要。它还可用于药物再利用，旨在识别现有或废弃药物的新靶标。

您可能也对以下帖子感兴趣

本文首先介绍其图滤波层，再介绍获取分子指纹的全局池化层。对于节点，第层中的图滤波操作可表述为：