Drug Discov Today | 分子表示与性质预测中的深度学习方法
2022年9月24日,青岛大学计算机科学技术学院李臻教授团队在Drug Discovery Today上发表文章“Deep learning methods for molecular representation and property prediction”。在论文中,作者回顾并总结了现有的分子表示与性质预测的深度学习方法,并讨论了深度学习方法在分子表示和性质预测方面的挑战和机遇。
1 摘要
2 介绍
分子性质是许多领域的重要因素,包括化学、药物发现和医疗保健,且与量子力学、物理化学、生物物理、生理学等相关。计算机辅助方法能够快速预测分子性质,在具体实验开始前提供感兴趣分子的总体情况。这些方法被称为定量结构-活性关系(quantitative structure-activity relationship, QSAR)或定量结构-性质关系(quantitative structure-property relationship, QSPR)模型。此外,随着机器学习方法的发展,分子性质预测的准确性和速度也得到了提高,加速了其他相关应用,如药物-靶点亲和力预测和分子合成预测。特别是,作为机器学习的一个重要分支,深度学习方法受到了极大的关注。这种方法可以更精确地发现分子的结构与性质之间的关系。
图1 药物甲磺酸伊马替尼(imatinib mesylate,化学式:C30H35N7O4S)的1D、2D和3D表示。(a) 对于1D表示,图中展示了多种表示形式,包括SMILES、extended connectivity fingerprint (ECFP)、molecular access system (MACCS) fingerprint,和一些数学表示方法。(b) 对于2D表示,分子图可以被表示为两个矩阵,即邻接矩阵和特征矩阵。右边的分子图像(由RDKit生成)是另一种2D表示形式。(c) 图中展示了两种3D表示方法:一个3D分子图和一个3D分子网格表示(由PyMOL生成)。
3 深度学习方法
根据表示分子的形式不同,作者将深度学习分为8类:
基于序列的方法
基于图(graph)的方法 基于图像(image)的方法 基于3D图(3D graph)的方法 基于3D网格(3D grid)的方法 基于混合数据的方法和集成学习 迁移学习、多任务学习和元学习 分子性质预测中可解释的深度学习方法
3.1 基于序列的方法
SMILES是描述分子最直接、最简单的方法。它类似于自然语言,其中每个原子都是句子中的一个词。鉴于自然语言处理(natural language processing, NLP)领域的快速发展,NLP方法可以应用于SMILES序列的嵌入。作者接着总结了研究者开发的多种基于序列的方法,包括:数据增广方法、卷积神经网络方法、循环神经网络方法、子结构学习方法和基于序列的自监督学习方法等。图2也展示了基于SMILES的两种类型的自监督学习方法。
图2 基于SMILES的不同类型的自监督学习(self-supervised learning)方法。(a) 基于transformer(BERT)的双向编码表示。SMILES序列被用作输入,并随机mask一些原子。然后训练语言模型来预测这些被mask的字符,进行表示学习。(b) 基于翻译模型的方法。该模型将输入的SMILES序列变换为另一种类型的序列。编码器编码的隐特征被用作分子表示。
3.2 基于图的方法
图是一种更直接的结构,可以存储和表示大多数结构信息。在图模型中,原子被表示为节点,化学键被表示为边,每个节点都有自己的特征。在图数据的帮助下,分子内的结构信息可使用GCNs提取。GCNs能够捕获有关连接节点之间关系的信息。一般来说,GCN有两种类型:空域卷积和频谱卷积。前者通过在空域中使用特定的消息传递规则收集相邻节点的信息来更新每个节点的特征。后者通过对拉普拉斯矩阵进行特征值分解,将图数据转换为谱域提取特征。接着,作者回顾了领域内的相关方法,包括谱域GCN模型、空域GCN模型、基于树的方法和基于图的自监督学习方法等。图3展示了基于图的三种不同类型的自监督学习方法。
图3 使用图的不同类型的自监督学习方法。(a) 对比自监督L:使用数据增强方法,如对正样本对的节点drop、边drop和子图替换,而对负样本对随机选择其他增强图。(b) 生成自监督:通过编码器-解码器模型重构输入,以获取用于表示的隐特征。(c) 预测自监督:随机mask一些节点或边,让模型预测结果;通过这样做,该模型能够学习到隐特征并生成有效的分子表示。
3.3 基于图像的方法
深度学习方法在图像处理领域取得了巨大成功,这也为QSAR/QSPR的研究奠定了基础。更具体地说,分子可以转换成图像,因此传统的深度学习模型可以用于QSAR/QSPR任务,其中CNN是最广泛用于分子特征提取的。
3.4 基于3D图的方法
分子的构象通常包含分子的原子3D坐标,也称为几何数据,可以为分子性质预测提供额外的空间信息。首先要解决的问题是三维分子晶体数据集有限。为了扩大基于几何的方法的应用领域,可以基于二维数据生成构象。RDKit中的MMFF94可用于构象生成。此外,哈密顿神经网络也可以用来预测分子构象,并将预测的三维坐标输入到基于MPNN的分子指纹生成器中用于分子表示。
3.5 基于3D网格的方法
3D网格是另一种使用分子几何数据的表示方法,它将每个原子放置在一个或多个网格中。事实上,蛋白质等大分子可以用3D网格更好地表示,在MPP中仍然表现出良好的性能,特别是在某些量子力学特性方面。3D CNN是3D网格数据的最佳选择;因此,为3D CNN创建一个功能更强大、信息更丰富的网格可以提高分子性质预测的性能。
3.6 基于混合数据的方法和集成学习
上前文所述的1D、2D和3D表示方法以不同的方式呈现分子,将它们结合起来可以提供分子的多视图。作者回顾了结合多种表示方式的方法,并且总结了集成多个模型的集成学习方法。
3.7 迁移学习,多任务学习和元学习
实验数据集的不足是MPP中的另一个问题。作者建议使用迁移学习、多任务学习和元学习来克服这个问题。对于迁移学习学习,模型首先针对某些辅助任务在大数据集上进行训练,从而学习分子的一般表示。然后将所学到的一般表示法用于下游任务(通常具有有限的样本),以传递先验知识。多任务学习可以同时训练所有任务并共享表示,以提高预测的泛化能力。近年来,出现了元学习方法来解决少样本问题,也称为“学习如何学习”。在训练过程中,元学习将训练数据集划分为不同的元任务,学习初始化良好的模型参数,具有很强的泛化能力。通过对新任务进行少量梯度下降来更新模型,以提高模型的性能。
3.8 分子性质预测中可解释的深度学习方法
4 分子性质预测的挑战和未来的工作
3D数据上的自监督学习方法
使用经验的图卷积方法
1D、2D和3D数据融合和选择方法
元学习
分子性质预测中深度学习模型的可解释性
5 总结
参考资料
Zhen Li, Mingjian Jiang, Shuang Wang, Shugang Zhang, Deep learning methods for molecular representation and property prediction, Drug Discovery Today, 2022, 103373, ISSN 1359-6446, https://doi.org/10.1016/j.drudis.2022.103373.
--------- End ---------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或
姓名-学校-职务/研究方向。
- 历史文章推荐 -
【AI药物设计】
●Front Pharmacol|基于图片段分子表示和深度进化学习的多目标药物设计
●Drug Discov Today | 利用系统的蛋白质-配体相互作用指纹图谱进行药物发现
●Int J Mol Sci|CSatDTA:带自注意力机制的卷积模型预测药物-靶标亲和力
●J Med Chem|静电互补在基于结构的药物设计中的应用
●Nat Mach Intel|一种用于分子相互作用和分子性质预测的自动图学习方法
●Wires Comput Mol Sci|分子发现的生成模型:最新进展和挑战
●Drug Discov Today|辉瑞:如何成功的设计小分子药物
●CAS博客|首批进入临床试验的AI设计的候选药物:结构新颖性评估
●Drug Discov Today|人工智能增强的药物设计和开发:迈向计算型精准医学
●Drug Discov Today|用于从头药物设计的图神经网络GNN
●Nat Commun|AI结合基因表达特征,从头生成类苗头化合物