查看原文
其他

唐建 | 基于图表示学习的新药发现

智药邦 2022-06-15

The following article is from 清华大学智能产业研究院 Author AIR

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍4月29日上午,清华大学智能产业研究院(AIR)成功举办以“AI赋能基因分析与新药发现”为主题的学术工作坊。邀请到彭健、唐建、晋向前、曾坚阳、马剑竹五位海内外知名学者及产业界人士参加,就AI在医药、基因、医疗等方向展开探索交流。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

唐建:基于图表示学习的新药发现 

讲者介绍

唐建,魁北克人工智能研究所Mila(Mila-Quebec AI Institute)和蒙特利尔计算机学院(DIRO Montreal)、高等商学院(HEC Montreal)(即蒙特利尔大学(University of Montreal)附属商学院)助理教授,加拿大高等研究院人工智能(Canada CIFAR AI Research)讲席教授,主要研究方向为图表征学习、图神经网络、深度生成模型、知识图谱和新药发现。唐建于2014年在北京大学信息科学技术学院取得博士学位,2014至2016年间担任微软亚洲研究院(Microsoft Research Asia)副研究员,曾任密歇根大学(University of Michigan)和卡内基梅隆大学(Carnegie Mellon University)博士后研究员。博士期间,唐建曾获机器学习领域三大顶级会议之一ICML2014最佳论文奖,2016年,唐建入选数据挖掘领域顶级会议国际万维网会议WWW最佳论文奖。2020年,唐建获亚马逊和腾讯教师奖。唐建是图表示学习领域的代表性学者,研究成果包括如LINE、LargeVis、RotatE等。其关于节点表征学习的论文LINE广受认可,是2015至2019年间国际万维网会议WWW上引用次数最多的论文。唐建还是ICML和NeurIPS的领域主席。



报告内容


人工智能大时代背景下,海量的生物化学数据为机器学习赋能新药研发创造了很大的机遇,我们应当如何抓住它?又如何从庞大的数据中发掘出可以为我们所用的知识呢?或许图表示学习可以给你思路和启发。


药物研发是一个耗资巨大且非常漫长的过程,从临床前的药物发现,到临床药物的开发应用,再到最终获批上市,往往要经历数十年时间,斥资数十亿美元。且药物研发的损耗率很高,平均每25个发现的药物中,只有1种药物能够获得最终的上市批准。如何从机器学习的角度进行新药发现研究,提升药物发现效率,并降低发现过程的费用,是药物研发领域的研究焦点和热点。

生物医学领域产生的海量数据,为人工智能在药物研发领域创造了巨大的机遇。通过人工智能技术分析生物实验、化学实验以及相关科学文献等数据,可以极大地加速药物发现的过程并提高药物发现的成功率。在药物发现领域比较重要的数据都是具有图结构的数据,如小分子结构,蛋白质结构和医疗知识图谱等。同时,图机器学习方法,由于其具有建模分子生物结构以及整合多组数据集的能力,而受到制药和生物技术行业的广泛关注。其中,图表示学习在药物发现领域显得尤为重要。


(a) 小分子结构及其图表示



(b) 蛋白质结构及其图表示


(c) 医疗知识图谱


从机器学习角度看待药物研发问题,可以将其分为两个重要的应用方面:一是全新药物设计,是对于已有药物的再利用


 一、全新药物设计主要可以分为以下三个领域:(1)小分子性质预测,主要预测分子化学以及生物上的性质,能否与给定蛋白质发生绑定、分子吸收分布代谢、毒性等;(2)药物分子结构的从头设计及优化,使得该分子结构具有可以满足特定性质的要求;(3)逆合成规划及预测,预测反应物的集合,合成前面要得到的药物分子。


第一个领域为:分子特性预测任务。分子特性预测任务,训练标记数据的数量是非常有限的,更多可用数据是无标记数据(分子)。而如何利用这些没有标签的数据,有效地进行无监督或半监督的图表示学习,成为该任务的挑战。


针对这一问题,唐建教授团队提出了适用于无监督学习的InfoGraph方法和半监督学习的InfoGraph*。InfoGraph通过最大化整图表示和所有子结构表示之间的互信息,确保图表示可以捕获所有子结构中的主要信息。下图为InfoGraph的结构示意图,其中N.A.为邻域聚合,输入图通过图卷积和跳级联编码成特征图,使用鉴别器鉴别其输入(由全局表示和局部表示组成的输入对)是否来自同一个图。


InfoGraph*通过设计两个具有相同体系结构的独立编码器进行训练,两种编码器分别用于监督任务和无监督任务。通过最大化两个编码器在所有层学习的表示的互信息,来判断两个信息是否来自同一输入图。下图为半监督版本InfoGraph*的结构示意图。有两个具有相同结构的独立编码器,一个用于监督任务,另一个用于无监督任务,它们分别使用标记数据和未标记数据进行训练。通过部署一个一对一的表示作为输入,并确定它们是否来自同一输入图的鉴别器,来提高两个编码器学习到的两种表示的互信息。


最终分别对无监督任务和半监督任务进行实验,表1为使用InfoGraph的图分类任务在六个基准数据集上的表现,表2为基于QM9数据集的半监督方法的表现。实验结果验证了该方法的有效性和竞争力。


表1 使用InfoGraph方法在六个基准数据集上的图分类任务表现


表2 基于QM9数据集的半监督方法的表现

     

第二个领域为:药物分子结构的从头设计及优化


对于药物分子结构的设计问题,我们要设计具有特定性质的新型分子结构的药物分子,为此,唐建教授团队提出GraphAF,从机器学习图生成问题的角度入手,生成具有满足特定性质的有效分子。GraphAF将图的生成视作对序列的决策过程,在每一步中都会生成一个新的原子,并确定新生成原子与已有原子之间的化学键形式,直至图的大小达到预先设定的最大值,或新生成的原子与现有原子间无相连化学键,便停止生成。最后,将氢原子加入到没有被填满价键的原子上,便得到最终使用GraphAF生成的分子结构。GraphAF具有以下三个优点:1)具有对强大的密度数据进行建模的能力;2)可以并行训练,有效地提高训练效率;3)由于采用迭代采样方法,因此可以有效地结合化学领域的知识进行对于化学键的检查。



使用ZINC250K数据集作为GraphAF的训练集,并使用业界广泛使用的指标,来评估GraphAF对真实分子建模的能力,与不同方法进行对比,实验结果验证了GraphAF的有效性。



全新设计一种药物除了要生成具有化学有效性的分子以外,还需要对生成分子进行优化使其满足特定的化学性质。因此,还需要通过强化学习方法微调分子的生成过程,以生成化学有效且具有理想特性的分子。唐建教授主要针对化学分子的两种特性对分子生成过程进行约束:1)辛醇-水分配系数(logP),指某种物质在正辛醇(油)和水中的分配系数比值的对数值,该值反映了物质的亲水/油性;2)药物相似定量估计(Quantitative estimate of drug-likeness,QED),通过反应分子属性的基本分布用以判断生成化合物的药物相似性。下图为分别基于这两种属性进行优化后生成的分子结构举例,其中(a)为logP得分较高的分子,(b)为QED得分较高的分子。



第三个领域为:逆合成规划及预测问题


针对这一问题,唐建教授团队提出一种用于逆合成预测的图到图框架,使用分子结构图表示分子,将问题表述为从一个图(生成物分子)到一组图(反应物)的过程,并将整个预测流程框架分为两个阶段:1)预测反应中心,利用图神经网络获得分子的低维表示,并利用边嵌入表示估计每个原子对的反应物活性,找到反应活性最高的原子对作为反应中心,并将其断裂,从而将目标分子分割成多个合成子;2)通过变分图将合成子翻译到最终的反应物。


     

二、药物再利用方面

药物再利用,主要通过利用生物医学知识图谱对其中知识进行的推理,预测药物与疾病之间的关系,查看已有药物是否存在治疗新疾病的可能。可以通过使用图神经网络的方法学习有标记的分子图等数据的特征表示,并使用消息传递神经网络来理解其中的关系。

本文将在这两个应用方面,针对痛点问题介绍先进研究算法。

现有的一些知识图推理的工作,如知识图嵌入方法RotateE、一阶逻辑推理方法pLogicNet,和通过学习知识图自动推理新逻辑RNNLogic等,都可以为未来药物再利用问题提供有力的帮助。


三、生物医药领域未来发展趋势


生物医药领域未来的发展趋势是从2D结构到3D结构的转变,现阶段的研究往往集中于对2D图结构的研究,而一种更为自然和内在的3D分子表示尚未被有效利用。针对这个问题,唐建教授团队也提出了一个解决思路。首先预测原子之间的距离预测信息,结合给定分子的分子图,进一步生成对分子三维结构的构象。



四、总结


人工智能在药物发现上拥有巨大的应用潜力,本文从全新药物设计与药物再利用这两个角度,针对药物设计中小分子性质预测、药物分析设计及优化和逆合成规划与预测,药物再利用的知识推理这四个具体问题的关键点,给出了详细的说明以及相关先进方法讲解描述。

人工智能赋能药物研发还有非常大的发展空间,利用人工智能方法不仅可以降低药物研发的费用,也可以大幅提高新药开发的成功率,缩短研发周期,这不仅具有重大的经济价值,也为提高全世界人民的健康水平有重要的意义。


参考文献:

[1] Fanyun Sun, Jordan Hoffman, Vikas Verma and Jian Tang. InfoGraph: Unsupervised and Semi-supervised Graph-Level Representation Learning via Mutual Information Maximization. ICLR’20.

[2] Chence Shi*, Minkai Xu*, Zhaocheng Zhu, Weinan Zhang, Ming Zhang, and Jian Tang. GraphAF: a Flow-based Autoregressive Model for Molecular Graph Generation. ICLR’20.

[3] Chence Shi, Minkai Xu, Hongyu Guo, Ming Zhang and Jian Tang. A Graph to Graphs Framework for Retrosynthesis Prediction. ICML, 2020.

[4] Minkai Xu*, Shitong Luo*, Yoshua Bengio, Jian Peng, Jian Tang. Learning Neural Generative Dynamics for Molecular Conformation Generation. ICLR’21.

[5] Sun, Zhiqing, Zhihong Deng, Jian-Yun Nie, and Jian Tang et al. "Rotate: Knowledge graph embedding by relational rotation in complex space." ICLR’2019.

[6] Qu, Meng, and Jian Tang. "Probabilistic logic neural networks for reasoning." Advances in Neural Information Processing Systems. 2019.

[7] Qu, Meng*, Chen, Junkun*, Xhonneux Louis-Pascal, Bengio Yoshua, and Tang, Jian. "RNNLogic: Learning Logic Rules for Reasoning on Knowledge Graphs." ICLR’2021.

[8] Thomas Gaudelet, Ben Day, Arian R Jamasb, Jyothish Soman, Cristian Regep, Gertrude Liu, Jeremy BR Hayter, Richard Vickers, Charles Roberts, Jian Tang, David Roblin, Tom L Blundell, Michael M Bronstein, Jake P Taylor-King. Utilising Graph Machine Learning within Drug Discovery and Development. arXiv:2012.05716, 2021

[9] Yadi Zhou, Fei Wang, Jian Tang, Ruth Nussinov, Feixiong Cheng. Artificial intelligence in COVID-19 drug repurposing. The Lancet Digital Health, 2020


精彩回顾

以下为唐建教授讲座完整视频

精彩内容点击回放


撰文 / 张嘉欢

编辑排版 / 冼晓晴

校对责编 / 袁基睿


----------- End -----------



感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或姓名-学校-职务/研究方向






历史文章推荐    


AI药物研发公司Exscientia的理念、技术与特点
AI药物研发公司Insilico Medicine的理念、技术与特点
Nature:如何使用AI分析真实世界数据,简化肿瘤临床试验入组标准
远程机器人实验室在AI药物发现中的应用价值与前景
2020年AI + 药物研发全景概述:(四) 制药公司与AI的合作
2020年AI + 药物研发全景概述:(二) AI如何应对制药行业的效率挑战
 2020年AI + 药物研发全景概述:(一) 概要
利用人工智能增强表型药物发现
Nature子刊回顾:2020年生物制药IPO打破了所有记录
20家顶尖制药公司如何将AI应用于药物研发:近年来主要合作活动

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存