查看原文
其他

图灵量子化学逆合成引入4万倍量子数据优势

光子盒 2023-03-04

The following article is from 图灵量子 Author TuringQ

来源:图灵量子

今天,图灵量子宣布了自主开发10余种量子AI算法用于药物虚筛。并在化学逆合成中引入4万倍量子数据优势, 高效求解最佳方案。

图灵量子已经在生成模型中验证了量子算法的相对优势,并用于RNA结构预测和药物分子结构的设计。在药物虚筛场景中,图灵量子进一步在自主开发的量子互学习、量子注意力机制等模块中,融合QuCNN、QuAE、QuGRU、QuRNN、QuGIN等10余种算法,深入探索高性能量子-经典混合算法的实现路径。
 
在强化学习解决复杂路径搜索问题上,计算资源消耗巨大是个难以攻克的问题。而量子计算在希尔伯特空间下强大的表示能力,曾被谷歌AI团队以量子数据优势(Power of Data in Quantum Machine Learning)在Nature系列期刊最先发表,形成业界共识。这一特性为量子机器学习模型带来了巨大潜力,图灵量子采用这一原理优化了化学逆合成的强化学习模型,使神经网络的参数从800万个降至200个,直降4万倍!而且 ,在此基础上,并没有因模型参数骤减导致算法失效,反而更快速、更稳定的收敛,并正确求解逆合成问题。


迄今,经典计算机上的机器学习取得了长足进步,在图像识别、文本翻译甚至物理应用领域带来了革命性的应用,算力的愈发强大带来愈好的性能,如果量子计算机能够加速机器学习,那么必将又是一次革命性的发展。
 
谷歌曾在论文中公开表明,至少可以从两个方面实现量子增强。其一,鉴于量子在优化问题中的应用,很多现有的经典模型可以通过量子计算实现增强,这包括如何在搜索问题中找出更好的解或用更少的查询次数找到最优解;其二,量子模型可以用来生成经典计算难以表示的变量间的关系,理论和实验上都证明量子计算可以从指数概率分布中采样,这是经典计算难以做到的,如果自然界中有这样的分布,那么量子计算的优势会明显体现。量子神经网络对分布进行参数化,通过对量子线路的模拟将经典数据映射到量子希尔伯特空间,那么模型就很有可能获取量子优势。
 
日前,图灵量子已发布应用模块一 QuOmics: 有助于预测高危新冠病毒毒株变异风险,以及应用模块二 QuC‍hem: 基因药物分子设计多样性提升214%。
 
应用模块三 QuDocking:增强药物虚筛预测模型的可解释性
 
药物设计流程中,取得了与疾病相关的药物分子后,需要寻找可以与之作用的靶点蛋白,以此来验证药物分子的「可利用性」,这时需要进行药物虚筛,以及药物-靶点相互作用识别(DTI)。
 
DTI是药物发现的重要过程,其中药物-靶点亲和力是相互作用强度的重要信息,强度越大,该配对结合的能力越强。随着新药的发现,该领域的样本数据库不断扩大(约1060个药物小分子),为已获批药物寻找新的靶点,也越来越受到关注,实验上可以通过X-ray晶体衍射技术、冷冻电镜、核磁共振等技术对蛋白质的结构进行解析,DTI的分析根据实验所得的电子云密度图可得。但是仅靠前述实验技术和研究人员的经验来确定靶点,是一个非常「昂贵」且低效的过程。量子计算赋能人工智能技术将在诸如此类的问题中发挥愈加重要的作用。
 
图灵量子采用公开药物-靶点数据集,在亲和力预测场景下进行了多种量子算法(如QuCNN、QuAttention、QuGRU)和量子经典混合算法的研究探索。在这项研究中,图灵量子提出多种深度学习模型,利用蛋白质的序列信息表征和配体的SMILES表征,进行亲和力的预测,并取得了一系列进展。同时开发量子互学习机制,旨在增强模型的可解释性。迄今,这些研究可为后续量子AI的应用,提供有价值的参考,并预期在DTI以及其他场景展现出相对优势。
 
1)「互作结合能」预测模型提升「药物虚筛」效率
 
训练药物靶点亲和力预测模型,需要已知的可配对的药物-靶点序列数据,以及对应的亲和力参考值。在这项研究中,图灵量子采用了PDBbind数据库,该数据库是实验测量得到的蛋白质-配体复合物的结合亲和力的数据库。图灵量子采用了经典的DTI模型结构,两条线路分别处理药物和靶点。模型的输入SMILES和表征蛋白质序列的字符串,经过一系列的算法模块处理后,输出为亲和力值,从而达到提升「药物虚筛」效率的目的。
 
2)自主开发量子神经网络算法库

图 3.1 丰富的量子算法模块以及应用场景中的差异性
 
2-1)混合算法实现优势有规律可循
 
由于量子的一些物理特性,理论上量子线路对数据的表达能力更强。研究中图灵量子发现,在量子线路与经典线路混合的过程中,需要遵循一定的规律才尽可能展现优势。这一规律就是量子神经网络层越接近输入数据,性能越强,为实现高效的量子经典混合算法提供了有价值的参考。
 
2-2)QuGIN在多种量子算法中性能最佳
 
PDBbind中的药物和靶点的表征可以看作序列模型,于是「图灵量子」将常见的序列模型(如Attention、GRU、RNN、Mutual Learning)对应的量子版本,分别加入模型进行测试。另外,药物分子的SMILES编码本身有着局限性,即会忽略空间结构信息,所以图灵量子将其转换为分子图网络来表征,并应用量子图神经网络算法进行研究。如图3.1展示了多种量子算法的差异性,QuGIN收敛最快,这也表明了图算法在药物设计中有着很大潜力,基于分子图表征的方法能保留更多有效信息。
 
2-3)增强AI制药模型可解释性
 
可解释性是AI制药算法的重要特征之一,可解释的算法传达了该特征在确定输出中的相对重要性,这可以让医药研究人员更加明白算法是怎样做出预测的,并基于自身知识进一步提升模型性能。图灵量子在DTI模型基础上,加入了量子互学习机制的方法,增加了模型的可解释性。图灵量子参考双原子体系的哈密顿量表达式,给出的药物-靶点的相互作用系统的「形式化」公式如下:
 
  
结合互信息理论提出量子互学习机制,量子互学习机制用来学习,然后利用学习到的来实现亲和力的预测。如图3.1所示,加入量子互学习以后,训练中的损失(MSE)和相关系数(Rp)反映出,CNN_QuML模型能更快速的提取结合能预测所需的结构信息,并最终收敛至理想值。

应用模块四 QuSynthesis:显著缩减逆合成的计算量
 
在药物设计整个流程中,对药物分子进行合成路径的选择也是至关重要的。进行药物分子合成的常规做法是利用相关经验在实验室内进行多次实验,从而确定合成路径。量子AI可以通过分析化学分子,逆向寻找目标分子的合成反应路线,加快药物分子研发速度。
 
目前医药行业经过多年的发展,已经积累了大量的药物分子合成反应模板,形成各种化学分子合成标准数据库。针对药物分子的合成问题来说,虽有足够多的反应模板,但随着目标产物的反应步骤的增加,候选反应的数量呈指数级增长,这种情况下为选出最终反应物,造成太多的冗余计算
 
针对医药行业药物分子合成成本高、难度大的痛点,图灵量子开发了基于量子强化学习的分子逆合成求解器,可以根据最新、最全的药物分子合成模板数据库进行训练,通过评估候选反应物的成本,对候选反应进行排序,然后指导网络搜索算法,来生成最优路径的合成计划,以此减少多余的计算。
 
1)化学合成逆向搜索极其复杂
 
分子逆向合成的搜索过程,可以被认为是一个单人游戏过程,分子通过一系列反应选择,从一个目标产物开始,搜索中间产物,重复化学反应选择,直到获得反应物。整个过程十分具有挑战性,因为可能选择的组合个数是天文数字,同时每种选择带来的总成本也无法估计。
 
使用强化学习来解决逆向合成路径的搜索问题是一个不错的方法。根据用户定义的成本度量方法,规定好每种反应所需成本,和每种初始材料所需成本,作为迭代过程中逆合成树产生分支方向的逻辑判断条件。同时,将化学反应数据库做预先处理,对每个分子、每种反应的数据集进行筛选,保留最真实的合成记录用于训练模型。

图 4.1 分子逆合成路径搜索概念图、逆合成算法原理简图
 
2)USTPO-50k数据集最低损耗估计网络
 
本次逆向合成实验使用的数据集是USTPO-50k,经过预处理后,可用反应数据记录有5048条,目标分子数有3084个,中间产物有1965个, 在不考虑现实原料成本的前提下,从数据库中随机提取2000条作为反应物, 该条件下,预估数据集上两步反应的路径搜索空间规模,在1013的数量级上。根据强化学习的策略改进定理,初始策略会在算法迭代过程中不断改进,利用反应物类型设定原料成本和反应成本,在迭代过程中约束搜索路径,同时完成对分子损耗值估计网络的训练。最终估计网络不再更新,同时策略达到最优,此时能够搜索到最低损耗路径。
 
3)量子数据强大表示能力增强强化学习算法
 
具体训练过程如下,循环遍历所有逆向合成的目标分子,通过数据库的记录获得此步所有可能的反应类型,根据每种反应类型的后续分子的预估损耗值判断,选择预估损耗最小的反应,在路径搜索样本积攒阶段,使用随机数确定分子预估损耗值,同时配合用户定义的成本度量方法,选择逆合成树产生分支的方向,保存逆合成树所有树枝上的分子编码和分子预估损耗值用于后续训练模型。在模型训练阶段,使用神经网络来确定分子预估损耗值,利用已保存记录和神经网络预估损耗值,来共同决定反应类型,并将记录保存。上述过程循环若干次,然后进行神经网络参数的更新。训练完成后的模型,输入分子编码,能够给出其理论上最低损耗的逆合成路径,并且神经网络能够输出反应中包含分子的预估损耗值。

图 4.2 经典/量子神经网络的参数量对比、表示能力效果对比
 
由于搜索路径的繁多,经典神经网络的训练结果不稳定。训练一段时间后波动较大,这是强化学习算法处理复杂任务的通病,这也导致此类模型的训练十分消耗计算资源。在图灵量子实现的分子逆合成强化学习案例中,分子编码维度为16384(214=16384)  , 采用拥有800万参数量的神经网络,作为估计函数进行训练。受益于量子AI算法,希尔伯特空间下强大的表示能力,以及张量网络技术对量子线路模拟的优化,图灵量子在单机上运行14比特的,包含约200个参数的量子神经网络,来完成同样任务。量子算法的训练结果更加稳定,且搜索出与经典算法相同的正确路径,体现了算法功能的一致性。

图 4.3 模型参数骤减情况下,量子逆合成求解器依然正确求解
 
业界目前已有多款知名的逆合成软件系统,比如结合AI算法和反应知识图谱的逆向合成软件系统(Chematica)。而图灵量子采用量子强化学习进行逆向合成设计。经过不断的提升性能之后,将有望表现出更大的经济价值。
 

在量子算力助力新药研发的实践中,量子AI相关的解决方案和软件工具的形成是必不可少的。不论是借助人工智能还是量子算法,实现一款药物分子从设计到临床,最终获批使用,都非一日之功。图灵量子已经开启了基于量子算法的智能化药物设计的探索,已经在组学、分子设计、虚拟筛选、化学逆合成等模块实现了初步的功能。
 
图灵量子不仅在生成模型中实现了量子算法的优势,进行了新冠病毒RNA结构变异方向的预测,基于基因表达数据进行了药物分子的设计,体现了量子算法对经典算法性能的提升,以及这两者在处理药物分子数据上增强了多样性。在「药物-靶点」相互作用场景中,进一步测试了自主构建多种量子AI算法,并为量子-经典混合算法解决这类应用,提供了有价值的参考。最后,图灵量子也在化学逆合成应用中,进一步验证了谷歌AI团队,发文宣称的量子机器学习中数据表示带来的优势,并结合张量网络技术,给出了具有潜在应用价值的量子强化学习模型。
 
图灵量子期待与人工智能、生物制药等领域的更多专家和学者携手共进,使得量子计算的强大算力,结合人工智能算法,真正赋能生物制药,加速量子技术在该领域的产业落地。
 
参考文献:
Huang, HY., Broughton, M., Mohseni, M. et al. Power of data in quantum machine learning. Nat Commun 12, 2631 (2021).
 
Hakime, O., Arzucan O., and Elif, O., DeepDTA: Deep Drug-Target Binding Affinity Prediction. Bioinformatics 17, 17 (2018).
 
John, SS. et al., Learning Retrosynthetic Planning through Simulated Experience, ACS Cent. Sci. 5, 970−981 (2019).
 
Mikulak-Klucznik, B., Gołębiowska, P., Bayly, A.A. et al. Computational planning of the synthesis of complex natural products. Nature 588, 83–88 (2020). 
 
—End—

相关阅读:
图灵量子实现38倍提速量子AI药物设计
成立不到一年,图灵量子完成第三轮融资,累计超5亿元
图灵量子发布商用科研级专用光量子计算机产品系列
图灵量子首款专用光量子计算模拟软件FeynmanPAQS试商用
图灵量子完成数亿元PreA轮融资 君联资本领投
图灵量子全球招聘

#诚邀共建国内首个量子垂直招聘平台#

光子盒将为中国境内的研究机构和企业提供一个免费的垂直招聘信息发布渠道,欢迎有需求的机构或企业直接联系光子盒。(微信:Hordcore)

你可能会错过:

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存