量子计算赋能AI制药 「图灵量子」硬核发布四大应用模块 (上)
TuringQ | 算法应用组 文
「图灵量子」硬核发布四大量子AI制药模块!将量子计算和人工智能技术相结合,「图灵量子」在AI制药领域实现重大技术突破,推出一系列量子AI应用模块,其中 QuOmics(基因组学)、QuChem(药物分子结构设计)、QuDocking(药物虚拟筛选)、QuSynthesis(化学分子逆合成)等四大模块,已实现不同程度的量子算法增强,另有QuProtein(蛋白结构预测)和QuDynamics(分子动力学模拟)的功能模块正在开发中。
量子计算作为一种全新的计算范式,它工作在算法逻辑的后端。人工智能作为一种连接现实世界数据的计算工具,它一般工作在应用逻辑的前端。经典计算下的人工智能与量子计算下的人工智能之别,如同动车与高铁。「图灵量子」已经向量子计算在生物制药行业的应用落地发起冲击,此刻我们宣布已经使用量子计算工具,对生物制药行业的不止一个关键问题进行了卓有成效的研究。
「图灵量子」实现38倍提速量子AI,瞄准产业化落地!在大规模通用量子计算机制成之前,量子AI以及混合算法研究仍将以在CPU/GPU上运行为主。「图灵量子」借助张量网络技术,通过张量的缩并,实现38倍提速量子AI药物设计。随着模拟量子比特的增加,加速倍数会进一步提升。从而使得通用量子计算机还未普世应用的前提下,也能立即使用量子计算工具解决实际问题。
量子算法极大地改善了经典生成模型,用于基因组学和药物分子的结构设计,使算法收敛的稳定性显著提升。此外,在老药新用的场景中,量子算法的引入,显著提升分子结构生成的有效性。同时,量子和经典算法的结果表现出很强的互补性,对随机抽取样本处理的无效率降低近6倍,多样性提升214%。
上篇导读
一、 RNA病毒无时无刻不在变异,量子算法助力基于风格的生成对抗网络(Style-based GAN),从新型冠状病毒变异毒株中学习变异规律,并用于预测潜在风险,旨在最终实现对高危毒株疫苗和药物的预研。
二、 药物研发遵循反摩尔定律 (Eroom’s Law) --新药研发成本越发高昂。借助量子张量网络加速器和对抗自编码网络,优化基因药物设计的经典算法。量子算法与经典算法相辅相成,显著提升药物分子结构生成效率。
1 医药行业为什么要关注量子AI?
随着深度学习的兴起发展,越来越多的科研难题在AI的帮助下得以解决,同时产生了巨大的智能算力需求,英伟达对AI算法在其GPU上运行效率的优化,使得AI自然地与GPU联系起来,然而后摩尔时代的到来,终将面临如CPU一样的,由半导体制程工艺带来的瓶颈。「图灵量子」开发的光子、光量子芯片致力于在未来接力GPU,为后摩尔时代提供智能算力支持。
所以量子计算与人工智能天然互补,量子计算为人工智能带来算法的「逻辑与算力」的提升,而人工智能拓宽了量子计算的应用场景。在诸多应用场景中,AI制药是代表性的、技术创新驱动的新型行业。新药研发的各个环节都消耗大量人力物力和时间成本,这其中包括结构预测、药物虚筛、逆合成以及药物代谢等多个环节。AlphaFlod是近年来最具代表性的蛋白质深度学习预测模型,它对于药物研发起到重要作用。同时,也展示了这些算法模型对智能算力的依赖,在逐年爆发式地增长。为了使量子计算成熟后产生的无穷算力,能够满足生物医药行业的智能算力需求,「图灵量子」已经在量子计算的数值模拟平台上,进行了大规模的量子启发、经典量子混合算法开发和应用案例的实现。量子AI与制药的结合,蕴含巨大社会经济价值,但实现行业落地仍然需多方长期的技术研发投入。目前,「图灵量子」实现的早期案例中,也不乏若干量子AI带来增强的迹象。
2 「图灵量子」推出四大AIDD应用模块
随着计算机辅助药物设计(CADD)向着人工智能驱动药物设计(AIDD)的转变,制药行业的各个环节都体现出对智能算力的需求。在量子算力助力新药研发的实践中,量子AI的解决方案和软件工具的形成是必不可少的。不论是借助人工智能还是量子算法,实现一款药物分子从头设计、到进入临床,最终获批使用,都非一日之功。「图灵量子」在AIDD中的探索,仍然是起步阶段:目前,已初步推出 QuOmics、QuChem、QuDocking、QuSynthesis 四大模块,分别实现了基因序列预测、药物分子生成、互作结合能预测、分子逆合成等功能;同时用于蛋白质结构QuProtein和分子模拟QuDynamics,正处于开发阶段。
应用模块一 QuOmics: 有助于预测高危新冠病毒毒株变异风险
截止至2022年2月9日:全球累计新冠确诊病例超过4亿。新冠病毒是具有较高突变频率的RNA病毒,突变频率大概在百万分之三。在人体内,每个病毒平均每小时可以复制出1000份新个体。微小的概率叠加上大规模感染人群,和长时间的新冠流行,使得病毒变异无时无刻不在发生。如何用监测到的变异毒株测序结构,预测和穷尽冠状病毒的所有变异可能,对人类的生命健康和全球社会经济都有重要意义。
在「图灵量子」的加持下,上海交大金贤敏团队牵头与某三甲医院、南开大学、帝国理工大学、卡耐基梅隆大学科研人员合作,采用基于风格混合的量子生成对抗网络模型,来进行新冠病毒变异结构预测。生成RNA结构与新冠病毒样本间的保真度均值超过95%,预测结果也显示了良好的生物学意义。在算法设计上,量子神经网络保持了同经典算法逻辑上的高度一致性。这来自于量子启发式的模糊卷积,和量子渐进训练模块的开发。同时量子线路支持的判别器模型,也极大地改善了GAN收敛不稳定的顽疾。在多个损失函数上,都以远小于经典算法的迭代次数完成了算法收敛。该工作已在arxiv上发表预印版。
通过多方合作,「图灵量子」不但促进了冠状病毒的学术研究,同时,自主完成了对研发中量子算法应用技术的知识产权保护。冠状病毒相关的量子算法研发的意义,不止体现在学术科研中,更有益于流行病的实际防控。大众心理上总是习惯性地认为「防不如治」,而冠状病毒入侵地球已经远不止三次,每次都严重威胁人类生命安全和社会经济的发展。二十一世纪以来的SARS、中东呼吸综合征(MERS)等,都是冠状病毒家族中的成员,为了使新冠病毒流行毒株数据,能够用于更多高风险的,动物携带人畜共患冠状病毒的防控,这就需要更高效和更准确的模型,从现有的病毒序列数据中,预测潜在变异可能性,促进针对高危毒株的疫苗和药物的预研。「图灵量子」也在持续更新预测模型机制,使其能够成为保护每个普通人的警示灯。(详情可参考论文预印版 [1])
[1]论文预印版: https://arxiv.org/abs/2203.03556
应用模块二 QuChem: 基因药物分子设计多样性提升214%
近70年来,药物的发现一直遵循 Eroom 定律(Eroom’s Law),即随着时间的推移, 同样的研发投入带来的有效成果逐渐减少。如花费10亿美元进行研发,每9年获批的项目就会减少一半以上的数量。据行业研究统计,新药研发往往需要研发人员投入10年以上、17亿美元左右的时间和金钱成本。但这样惊人的数字背后,新药成功获批投入使用的概率仅仅在10%以下。新药研发成本越发高昂。这就使得如何在获批药物分子上进行重新设计,来用于新的病症治疗至关重要。
如果一种药物分子,能够阻断某种疾病相关的基因表达过程,它将能够作为治疗该病症的基因靶向药物。「图灵量子」采用癌症基因表达数据集和QuSAAE,进行了老药新用的探索。该量子算法能够在量子编码器、量子解码器和量子判别器的协同工作下,提取输入分子结构中的结构片段,并识别其是否与特定基因片段结合,来阻断表达过程,从而标记出与疾病治疗无关的分子基团,用于药物的重新设计。
该量子算法的「输入」是初始药物和基因表达数据,「输出」是全新的基因靶向药物分子[2]。 在充分的数据支持下,该量子算法能够赋能药厂的药物研发,既可满足在QPU上运行的条件,也可在现有的CPU/GPU平台上高效运行。新的药物分子基于进一步的验证,有可能以更低的成本进行大规模生产,惠及更多老百姓。
在以下药物分子结构设计的应用中,「图灵量子」分别实现了38倍提速量子AI算法在CPU/GPU上的模拟运行、对随机抽取样本处理的无效率降低近6倍,整个分子结构生成上的多样性提升214%。
1)药物分子以及基因表达水平数据
为了实现老药新用的QuSAAE,需要两类数据:药物分子数据和基因表达数据。LINCS L1000 数据由L1000方法获得,该方法相比RNA 测序技术具有更低成本的特征。在每一次实验中,测量978个基因的转录组(基因表达产物),然后借助数学模型来估计人类其余的两万个基因的转录组。LINCS L1000 数据完整的体现了,当细胞暴露在各种微扰介质下基因表达的变化,包括药物分子对基因表达变化的影响。目前有22412种不同的微扰介质(包含20413个小分子化合物:药物分子、苗头化合物等),这些微扰介质被应用在56种不同的细胞环境中,其中包括人类原代细胞系和人类癌症细胞系。
[2]source: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5990023/
2)基因药物设计算法流程
图 2.1 量子监督对抗自编码网络(Quantum Supervised Adversarial Autoencoder, QuSAAE)
如图 2.1 所示,该算法的主体框架是一个变分自编码器,经过学习自编码器能够重构药物分子。该功能的实现分为两步:第一步,通过编码器对输入的药物分子 x, 进行压缩和特征提取,形成一个矢量 z;第二步,将该矢量z输入解码器,输出 x′。模型的训练目的,是最大限度的还原出输入的药物分子,即 |x−x′|=0 。在自编码器的基础上,加入一个判别器,它的作用是使矢量 z 满足某种特定的分布,从而使z 空间和 x 空间的映射更加自然。
为了能够重构药物分子,模型学习到的矢量 z 必定至少包含两种信息:(1)与基因表达变化相关的信息,(2)其他信息。如果我们将与基因表达变化相关的信息输入给解码器,那么理论上,模型就可以将全部的计算资源分配到学习这些信息上。因此矢量 z 将只包含与基因表达变化无关的信息。
3)张量网络加速量子算法(过程演示)
如图 2.2所展示,以QuSAAE算法为例,对张量网络的量子算法加速进行了分析。结果显示,随着模拟量子比特数的增加,张量网络技术对量子线路的加速效果也显著提升。在11比特的量子判别器线路中,模型的运行效率显著提升38倍以上。上述方法有效地支撑了,现阶段对量子AI算法应用产业化落地的探索,并可大规模地缩减新药研发大型AI模型的训练和运行成本。
4)量子算法增强生成模型的训练稳定性
量子算法和经典算法的比较,通过QuSAAE 算法的判别器损失函数在图2.3中给出了分析结果,红色线条为QuSAAE(量子监督对抗自编码网络)判别器结果,白色线条为SAAE(经典监督对抗自编码网络)判别器训练结果。这里采用了二值交叉熵损失函数,该损失函数给出了理论上的收敛值为0.693。具体来讲,在200 epoch之前,QuSAAE的损失值从远大于理论值快速收敛至理论值附近,在600 epoch之后,算法已经能够以小于0.001的波动,稳定在理论值上。而在图2.3的子图中显示,经典算法SAAE直到1200 epoch后,损失值仍然远离理论值,并且表现出极度不稳定的震荡。
5)量子算法与经典算法高效协同
通过在随机挑选的50个药物分子样本上,引入基因表达水平变化数据评估算法模型,进行结构设计有效性的统计水平。结果显示,经典算法有16个样本无法处理,量子算法有11个样本,综合结果显示仅有3个样本无法处理。由此可见,量子模型生成分子的有效率提高了10%;同时结合经典算法与量子算法的生成结果,使得无法处理的数据比值下降近6倍,量子算法与经典算法表现出很强的互补性。对随机选取的分子结构,分别采取量子算法和经典算法对它们进行处理,结果附在文未长图中。
参考文献:
Yu-Xin Jin, Jun-Jie Hu, Qi Li, Zhi-Cheng Luo, Fang-Yan Zhang, Hao Tang, Kun Qian, Xian-Min Jin. Quantum Deep Learning for Mutant COVID-19 Strain Prediction. Preprint arXiv:2203.03556 (2022).
Rim Shayakhmetov et al., Molecular Generation for Desired Transcriptome Changes With Adversarial Autoencoders, Frontiers in Pharmacology 11 2020, https://doi.org/10.3389/fphar.2020.00269
彩蛋
从药物分子数据库中随机抽取50条做验证
结构生成上的多样性大大提升
由算法设计的新型基因靶向药物分子,对癌症治疗潜在有用