查看原文
其他

IBM|基于云服务与AI驱动的自动化有机合成实验室(下)

智药邦 2022-12-15

Editor's Note

2020年8月底,IBM发布了建立在云端的RoboRXN化学实验室。RoboRXN融合了AI、机器人技术和云技术。化合物的设计由算法驱动,合成的操作由机器人执行。

本文是RoboRXN的进展和工作介绍。

The following article is from GoDesign Author PKUMDL

今天给大家介绍的是来自IBM Research Europe研究人员近三年发表的一系列关于人工智能应用于有机合成的相关工作。由于篇幅有限,本文将分为上下两篇,主要概述其代表工作并由笔者整理归纳其整体工作思路,仅供参考。

图1  IBM RXN for Chemistry主要工作及其整体思路(笔者自己整理归纳,仅供参考)

IBM RXN for Chemistry主要发表的工作包括:1)读取文献、专利中的有机实验操作文本并转化为机器可读的操作元[1];2)对反应数据进行预处理(生成反应指纹[2-3]、数据增强[4]、数据降噪[5]、反应原料与产物的原子映射[6]);3)有机反应正向预测[7-8];4)逆合成反应预测[9];5)反应产率预测[10];6)将反应SMILES“翻译”成操作元[11]。(以上工作的源代码都开源)
以上这些工作构成了IBM RXN的云服务,同时也训练了一整套基于Transformer的人工智能模型,从读文献学习实验操作,到学习有机反应规律,学会正向反应、逆合成反应及评判反应产率高低,最后学会对某一条新反应自己设计合成实验,一定程度上实现了“基于云服务与AI驱动的自动化有机合成实验室”的构想。

上一期已经介绍了前半部分的工作,讲解了“读文献”生成实验操作元与有机反应数据的预处理,本期将继续介绍学习有机反应数据后进行的三项预测任务以及预测新反应的实验操作。

预测正向反应的产物

对于人类化学家,刚开始学习有机化学时遇到最常见的题目是根据反应物、试剂和反应条件写出产物。那么对于人工智能也可以利用各种算法学习有机反应的规律,实现对有机反应产物的预测。在这一领域IBM Research Europe的研究人员先是在2018年发表了一种基于循环神经网络(RNN)与注意力机制的sequence to sequence模型来预测反应产物[7]。在2019年发表了“Molecular Transformer”(如图2所示)——一种基于Transformer的模型来预测反应产物,其表现优于RNN模型,在USPTO_MIT数据集上top1准确率为90.4%[8]。此外在一些杂环的芳香亲电反应中,它的表现优于基于量子化学计算的RegioSQM,能更准确地预测反应的区域选择性。

图2  Molecular Transformer示意图[8]

逆合成反应预测

仅仅是学会预测正向反应的产物是不够的,在有机化学中我们遇到更多的问题是有一个目标分子需要我们找到合成路线,也就是需要找到一步接一步的反应来实现目标分子的合成。其实这个问题和前一节的问题正好反过来,即知道产物,需要预测反应物(与试剂)。
IBM Research Europe的研究人员在2020年发表的工作,就是基于Transformer模型预测一步逆合成反应,再结合超图探索策略(hyper-graph exploration strategy)找到合适的逆合成路线,如图3所示[9]

图3  从预测逆合成反应到寻找合成路线的流程示意图[9]

在预测逆合成反应时,为了验证与评估预测表现,研究者应用了上一节所提及的正向反应预测模型,构建了一个逆合成反应预测+正向反应预测的循环。当逆合成反应预测出目标分子的N个备选反应物后,再分别对这N个备选反应物进行正向预测得到N个产物。研究者对此定义了两个指标,一个是循环准确率(Round-Trip Accuracy),即N个产物中再次回到目标分子的比例,另一个是覆盖率(Coverage),即N个产物中至少有一个回到目标分子的比例。结合上一篇文章中提到的数据降噪处理方法,逆合成反应预测的覆盖率可以达到97.1%,循环准确率可以达到86.2%。此外还考虑了预测逆合成反应的类别多样性与类别相似性。

在超图探索过程中,研究人员采用了Coley等人在2018年发表的SCScore(一种分子合成复杂性的打分)[12],再结合类贝叶斯概率来决定图扩展的方向,最终找到由eMolecules数据库提供的可用的分子。在合成路线设计的评估方面,目前还没有benchmark,只能说体现了一定的潜力,可以为人工设计合成路线提供思路与启发,尚且无法处理复杂天然产物分子,对少数类别反应(氧化还原、酯化皂化等)的学习还不到位,容易得到不符合逻辑的逆合成切断策略。

预测反应产率

在挑选逆合成反应来组成合成路线时,一个反应的产率是能直观体现反应的效用,也是给合成路线打分的重要因素。IBM Research Europe研究人员在2021年发表了Yield-BERT模型来预测反应产率,如图4所示[10]。研究人员在一些高通量反应数据集与专利反应数据集分别进行训练与测试,在某一特定反应(例如Buchwald–Hartwig反应与Suzuki–Miyaura反应)的高通量数据集上,Yield-BERT的R2可以达到0.95与0.81,比一些基于one-hot或者DFT算符作为输入的方法表现更好。在专利反应数据集(克级与亚克级)上的表现都、很一般,R2不到0.2,可能原因是相似度(反应指纹)接近的不同类别反应的产率差别较大(一致性较差),模型在预测时会得到一个平均值。因此,对于产率预测问题,数据的质量很重要,同时对于其他类似的有机反应回归问题,例如预测反应活化能等,也可以尝试使用这种模型框架。

图4  Yield-BERT示意图[10]

生成反应实验操作

在确定了有机合成路线后,就需要针对每一步反应设计具体实验条件与操作。针对这个问题,IBM的研究人员在2021年发表了《Inferring experimental procedures from text-based representations of chemical reactions》的工作,介绍了将有机反应SMILES“翻译”成有机合成实验操作的模型smiles2actions,以及为了训练模型而生成的数据集,如图5所示[11]

图5  smiles2actions数据集生成与模型示意图[11]

研究者用了机器学习模型与基于Transformer的模型(Transformer与BART)进行类似机器翻译的任务,然后用机器翻译常用的序列相似性打分BLEU,以及操作元100%、90%、75%和50%准确率来评估模型表现,结果如表1所示[11]。此外研究人员还找了有机合成领域的专家来评估预测结果的完整性。针对500条反应,研究者向有机化学家提供了真实合成操作与预测的合成操作进行盲评,其中专家认为62%的预测结果是合理的,认为60%的真实结果是合理的,这反映了预测结果在人为评估中的表现与真实结果接近。不过在原文献中,研究人员并没有报道实际应用预测的实验操作来合成某一分子的实例。

表1  各模型预测合成操作的结果

总结与讨论

本篇介绍了IBM Research Europe在有机合成与有机反应相关工作的后半部分——预测反应、设计合成路线以及预测合成实验操作。就目前而言,IBM Research Europe已经在IBM RXN for Chemistry的网站上发布了逆合成路线设计的功能,有机化学家可以在家中提交目标分子,得到AI预测的合成路线,再对合成路线中的每一步反应设计具体实验条件与操作,提交给IBM的RoboRXN服务器,那么就会有机器(如图6所示)帮你完成分子的合成实验(目前机器合成服务还没开放)。通过云服务与AI辅助的路线设计,可以解放化学家于重复性劳动中,从而能有更多时间与精力去设计新分子,创造新事物。

图6  IBM RoboRXN示意图(摘自官网介绍视频)

而在未来,IBM将进一步实现基于云服务与AI驱动的自动化实验室,围绕我们上下两篇文章所介绍的这些工作,从自动读文献学习合成实验操作,到预处理反应数据进行正向反应预测、逆合成路线设计,再到预测合成反应的实验条件与操作。理想情况下可以实现针对目标分子的全自动合成,但是目前来看,笔者认为有两大难点还需攻克,一个是逆合成路线设计的能力有限,还需要人工参与路线的挑选优化,并且对复杂结构的分子(例如一些多环天然产物)还是束手无策的;另一方面是根据反应设计实验条件与操作的实际应用效果还有待检验,在原文献中还未报道相关应用,并且针对效果不佳的合成实验还需要设计反馈机制来优化反应条件与操作(可能衍生到有机方法学的探索,借助高通量反应机器来筛选最优合成条件),甚至可能需要更换合成路线。总之一旦结合了自动化合成实验的反馈,AI辅助的逆合成路线设计也会有更具实际意义的进步方向。


参考文献:

[1]Vaucher, A. C.; Zipoli, F.; Geluykens,J., et al., Automated extraction of chemical synthesis actions from experimental procedures. Nat. Commun. 2020,11 (1), 3601, DOI:10.1038/s41467-020-17266-6

[2]Schwaller, P.;Probst, D.; Vaucher, A. C., et al.,Mapping the space of chemical reactions using attention-based neural networks. Nat. Mach. Intell. 2021,3 (2), 144-152,DOI: 10.1038/s42256-020-00284-w

[3]Probst, D.;Schwaller, P.; Reymond, J.-L., Reaction Classification and Yield Prediction using the Differential Reaction Fingerprint DRFP. ChemRxiv 2021, DOI:10.33774/chemrxiv-2021-mc870

[4]Schwaller, P.;Vaucher, A. C.; Laino, T., et al.,Data augmentation strategies to improve reaction yield predictions and estimate uncertainty. ChemRxiv 2020, DOI:10.26434/chemrxiv.13286741.v1

[5]Toniato, A.;Schwaller, P.; Cardinale, A., et al.,Unassisted noise reduction of chemical reaction datasets. Nat. Mach. Intell. 2021,3 (6), 485-494, DOI:10.1038/s42256-021-00319-w

[6]Schwaller, P.;Hoover, B.; Reymond, J.-L., et al.,Extraction of organic chemistry grammar from unsupervised learning of chemical reactions. Sci. Adv. 2021,7 (15), eabe4166, DOI: 10.1126/sciadv.abe4166

[7]Schwaller, P.;Gaudin, T.; Lányi, D., et al., “Foundin Translation”: predicting outcomes of complex organic chemistry reactions using neural sequence-to-sequence models. Chem.Sci. 2018,9 (28), 6091-6098, DOI: 10.1039/C8SC02339E

[8]Schwaller, P.;Laino, T.; Gaudin, T., et al.,Molecular Transformer: A Model for Uncertainty-Calibrated Chemical Reaction Prediction. ACS Cent. Sci. 2019,5 (9), 1572-1583, DOI: 10.1021/acscentsci.9b00576

[9]Schwaller, P.;Petraglia, R.; Zullo, V., et al.,Predicting retrosynthetic pathways using transformer-based models and ahyper-graph exploration strategy. Chem.Sci. 2020,11 (12), 3316-3325, DOI: 10.1039/C9SC05704H

[10]Schwaller, P.;Vaucher, A. C.; Laino, T., et al.,Prediction of chemical reaction yields using deep learning. Mach. Learn.: Sci. Technol. 2021,2 (1), 015016, DOI: 10.1088/2632-2153/abc81d

[11]Vaucher, A. C.;Schwaller, P.; Geluykens, J., et al.,Inferring experimental procedures from text-based representations of chemical reactions. Nat. Commun. 2021,12 (1), 2573, DOI: 10.1038/s41467-021-22951-1

[12]Coley, C. W.; Rogers, L.; Green, W. H., et al., SCScore: Synthetic Complexity Learned from a Reaction Corpus. J. Chem. Inf. Model. 2018,58 (2), 252-261, DOI: 10.1021/acs.jcim.7b00622

作者:黄志贤

审稿:林康杰

编辑:由瀚天


--------- End ---------


感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明-企业-职位/岗位 或

姓名-学校-职务/研究方向




- 历史文章推荐 -


自动化智能化药物发现

Science|类药有机分子的快速自动化组装

●AI技术如何使繁琐的细胞培养和分析工作自动化

●NAT CHEM|人工智能的、增强智能的和自动化的化学

●利用人工智能和自动化改造药物发现

●入门综述:机器学习在“逆合成+反应预测+自动化合成”的应用 




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存