查看原文
其他

基于文本表示推断化学反应的实验步骤

张云 段宏亮 智药邦 2022-06-15

今天给大家介绍的是nature communications上有关化学反应实验步骤预测的文章 "Inferring experimental procedures from text-based representations of chemical reactions"。
化学反应的执行是一个耗时的过程且与实验环境密切相关,实验人员通常需要具备多年的工作经验,或通过搜索类似的、已经执行的实验方案来开展化学反应。尽管数据驱动(如逆向合成模型)逐渐成为有机合成中的成熟技术,但将拟定的合成路线转换为实验过程仍是该领域的难题。在这项工作中,作者提出了一个可用于批量处理有机化学反应的、从化学方程式的文本表示开始来预测整个合成顺序的数据驱动的模型作者使用Paragraph2Actions提取并处理专利中有关实验过程的文本,生成了一个包含693,517个化学方程式及相关操作顺序的数据集。然后利用该数据集训练了三种不同的模型:基于反应指纹的nearest-neighbor(最近邻)模型,以及两个基于Transformer和BART架构的深度学习Sequence-to-sequence的模型。一位训练有素的化学家的分析表明,超过50%以上的预测的实验操作步骤可以在没有人工干预的情况下执行。
1.研究背景
在化学领域,人工智能(AI)算法已有几个成功的应用。生成模型帮助设计具有潜在相关特性的分子,逆向合成模型提供了合成这些分子的可能的路线。这些反应预测算法虽有助于化学家优化合成策略和选择有效的合成路线,但是有效“组合”每个合成步骤所需的实验操作仍然存在困难。化学合成的设计需要了解精准的操作顺序(加药、搅拌、过滤等),以及最优参数的定义(温度、溶剂、压强等)。而这些操作任务的“组合”大多数是由化学家经验决定的,是以反复试验为特征的偶然事件。此外,一个最佳操作顺序实验方案的提出,还需要化学家检索广泛的文献和使用更多的同源策略。在实践中,实验室合成目标分子仍是一个重要的瓶颈。自动化虽已广泛存在于化学领域,但机器人系统的编程是自动化和规模化执行化学反应的主要障碍。如大规模采用通用化自动合成平台需要借助激活程序来为独特的化学反应创建特定的执行步骤,即从人工智能模型提出的化学方程式开始,确保在实验室条件下中反应所需的一系列步骤能够成功执行。虽然现在已有一些模型与逆合成工具结合并在自动化平台上进一步规划合成,然而领域的复杂性和精确数据的缺乏阻碍了人工智能模型预测技术的发展。作者提出的Smiles2Actions(图1)是第一个可应用于批量有机合成领域的、将化学方程式转换为完全显式的实验操作步骤的人工智能模型,在Smiles2Actions模型中,化学方程式以文本(SMILES)格式表示,并由AI算法生成或人工输入。另一方面,该文中使用的三个模型可以不用明确实验步骤的概念,就能够估计产物在不同溶剂中的溶解度(相分离、萃取),预测沉淀的形成(过滤),或何时加热或冷却反应混合物(吸热或放热反应)。
图1:数据集生成和Smiles2Actions模型概述(左)获取专利中可用的反应记录信息并进行处理和筛选得到数据集。(右)Smiles2Actions模型在数据集上进行训练,然后执行预测任意化学方程式的操作顺序。
2.方法
预测任务作者将推断实验步骤的任务定义为从化学方程式开始预测操作步骤。预测任务与单步反应的步骤有关,如果是多步合成,则是对每个单步反应分别进行实验步骤的预测。而且,预测任务开始阶段不区分输入的化学方程式中的反应物和试剂,化学方程式只由一组反应前体(反应物+试剂)和一组产物分子组成(图2)。在不丢失一般性的情况下,研究人员将化学方程式以SMILES格式描述为相对应转换的整个集合的分子的文本(图3),然后进一步处理得到一系列的合成操作(图4)。此外,模型生成的合成操作都遵循Vucher等人描述的格式并且均包含一个具有相关特性的特定操作的类型。为进一步提升模型性能,研究者一方面限制了两种属性的允许值(操作顺序中的化合物名称的规范和适当的温度、持续时间的范围)。另一方面重视化学转化的质量标度,研究者通过删除操作顺序中化合物的数量,得到了在不同质量标度上的平均最佳过程。
图2:缩合反应的示例
反应式的左侧为可识别的所有前体分子(包括起试剂或溶剂作用的分子),例:前两个实体:N,N’- 二环己基碳二亚胺和二氯甲烷。反应式右侧为产物分子。
图3:图2缩合反应的SMILES表示
图4:图2化学方程式的可能的操作序列

符号$1$、$2$、$3$和$4$指的化学方程式中存在的化合物。@3@指的是持续时间范围。#4#指的是温度范围。

数据

作者从头构建了一个包含化学方程式和相关实验步骤的化学反应步骤数据集。该数据集由Pistachio数据库多个连续步骤生成(Pistachio数据库包含在专利所公布的8,377,878条反应记录,每条记录都包括反应式的SMILES、实验步骤和分子SMILES与化合物名称的映射)。作者删除没有实验过程的文本和重复的反应记录后,使用Paragraph2Actions提取了剩余的3,464,664个反应记录对应的操作顺序,然后进行规范操作的表示、添加隐式操作以及用预定义的间隔的标记替换温度、持续时间和pH值等后处理操作步骤来获取高质量的适合的数据集。

模型Nearest-neighbor model(最近邻模型) 。最近邻模型依赖于用反应指纹识别训练集和测试集的相关反应,提供根据分子数目相近的化学方程式改编来的实验操作步骤。Transformer model。Transformer采用encoder-decoder的架构,然后将预测步骤任务表述为从Smiles到操作顺序的转换,然后通过最小化输出字符的分类交叉熵损失值进行训练。

bidirectional and auto-regressive transformer model (BART)模型

模型评估模型的评价指标为以下6种:有效性(衡量预测的操作顺序句法的正确性)、BLEU分数(衡量两个SMILES之间的相似度)、100%准确率(所有操作顺序在基准顺序和预测中(包括相关特性)相同的顺序的占比)、90%准确率、75准确率、50%准确率(分别是归一化Levenshtein相似度为90%、75%、50%或更高的预测操作顺序与基准顺序相同的占比)。
3.结果
数据表1显示了作者为构建数据集进行的一系列数据筛选的过程及其相对应的反应记录,最终得到具有代表性的693,517条反应记录。
表1:数据集生成过程的筛选反应记录
表2:对合成操作的预测的评估
模型比较研究人员在Nearest-neighbor、Transformer、Bart模型上训练获取的化学反应操作顺序的数据集,然后以有效性、100%准确率作为衡量标准进行评估和比较。对比发现(表2),这三个模型不仅具有相似的预测性能,而且均优于Random baseline模型,也证明了它们都可以学到典型的化学反应模式。
图5:预测的操作顺序的数量分布A.不同模型的预测操作顺序长度的比较。B.不同准确率的条件下对预测的操作顺序的长度的比较。
图5(a)显示了不同(非随机)模型预测的操作数量的分布。Nearest-neighbor model模型预测的操作数量与基准操作的分布密切相关。Transformer模型偏向于操作顺序数量较少的预测,而BART模型偏向于操作步骤数量中等的预测。Transformer和BART模型对包含15个或更多的操作步骤的预测均较少。图5(b)显示了使用Transformer以100%、75%和50%的准确率预测的操作顺序的长度的分布。正确的(100%)的预测结果包含了与完整数据集相似的操作顺序的长度范围,而且不限于较少的操作顺序。虽然在所有的模型中,预测结果与基准操作100%匹配的化学方程式占比在10%以下,但这不代表模型的性能很差。例如基础数据集中的噪声以及数据集中的错误都可能会导致其准确率匹配低,因而图5(a)中操作顺序的数量分布的差异不是作为判断比较深度学习模型与Nearest-neighbor模型好坏的有效论据。因为在预测实验步骤方面,相比于Nearest-neighbor模型,深度学习模型取决于学习表征而不是训练集中数据点的相似性,而且Transformer模型的性能通常优于BART模型,所以作者对Transformer模型的预测做了进一步讨论。结果显示(表3),有3.6%的是精准匹配的,0.9%为操作顺序之间的差异,大约有18.8%的差异为预测顺序或基准操作顺序中缺失了一个实验操作。剩余的57.0%则是多种差异类型的组合。

表3:预测结果与标准答案对比差异的分类
表4显示了研究者对一组包含500个反应的基准操作和transformer模型预测的操作顺序进行了人工评估。研究者以随机顺序向化学家展示化学反应图、标准的操作过程以及预测反应操作顺序,结果显示模型预测的操作顺序有50%以上可在无人工干预的条件下执行,40%的预测的操作不能实现。人工分析结果还显示通过模型预测出的不完整的操作顺序少于基准操作顺序,也就是说,研究人员可以通过提升基准操作的质量来提高模型的预测性能。

表4:操作顺序的人工评估结果
4.结论
对于化学家来说,化学步骤等同于计算机程序:以人类可读的格式指定一系列指令,然后明确地执行关于化学实验的操作编码,这些操作既可以由操作员人工执行,也可以由自动化硬件执行。因此,作者将Smiles2Actions模型看作为化学合成来编写代码,借助人工智能技术推断实验步骤将减少传统实验室中的试错量。
通过与自动化系统结合,这项技术可以为仅从化学方程式开始的全自动合成奠定基础。在模型给出预测的实验操作顺序后,实际合成之前总是需要验证其安全性,但人工智能很快就会达到这样的水平,即在不需要人工干预的情况下,预测的实验步骤也是可用于生产的,并可直接用于在实验室条件下驱动自动化硬件或减少传统实验室中的试错量。

参考资料Alain C. Vaucher, Philippe Schwaller, Joppe Geluykens, Vishnu H. Nair, Anna Iuliano,Teodoro Laino, Inferring experimental procedures from text-based representations of chemical reaction, Nat. Commun.2021,12,2573, https://doi.org/10.1038/s41467-021-22951-1
----------- End -----------


感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或姓名-学校-职务/研究方向





历史文章推荐    


浙江工业大学智能制药研究院段宏亮教授:AI制药的现状、技术与挑战
基于AI的连续流反馈系统加速化学反应开发
使用数据驱动的分子连续表示进行自动化学设计
图卷积神经网络用于解决小规模反应预测
数据增强和迁移学习策略解决小数据集化学反应预测问题
进入临床试验的AI设计的药物 汇总V1.0
AI药物研发公司Exscientia的理念、技术与特点
Nature:如何使用AI分析真实世界数据,简化肿瘤临床试验入组标准
AI药物研发公司Insilico Medicine的理念、技术与特点
2020年AI + 药物研发全景概述:(二) AI如何应对制药行业的效率挑战

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存