其他
基于文本表示推断化学反应的实验步骤
符号$1$、$2$、$3$和$4$指的化学方程式中存在的化合物。@3@指的是持续时间范围。#4#指的是温度范围。
作者从头构建了一个包含化学方程式和相关实验步骤的化学反应步骤数据集。该数据集由Pistachio数据库多个连续步骤生成(Pistachio数据库包含在专利所公布的8,377,878条反应记录,每条记录都包括反应式的SMILES、实验步骤和分子SMILES与化合物名称的映射)。作者删除没有实验过程的文本和重复的反应记录后,使用Paragraph2Actions提取了剩余的3,464,664个反应记录对应的操作顺序,然后进行规范操作的表示、添加隐式操作以及用预定义的间隔的标记替换温度、持续时间和pH值等后处理操作步骤来获取高质量的适合的数据集。
模型Nearest-neighbor model(最近邻模型) 。最近邻模型依赖于用反应指纹识别训练集和测试集的相关反应,提供根据分子数目相近的化学方程式改编来的实验操作步骤。Transformer model。Transformer采用encoder-decoder的架构,然后将预测步骤任务表述为从Smiles到操作顺序的转换,然后通过最小化输出字符的分类交叉熵损失值进行训练。bidirectional and auto-regressive transformer model (BART)模型。
模型评估模型的评价指标为以下6种:有效性(衡量预测的操作顺序句法的正确性)、BLEU分数(衡量两个SMILES之间的相似度)、100%准确率(所有操作顺序在基准顺序和预测中(包括相关特性)相同的顺序的占比)、90%准确率、75准确率、50%准确率(分别是归一化Levenshtein相似度为90%、75%、50%或更高的预测操作顺序与基准顺序相同的占比)。通过与自动化系统结合,这项技术可以为仅从化学方程式开始的全自动合成奠定基础。在模型给出预测的实验操作顺序后,实际合成之前总是需要验证其安全性,但人工智能很快就会达到这样的水平,即在不需要人工干预的情况下,预测的实验步骤也是可用于生产的,并可直接用于在实验室条件下驱动自动化硬件或减少传统实验室中的试错量。
----------- End -----------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或姓名-学校-职务/研究方向。
浙江工业大学智能制药研究院段宏亮教授:AI制药的现状、技术与挑战
基于AI的连续流反馈系统加速化学反应开发
使用数据驱动的分子连续表示进行自动化学设计
图卷积神经网络用于解决小规模反应预测
数据增强和迁移学习策略解决小数据集化学反应预测问题
进入临床试验的AI设计的药物 汇总V1.0
AI药物研发公司Exscientia的理念、技术与特点
Nature:如何使用AI分析真实世界数据,简化肿瘤临床试验入组标准
AI药物研发公司Insilico Medicine的理念、技术与特点
2020年AI + 药物研发全景概述:(二) AI如何应对制药行业的效率挑战