CHEM SCI|在不对称催化中,用AI优化溶剂的选择
当用25种溶剂的初始数据作为训练集时,该模型就可以识别出较好的溶剂。在确定最佳溶剂后,使用黑箱贝叶斯优化法确定溶剂混合物的组成和最佳反应温度。并演示了一种新的遗传编程方法,为特定的物理系统选择合适的机器学习模型,允许将整个开发工作流的过程过渡到未来机器人实验室。
1.研究背景
以往化学家都是依靠直觉和过去的经验来控制反应条件和选择溶剂,最多利用实验设计(DoE)方法加快反应进程,基于贝叶斯优化的DoE也是最近才出现。但这种方法适用于连续变量(如温度,时间等),不适用于离散变量(如催化剂、底物或溶剂的选择),然而这些变量在大多数反应优化研究中起着至关重要的作用。
最近,有研究在自优化框架中考虑了离散变量,但没有与物理实验结合起来。解决这个问题的一个有效方法是使用分子描述符,引入物理意义上的连续变量,将离散变量连接起来。
在本研究中,溶剂描述符被纳入反应自优化范式中,以创建预测性替代模型,来优化反应溶剂的选择。
使用分子描述符对溶剂图进行参数化,从而扩展了传统的阶乘DoE方法。在本研究中,作者采用主成分分析(PCA)法,用于从机器学习代理模型的大维描述符空间中提取特征或有意义的输入变量。
化学知识向机器学习领域和过程领域的流动和转换如图1所示。从459个候选溶剂库开始,然后从属性数据库中获取物理知识,并通过分子模拟得到17个分子描述符。物理知识向机器学习领域的转换是通过降维实现的,降维为高斯过程机器学习模型提供了特征,然后用于实验室和分析。
图1:化学知识向机器学习领域和过程领域的工作流程和转换
在研究中,作者探索了屏蔽电荷密度剖面。这些信息丰富的“σ- profile”,即筛选的直方图分子表面的电荷密度,被转化为每个溶剂的数值描述符,每个定义不同段,见图2。
图2:四种溶剂的筛选电荷密度分布
2.材料和方法
2.1 实验
在氩气中进行,使用10ml玻璃反应瓶,将手套箱置于不锈钢筛选高压灭菌器中。称量底物、催化剂前体和配体并将其装入反应器中,随后加入溶剂和磁搅拌器。高压灭菌器密封并用氢气吹扫三次,然后缓慢加压至10并加热至70℃。搅拌速度为1000,材料装载量为0.1M ,1%乙酰丙酮二羰基铑和1.2%的配体。所有实验的反应时间均为17小时,实验重复了两三次。
2.2 实验分子描述符
对于库中的每种溶剂,作者创建了一组17个分子描述符。这些数据的来源取自文献,或在COSMOtherm中计算得出。
2.3 机器学习算法
采用汤普森采样高效多目标优化(TS-EMO)算法,该算法的一个主要优点是它能够独立地处理多个目标,当根据初始实验数据进行训练时,TS-EMO为每个目标建立高斯过程(GP)替代模型。TS-EMO使用汤普森抽样从该模型中取样,以求得近似帕累托最优解集,然后识别统计替代模型中最大化超体积的点。
表1概述了本研究中考虑的六种模型。模型1-3用于DoE,将模型4-6与模型3进行比较,以研究在使用较少化学信息时模型的稳健性。
表1:使用58个溶剂数据比较不同的GP替代模型的转化率。Ti=1-4=主成分,从17个描述符依次减少。q2是指交叉验证的相关系数
3.结果
3.1 σ- profile作为溶剂分子描述符(模型1和2)
初始筛选不同类别的溶剂,由经验丰富的合成化学家根据先前知识选择,见图3。结果显示,转换的范围很广,该组中只有一种溶剂的转化率高于90%,并且没有任何溶剂位于帕累托前沿的近似值上(在一个目标中无法改善,在另一个目标中就不会恶化)。当使用模型1输入描述符对该数据进行训练时,该算法建议的下一种溶剂是二丁胺、辛酸甲酯、桉叶醇和乙酸乙酯。从实验中得出前三种溶剂的反应转化率超过90%。
图3:不同类别溶剂的初步筛选结果
3.2 基于PCA的溶剂分子描述符(模型3-6)
采用主成分分析(PCA)方法进行降维,并对结果进行分析,四个主成分用作TS-EMO(模型4)的输入。表2中模型3的括号中所示的基本描述符表明了由相关分析确定的每个主成分大致描述的属性。
表2:使用不同的模型替代模型超参数。GP1用于转换,GP2用于参数化协方差矩阵的长度尺度(自动相关性确定)。大多数有影响的变量以粗体显示。超参数将在每个模型内的变量之间进行比较,而不是在不同的模型之间进行比较
3.3 使用描述符和分类自动化机器学习管道
最近,一些自动机器学习策略已经被开发出来。基于树的管道优化工具(TPOT),一种基于遗传编程的方法。典型的机器学习算法可以用管道构建,如图4所示。在每个步骤中,都有各种可能的选择,例如如何预处理数据、选择什么机器学习模型以及使用什么超参数,对给定的问题调整管道优化领域,结合硅建模来放大数据,导航描述符空间,并优化溶剂。TPOT选择一些新的溶剂,并对其进行实验测试,以提高准确度。通过重新训练GP代理模型来重新编辑数据。重复此循环,直到找到最佳溶剂。
图4:机器学习流水线工作流程示意图
4.讨论
综上所述,作者开发了一种新的基于混合机械学习选择溶剂的方法。这将有物理意义的溶剂描述符与基于高斯过程的算法相结合,从而实现了快速识别不对称氢化反应中最佳溶剂,在转化率和非对映体过量方面优于人类直觉选择的溶剂。筛分电荷密度是一个信息丰富的溶剂描述符,用于转化,尤其是非对映体过量。与仅基于筛选电荷密度的模型相比,使用17个物理化学描述符的降维集可以产生更好的转换模型(交叉验证相关系数分别为0.84和0.76)。超过15种转化率>90%的溶剂受算法启发,而人类专家建议的训练集中只有一种这样的溶剂。使用黑盒优化,设计出一套最佳操作条件,并成功探索了使用混合溶剂以达到纯溶剂无法达到的实验空间范围。此外,自动化的机器学习工作流成功地用于解决溶剂选择问题。然而,这种方法需要大量数据,并辅以统计预测替代模型。
参考资料
DOI: 10.1039/C9SC01844A(Edge Article)Chem. Sci., 2019, 10, 6697-6706
----------- End -----------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或姓名-学校-职务/研究方向。
浙江工业大学智能制药研究院段宏亮教授:AI制药的现状、技术与挑战
JCIM|基于三维结构嵌入图表示的新型图形神经网络,预测药物-靶点相互作用
BIB|Mol2Context-vec:从情境感知中学习分子表征用于药物发现
BRIEF BIOINFORM|基于BAN的策略,来改善基于SMILES字符串的分子表征学习
JCIM|结合AI与Docking的基于结构的分子从头生成模型
JCIM|XGraphBoost:基于图神经网络提取特征的一种更好的分子特性预测模型
CHEM SCI|基于约束贝叶斯优化,采用变分自编码器进行自动化学设计
Nat Commun|增强的用于直接合成和单步逆合成的NLP的Transfermer模型
Nat Commun|AI结合基因表达特征,从头生成类苗头化合物CHEM SCI|分子Transformer模型预测酶促反应
Transformer-CNN:用于 QSAR 建模和解释的先进工具
基于文本表示推断化学反应的实验步骤
基于AI的连续流反馈系统加速化学反应开发
使用数据驱动的分子连续表示进行自动化学设计
图卷积神经网络用于解决小规模反应预测
数据增强和迁移学习策略解决小数据集化学反应预测问题
Drug Discov Today|药物研发风险地图