清华大学罗三中教授团队《Angew. Chem. Int. Ed.》:在机器学习精准预测化合物pKa研究方向取得突破性进展
酸解离常数(pKa)是最重要的有机化学基础数据之一,是衡量化合物解离氢质子能力的热力学标度,其在合成化学、生物化学、药物化学、精细化工等诸多领域均有重要应用。虽然目前已有近两万个化合物的35000个pKa实验数据被报道(iBond数据库统计),但受限于化合物稳定性、溶解性等多方面限制,众多重要化合物的pKa数据仍然缺失,并且目前大部分pKa测定是在水相进行的,对于合成化学及精细化工极其重要的有机溶剂中pKa数据极其匮乏。因此,开发化合物水相以及有机相pKa数据的精确预测方法是当前工业和学术界都广泛关注的热点问题。最近,清华大学化学系基础分子科学中心的罗三中教授研究团队依托ibond数据库丰富全面的pKa数据,采用机器学习策略开发了pKa全局预测模型(图1),为快速获得可靠的pKa数据提供了解决方案。
图1 pKa全局预测模型构筑流程
iBond数据库是由清华大学程津培院士领衔创建的全球最权威的键能数据库,其收集了文献报道的两万余种化合物的约三万五千个准确pKa数据。研究团队对iBond数据库中已有数据进行了系统整理标记,形成了种类丰富、溶剂分布广泛、数据分布合理的数据集。在自此基础上,团队引入了结合化合物结构特征和物理化学性质的SPOC描述符对化合物进行精确描述,并采用当前流行的XGBoost和神经网络算法构建了高精度预测模型。该预测模型可以实现不同溶剂中化合物pKa的同时预测,并能够对包括O-H、N-H、C-H在内的各种不同酸性氢进行准确的pKa预测,精度可达到0.87pK单位。团队分别选择了若干药物分子和小分子催化剂对水相及有机相的预测能力进行了测试,研究表明对药物分子的水相pKa预测的平均误差可低至0.44,对有机小分子有机相pKa预测的平均误差则在1pK单位左右。
图2 单溶剂模型(SSM)与多溶剂模型(HM)对比结果
图3 药物分子pKa预测结果
该成果以“基于机器学习方法的不同溶剂中pKa的全局预测”(Holistic Prediction of pKa in Diverse Solvents Based on Machine Learning Approach)为题发表在国际著名期刊《德国应用化学》上,论文第一作者为杨骐博士,通讯作者为清华大学化学系罗三中教授和张龙副研究员。同时论文成果以网站形式开放给学术界使用(http://pka.luoszgroup.com)。
图4. pKa预测网站
论文链接:
https://doi.org/10.1002/anie.202008528
来源:清华大学
相关资讯
清华大学程津培院士课题组:键能方法学创新与当代有机化学的理性发展
免责声明:部分资料来源于网络,转载的目的在于传递更多信息及分享,并不意味着赞同其观点或证实其真实性,也不构成其他建议。仅提供交流平台,不为其版权负责。如涉及侵权,请联系我们及时修改或删除。邮箱:info@polymer.cn
诚邀投稿
欢迎专家学者提供稿件(论文、项目介绍、新技术、学术交流、单位新闻、参会信息、招聘招生等)至info@polymer.cn,并请注明详细联系信息。高分子科技®会及时推送,并同时发布在中国聚合物网上。
欢迎加入微信群 为满足高分子产学研各界同仁的要求,陆续开通了包括高分子专家学者群在内的几十个专项交流群,也包括高分子产业技术、企业家、博士、研究生、媒体期刊会展协会等群,全覆盖高分子产业或领域。目前汇聚了国内外高校科研院所及企业研发中心的上万名顶尖的专家学者、技术人员及企业家。
申请入群,请先加审核微信号PolymerChina (或长按下方二维码),并请一定注明:高分子+姓名+单位+职称(或学位)+领域(或行业),否则不予受理,资格经过审核后入相关专业群。
点
这里“阅读原文”,查看更多