计算化学中的机器学习
计算化学主要以电子结构理论和分子模拟为工具来计算和预测各类化学反应的静态特征和动态行为, 为实验化学提供了强有力的理论支撑和科学指导. 随着计算数据的积累和计算资源的丰富, 机器学习在计算化学领域也取得了一系列突破, 得到人们的广泛关注. 机器学习是一门从已有的数据中学习规律, 再利用获得的规律对未知数据进行预测的科学. 对于计算化学而言, 机器学习能够将真实化学问题中不能用现有理论模型精确解释的部分完全数值化, 对从抽象物理规律到复杂化学过程之间的潜在关系进行推断, 从而显著地拓展了计算化学的应用范围, 有望解决现有计算方法精度与效率无法兼顾的难题. 北京师范大学申林课题组主要针对计算化学的三个核心问题: 如何准确高效地构建反应体系的势能面, 如何通过微观尺度的模拟预测体系的宏观性质, 如何根据结构–性能关系实现对分子特别是功能材料的理论设计, 对计算化学中的机器学习方法及其应用进行评述.
机器学习在计算化学领域的进一步突破有赖于数据“质”与“量”的不断提升. 具体包括以下四点: 第一, 在计算化学中经常出现样本量很少的情形, 亟需在实践中发展并不断完善适用于小样本的机器学习方法. 第二, 机器学习能够帮助计算化学更高效地探索未知的化学空间和构型空间, 但如何在这一过程中评估机器学习模型的可靠性, 实现“即时学习”, 还需要着眼于机器学习的理论和算法, 开展深入研究. 第三, 机器学习的能力上限取决于数据本身的质量, 而计算化学的数据集分布比较零散, 缺乏对误差来源和不确定性的评估, 一些急需的数据库尚未建立, 能够满足机器学习要求的数据体系标准还在摸索中. 第四, 机器学习模型本身并无物理意义, 而化学体系必须服从物理学的基本规律; 这就需要通过设计有约束条件的机器学习算法, 将这些规律嵌构到数值模型中, 机器学习才能真正成为可靠且实用的计算化学工具.
图1 计算化学中的机器学习
该文将收录于《中国科学:化学》2022年第6期庆祝“北京师范大学建校120周年暨化学学科创立110周年专刊”,点击下方链接或“阅读原文”可读全文:
申林*, 贾璐阳, 汤典东, 张战运, 彭鼎. 计算化学中的机器学习. 中国科学 : 化学, 2022, doi:10.1360/SSC-2022-0022