北京大学潘锋教授:在基于拓扑数学与机器学习研究材料结构规律上取得进展
点击蓝字关注我们
机器学习在各领域的广泛应用促生其在材料领域的应用,它提供了一种新型的工具,即能从高维数据中发现数据间的规律,有助于减少计算量从而加速对新材料的探索。特征提取(特征工程)是机器学习的关键组成部分,选择合适的形式来表达将直接影响最终模型的效果。在材料科学领域必须要捕获所有的相关信息,从而达到区分不同原子和不同晶体环境的作用。因此在材料领域中,特征可以是简单的确定原子序数,可能涉及复杂的转换,比如径向分布函数(RDFs)的扩展,也可能是聚合统计数据(例如求平均值、求最大值等)。
在数学中,拓扑可以用来处理空间中不同组件的连通性,并表征空间中独立的实体,环和高维拓扑面。拓扑提供了最高级别的抽象因此可以作为一种处理高维结构数据的有效工具。其中,拓扑数学的持续同调(persistent homology)通过将多尺度几何信息嵌入拓扑不变量从而将几何分析和拓扑分析连接起来,它是一种在变化的尺度中分析拓扑结构的重要方法。其基本思想是随着原子尺度的变化记录结构的拓扑不变量(例如β0、β1 和β2),从而得到拓扑指纹(如图1所示)。
图1 类苯环结构的拓扑指纹示意图及碳硼烷结构的预测
在此过程中,利用持续时间较长的拓扑特征来表征系统的内在特性,通过预先设定的阈值进行过滤。在三维空间中,独立组成、环和腔是非常重要的拓扑特征。具有一定连接关系的结构会产生内在不变的拓扑特征。持续同调可以记录原子尺寸变化过程中,系统拓扑不变量的开始和结束,通过条形码(barcode)可以进一步将其可视化,也称为拓扑指纹。
北京大学深圳研究生院新材料学院潘锋教授课题组与美国密歇根州立大学数学系魏国卫教授课题组合作,首次将以持续同调为基础的数学方法引入材料科学中,利用持久同源将高维空间中的材料结构映射到低维拓扑空间,从而更方便地研究结构与性能之间的关系。研究团队将持续同调方法引入碳硼烷体系的分析,通过对这些结构的拓扑指纹的分析,建立起基于拓扑不变量及其持久长度的模型。他们利用拓扑不变量(β0、β1和β2)定量分析和预测了碳硼烷结构及其对应BnHn2-的相对能量。通过利用拓扑不变量(β0、β1和β2)的平局长度特征,可以将该拓扑信息与BnHn2- (n = 5~20)的相对能量进行精确拟合,Pearson相关系数为0.977,而相应的碳硼烷结构C2Bn - 2Hn (n = 5~20)的Pearson相关系数为0.937,如图1。该工作以令人满意的精度证明了持续同调方法应用于多原子体系的可行性,提供了一种新型的团簇结构描述符(Chinese J. Struct. Chem.2020, 39(6), 999-1008)。在未来的工作中,研究团队将利用更有效的机器学习方法,根据持续同源得到的拓扑信息,建立结构与性质之间的关系,实现更大原子数量的碳硼烷结构的预测。
同时,团队在锂团簇能量预测方面,除了使用拓扑不变量来提取团簇结构的拓扑几何信息,对于原子间的短程作用和长程作用等数据信息,还进一步提出了持续独立原子对(PPI)来计算“生长”过程中每对原子(或点)的独立性。最初,所有的原子都是不相连的,PPI条的数目等于独立原子对的数目。随着生长ϵ参数的变大,一些原子对连接起来,它们的PPI合并。他们提出的PPI条码比β0更具信息量。如图2所示,其可以与拓扑不变量一起用于描述材料结构。基于提取的拓扑特征,研究团队构建团簇能量预测机器学习模型。最终,他们仅仅利用小型团簇结构构成的数据集来训练所得的模型,即可对中型和大型团簇形成非常高的预测精度。该模型可用于团簇结构的快速筛选,加快最稳定团簇结构搜索的速度。相关成果发表在隶属Nature Index的知名杂志The journal of physical chemistry letters(2020, 11, 4392)上。
图2 基于持续同调与持续独立原子对的锂团簇能量预测
在无机材料的能量预测方面,由于持续同调仅提供全局的拓扑结构信息,对于无机化合物包含大量不同元素和不同结构的体系没法直接使用。因此,团队提出了原子特殊的持续同调(ASPH),它考虑的是晶胞中每个原子周围不同环境构成的持续同调,在拓扑不变量中嵌入原子信息。基于ASPH方法表达的结晶化合物拓扑特征可以构建晶体能量预测模型,使用拓扑表达的结构特征配合元素特征可以实现MAE仅为61 meV/atom的结果(图3)。此外,基于预测结果,团队还对预测偏差较大的结构进行了详细的讨论与分析,发现了异常通常存在于特殊的氧化态与畸变的结构之中,增加了此类异常的认识与理解。相关成果最近发表在Nature集团旗下的知名杂志npj Computational Materials(2021,7, 1-8)上。
拓扑数学是一个强大的工具,可以通过变化的尺度定性分析数据结构,借助机器学习方法,便可以构造有高精度的材料预测机器学习模型,用于团簇结构分析、团簇结构搜索以及晶体结构能量预测等诸多材料结构规律的科学研究中,有助于加速材料的发现与应用。
该工作由潘锋和魏国卫共同指导,第一作者分别是北京大学深圳研究生院新材料学院研究生陈冬、陈鑫和江毅,他们与团队成员协作共同完成这项研究。该工作得到国家材料基因组重点研发计划和深圳市科技计划项目的大力支持。原文链接
https://doi.org/10.1021/acs.jpclett.0c00974
相关进展
北京大学潘锋教授AEM:在构建材料知识图谱研究方面取得进展
北京大学潘锋教授与中科院物理所李泓研究员等合作Joule:在富锂锰基正极材料的阴离子氧化还原机理研究方面取得进展
北京大学潘锋教授、孙俊良研究员Nat. Nanotechnol.:用3D电子衍射揭示高电压钴酸锂机理
北京大学潘锋教授Nat. Energy:在锂电池无钴层状正极材料取得重大进展
北京大学潘锋教授Nat. Sustain.:基于材料基因大数据研发的“未名材料解析系统”投入应用服务
免责声明:部分资料来源于网络,转载的目的在于传递更多信息及分享,并不意味着赞同其观点或证实其真实性,也不构成其他建议。仅提供交流平台,不为其版权负责。如涉及侵权,请联系我们及时修改或删除。邮箱:chen@chemshow.cn
扫二维码|关注我们
微信号 : Chem-MSE
欢迎专家学者提供化学化工、材料科学与工程产学研方面的稿件至chen@chemshow.cn,并请注明详细联系信息。化学与材料科学®会及时选用推送。