查看原文
其他

《自然通讯》:科研新风口—机器学习,助力计算新发展

唯理计算 科学指南针一模拟计算联盟 2022-07-09

分子模拟提供了超越直接实验测量的化学过程的深刻见解,为加速分子和材料的发现带来了重大希望。在本文集中,编辑重点介绍了最近发表在《自然通讯》杂志上的一些计算研究,包括计算化学方法的进展、材料建模的应用,以及可转移到新的化学过程和系统的机器学习模型的进展。
作为时下最热门的新兴的研究领域,机器学习可谓是无孔不入,它已经渗透到今天人类几乎所有的理工科的学科之中,它的渗透速度令人咂舌。前期,咱们公众号之前也介绍过一些机器学习在计算化学领域中的发展,原本以为只是个别现象,现在看来那仅仅是个开始,机器学习与计算化学可谓是相互成就,互惠互利



今天,我们就一起来回顾一下机器学习在计算化学中的最新进展

确定机器学习模型在材料科学中的适用性领域




尽管机器学习(ML)模型有望大大加快新材料的发现,但它们的性能往往还不足以得出可靠的结论。因此,改进的ML模型得到了积极的研究,但目前主要通过监测模型的平均测试误差来指导其设计。这可能使不同的模型无法区分,尽管它们的性能在不同的材料之间有很大的差异,或者它可能使一个模型看起来通常不够充分,而实际上它在特定的子领域中工作得很好。在此,来自澳大利亚莫纳什大学的Mario Boley和德国马普学会弗里茨哈伯研究所的Christopher Sutton&Luca M. Ghiringhelli等研究者,结合红外光谱和多体分子动力学模拟,提出了一种基于子组发现的方法用于检测材料类中模型的可应用性域。这种方法的效用是通过分析三种最先进的ML模型,来预测透明导电氧化物的形成能。研究发现,尽管平均误差互不区分且不令人满意,但模型具有独特的特点,并显著提高了性能。


参考文献:Sutton, C., Boley, M., Ghiringhelli, L.M. et al. Identifying domains of applicability of machine learning models for materials science. Nat Commun 11, 4428 (2020). https://doi.org/10.1038/s41467-020-17112-9

原文链接:

https://www.nature.com/articles/s41467-020-17112-9#citeas



了解金属-有机框架生态系统的多样性




通过结合金属节点和有机连接子,可以生成数百万种不同的金属-有机框架(MOFs)。是十分必要的。目前全世界已经合成了9万多个MOFs,预计未来将合成50多万个MOFs。这就引出了一个问题,一个新的实验或预测的结构,是否增加了新的信息。对于MOF化学家来说,化学设计空间是孔隙几何形状、金属节点、有机连接物和官能团的组合,但目前研究者还没有一个形式来量化化学设计空间的最佳覆盖范围。在此,来自瑞士洛桑联邦理工学院的Berend Smit和美国麻省理工学院的 Heather J. Kulik等人,开发了一种机器学习方法来量化MOFs的相似性以分析其化学多样性。这种多样性分析确定了数据库中的偏差,研究者证明了这种偏差会导致错误的结论。本研究中发展出来的形式主义提供了一个简单而实用的指导方针,来观察新结构是否会有新的见解,或构成现有结构的一个相对较小的变化。


参考文献:Moosavi, S.M., Nandy, A., Jablonka, K.M. et al. Understanding the diversity of the metal-organic framework ecosystem. Nat Commun 11, 4068 (2020). https://doi.org/10.1038/s41467-020-17755-8

原文链接:

https://www.nature.cm/articles/s41467-020-17755-8#citeas



从实验过程中自动提取化学合成动作




化学合成的实验程序通常在散文、专利或科学文献中被报道。化学合成的实验程序,通常在散文、专利或科学文献中被报道。在此,来自瑞士IBM欧洲研究所的Alain C. Vaucher等人,提出了一种方法,将文编写的非结构化实验程序转换为结构化合成步骤(动作序列),成功地反映了进行相应化学反应所需的所有操作。为此,研究者设计了一套具有预定义属性的综合动作和基于transformer架构的深度学习序列到序列模型,将实验过程转换为动作序列。该模型是在大量数据上进行预训练的,这些数据是用基于自定义规则的自然语言处理方法自动生成的,并在手工标注的样本上进行细化。研究者测试集的预测结果是,60.8%的句子,90%的句子,和82.4%的句子,动作序列的完美(100%)匹配。


参考文献:Vaucher, A.C., Zipoli, F., Geluykens, J. et al. Automated extraction of chemical synthesis actions from experimental procedures. Nat Commun 11, 3601 (2020). https://doi.org/10.1038/s41467-020-17266-6原文链接:https://www.nature.com/articles/s41467-020-17266-6#citeas


机器学习精确交换和相关的电子密度泛函




密度泛函理论(DFT)是在原子尺度上研究物质电子结构的标准形式。在Kohn-Sham DFT仿真中,精度和计算量之间的平衡取决于交换函数和相关函数的选择,而交换函数和相关函数仅以近似形式存在。在此,来自美国石溪大学的Sebastian Dick & Marivi Fernandez-Serra等人,提出了一个使用监督机器学习创建密度函数的框架,称为NeuralXC。这些机器学习泛函的设计目的是提高基准泛函的精确度,使之接近更精确的方法所提供的精确度,同时保持其效率。研究者证明了泛函学习了包含在训练数据中的物理信息的有意义的表示,使它们可以跨系统转移。一种为水优化的NeuralXC功能优于其他方法的特征键断裂,并优于实验结果。这项工作证明,NeuralXC是迈向设计一个通用的,高度准确的功能有效的分子和固体的第一步。


参考文献:Dick, S., Fernandez-Serra, M. Machine learning accurate exchange and correlation functionals of the electronic density. Nat Commun 11, 3509 (2020). https://doi.org/10.1038/s41467-020-17265-7原文链接:https://www.nature.com/articles/s41467-020-17265-7#citeas


具有持久同源性的分子结构表示法在化学机器学习中的应用



机器学习和高通量计算筛选,已经成为在加速第一性原理筛选,发现下一代功能化分子和材料的宝贵工具。在化学应用中使用机器学习需要将分子结构转换为机器可读的格式,即分子表示法。这种表示的选择影响了化学机器学习方法的性能和结果。在此,来自美国田纳西大学的Vasileios Maroulas & Konstantinos D. Vogiatzis等人,提出了一种新的简洁的分子表示法,该表示法由数学的一个应用分支持久同源性推导而来。研究者证明了,它在一个包含超过133,000个有机分子的大型分子数据库(GDB-9)的高通量计算筛选中的适用性。研究者的目标是识别选择性地与二氧化碳相互作用的新分子。本文介绍了新的分子指纹识别的方法和性能,并利用新的化学驱动持久性图像表示方法对GDB-9数据库进行了筛选,提出了性能增强的分子和/或官能团。


参考文献:Townsend, J., Micucci, C.P., Hymel, J.H. et al. Representation of molecular structures with persistent homology for machine learning applications in chemistry. Nat Commun 11, 3230 (2020). https://doi.org/10.1038/s41467-020-17035-5原文链接:https://www.nature.com/articles/s41467-020-17035-5#citeas

未完待续
关于机器学习在计算化学中的最新进展,本期还没有介绍完毕
有兴趣阅读的小伙伴,请持续关注我们哦~




唯理计算小福利

针对模拟计算我们有专门的沟通群,想进群的小伙伴加微信


17812574221


备注:模拟计算进群

群里可以和老师一起探讨问题,老师也会帮助解答问题的哦~


推荐阅读:

避坑指南:想通过基态性质预测反应性,这些事项要注意           

高新的材料,搭配简单的计算—稀土与计算在2020年的那些事儿

文章要发表,但是这个事情不知道?小心进入黑名单!

模型不会,线性不懂,Abaqus带你逆袭,你与工程大佬只差“一堂课”
《自然通讯》解读:只需几分钟,读懂材料建模应用的最新进展         


END


 你“在看”我吗

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存