南开大学周震教授:机器学习加速材料开发
随着现代社会的发展,全球范围内对能源的需求变得越来越重要。因此,迫切需要开发用于可再生能源技术的新材料。传统的方法由于实验周期长、成本高,难以满足材料科学的要求。机器学习(Machine Learning,ML)作为一种全新的材料发现研究范式正在兴起。在此,南开大学材料科学与工程学院周震教授课题组在Wiley旗下旗舰期刊InfoMat上发表综述性文章,题目是“Machine learning: Accelerating materials development for energy storage and conversion”。文章简要介绍了ML的基本过程和材料科学中常用算法,重点介绍了ML在催化、电池、太阳能电池和气体捕获等能源领域的性能预测和材料开发中的最新进展。此外,也涉及到ML对实验的贡献。期待着这一综述能够为材料科学领域未来ML的发展指明方向。张旭博士为共同通讯作者。
【背景介绍】
为了实现人类社会的可持续发展,迫切需要具有特定化学和物理性质的材料,以便有效储存和转化能源。长期以来,新材料的开发都依赖试错过程,这意味着时间长、成本高,不能满足对更先进材料的要求(图1)。随着高性能计算的快速发展,高通量计算筛选极大加快了材料科学的研究,使得计算数千种化合物的性质成为可能。密度泛函理论(DFT)广泛用于计算材料的结构和性能,并利用许多系统的计算属性来加速材料数据库的开发。有了最先进的超级计算机和算法,研究人员就可以基于量子力学(QM)方法计算出数千种相互作用的离子和电子的化合物。然而,基于QM的方法计算量大,限制了其在大型复杂系统中的应用。此外,通过QM方法来耗尽所有可能的系统是不现实的。大数据的有效管理和利用是加快材料设计的关键依据。目前,快速有效地对大数据进行评估和分析,找出隐藏的规则,是当前材料科学面临的挑战。
图1. 加速新材料探索方法的进程
新兴的人工智能(AI)为科学和工程领域提供新的契机。机器学习是AI的核心,是实现计算机智能化的基础。目前,ML的发展已经在各个领域产生很大影响,因为ML是发现高维数据背后隐藏的统计规律的有力工具。近年来,随着材料数据库的快速增长,ML在材料科学中也得到越来越多的应用。结合大数据,ML技术成功地在能源存储和转换材料领域取得许多突破。
【材料科学中机器学习的基本过程】
基于ML技术,计算机可以自动从经验数据中学习,然后确定特征因子与材料属性之间的关系。机器学习方法可以从数据集中学习,获取支配数据集的规则并建立模型进行预测。因此,足够的数据对于ML非常重要。特征工程(包括特征提取和选择)是从数据中提取输入以训练ML模型的关键步骤,这是确保ML模型的适用性和可行性基础,因为只有相关特征才对ML的构造有意义。然后,将选择ML算法以建立模型并从数据中学习。最后,将对模型进行评估和优化。
2.1 数据收集
对于ML在材料科学中的应用,可以从高通量计算或实验中获得训练数据。但是,这些数据可能不完整、不一致甚至是虚假的。因此,数据清理意味着识别不正确的数据,然后替换、修改或删除它们,对于ML模型的准确性起着关键作用。材料数据库的快速访问对于数据收集至关重要。因此,大多数物料数据库都提供了应用程序编程接口(API),可以使用户直接访问MP数据并以编程方式查询物料信息。
2.2 特征工程
当有足够的可用数据时,将原始数据转换的一些定量参数决定了ML模型的准确性。因此,选择合适的特征选择方法对于获得实用的机器学习模型至关重要。对基本科学问题和机器学习算法的深刻理解是选择合适特征的基础。通常,特征是用结构和属性参数编码的,例如电子属性(带隙、介电常数、功函数、电子密度、电子亲和力等)和结构属性(原子径向分布函数、构型、属性标记的材料)。
随着高性能计算和深度学习的发展,自动化特征工程得到了越来越广泛的应用。与手动特征工程相比,自动化特征工程效率更高且可重复,并且使研究人员可以更快地构建更好ML模型。对于深度学习,每层中的函数都可以将输入数据转换为另一个数学表达式,作为后一层的输入数据。深度学习为计算机提供了一种从数据中自动获取特征并将其纳入模型构建过程的方法,这可以减少手动特征工程的不完整性。如今,无需特征选择即可处理数千个特征的深度学习已广泛应用于诸如药物和纳米材料等各个领域。
【ML在能源存储和转换材料方面的成就】
ML在材料科学中越来越多地被使用,通过ML,可以准确预测性能,并可设计具有特定功能的新型材料。材料科学与计算科学之间的差距正逐渐缩小。
3.1 促进理论化学
3.1.1 性质预测
由于其优越性,机器学习方法已被用于能源存储和转换材料的性能预测,以克服DFT计算的缺点,例如计算资源的大量消耗。ML方法的利用为材料科学领域提供有效且新颖的工具。已经提出了各种ML方法来建立用于快速性质预测的模型。
预测微观性质
众所周知,带隙是材料的最基本但最重要的电子特性之一。尽管传统计算可以提供带隙相对准确的结果,但是仍然难以获得对大量复杂系统的准确分析。此问题可以通过ML方法得到有效解决。
晶体材料的另一个重要的微观性质是晶格参数。晶格参数不仅可以识别材料,而且还可以帮助复合材料的设计。为了构建复合材料的超晶格模型,27种ML方法已用于预测复合材料的晶格参数。ML方法也可应用于预测分子材料的特性,如热力学性质。
预测宏观性质
除了晶体材料和分子结构的微观性质外,ML方法还在宏观性质预测中发挥重要作用,例如机械性质和其他物理功能。
改善属性预测
输入数据特征的准确性,具有足够数据的适当训练集,理想的学习模型以及适当的特征对于成功的ML框架属性预测而言是必需的。为了获得预测属性的最佳模型,研究人员总是尝试使用多种特征搭配和ML方法。最常用的特性是化学成分、结构、化学环境描述和其他复杂特性。
数据集的大小和类型对于构建ML模型都很重要,并且需要仔细选择。通常,为了获得通用的训练结果,倾向于随机和独立的数据。但是,这种无目的的选择可能会最终将模型引向错误的方向。
改进属性预测框架必须考虑的最后一个因素是ML模型。对于相同的目标预测属性,给定的特征和数据集,研究人员始终使用几种不同类型的ML算法,并从综合角度比较它们的性能。
许多ML方法已经与以各种方式预测的材料特性研究相结合,并且这些技术已进行了一些新的改进。各种各样的特性控制着材料的大量应用,并为新材料的设计做出贡献。因此,机器学习方法的利用在材料科学领域,尤其是能源存储和转换材料领域中发挥着重要作用。
3.1.2 探索储能和转化材料催化剂
催化剂
自90年代以来,机器学习工具,尤其是人工神经网络已用于催化。这些研究通常基于实验数据,着重于催化性能与反应条件之间的关系。催化剂的合成条件和相应组成常被用作ML模型的特征,以指导合成出具有更好性能的催化剂。实验数据需要高吞吐量的实验,这既费时、成本高又受限制,然后使ML模型变得不通用。与实验相比,QM方法可用于获取更大的数据库。研究人员已经将ML和QM方法集成在一起,以克服纯QM方法的局限性,从而加速催化剂的准确筛选。
锂离子电池
机器学习方法通过先进的数据提取和收集技术为LIBs的发展做出贡献。由Springer于2019年出版的机器学习一书可以帮助研究人员快速轻松了解LIB领域的当前前沿[1]。
太阳能电池
钙钛矿因其高的太阳能吸收、易于制造和低的非辐射载流子复合率而受到广泛关注。然而,两个明显的挑战限制其大规模的商业应用。一种是由于Pb元素引起的毒性,另一种是环境稳定性差。因此,重要的是要寻找具有稳定的高功率转换效率(PCE)且环保的钙钛矿。转换效率取决于多个因素,但是带隙被广泛用作筛选标准。用QM方法准确计算带隙非常耗时,这对于高通量研究是不切实际的。机器学习方法可能是一个有前途的选择。
CO2捕获
用于从大气中捕获和分离CO2的材料开发是21世纪的一大挑战。具有大孔体积、超高表面积和可调孔隙率的金属有机框架(MOFs)可以提供丰富的吸附位点,以捕获CO2。需要多种金属离子或簇与有机配体的组合,这会导致无数种组合。因此,通过QM计算或实验评估每个MOF是不可行的。
3.2 实验探索的成功
困扰实验人员多年的核心问题之一是不可预测的化学反应路线。反应途径的数量如此之大,以至于研究人员需要设置特殊条件以降低分析难度。然而,尽管可以成功制备化合物,但是其机理尚不清楚。与过去的落后计算机技术不同,现代计算能力足以实现“大数据”学习的目标。因此,新颖的辅助实验程序更加可信。
尽管早期的尝试是由有机化学家发起的,但是计算模拟显示出无机或杂化结构的巨大应用潜力。特别地,在能源存储和转换材料家族中存在大量的非有机化合物。能源短缺和环境问题的紧迫性使得实验室成果需要尽快投入到实际应用当中。计算机预仿真加速了这一期望的实现。但是,通常较大的系统与实际对象最相似,因此在使用从头算之类的通用计算方法时,很难在成本和有效性之间保持平衡。幸运的是,机器学习方法和材料科学的结合一直在帮助实现这一目标。
【挑战与展望】
科技的飞速发展导致数据爆炸式增长,这也为ML的进一步突破提供机会。结合计算或实验,机器学习技术在能源存储和转换材料开发方面取得了重大成就。ML在该领域的主要应用是揭示结构和性能之间的关系,从而进一步指导新型材料的开发和设计。
通常,机器学习需要大量的数据来保证准确性。但是,在材料科学中,数据大小通常限制为数百个。随着MGI的发展,已经建立了几个数据库,但是更多的公开数据没有被数据库体现,甚至没有更多可用于训练ML模型的“失败数据”。将来,研究人员可以在计算机可读形式,以进一步共享数据。解决该问题的另一种方法是允许计算机处理和理解人类语言。人工智能的一个分支语言处理是不错的选择。文本挖掘技术已广泛应用于化学和材料科学。此外,人们对机器的渴求是一站式学习的能力,从少数甚至是一个带有标签的示例中学习一门课,并且可以解决数据集有限的问题。
ML模型的成功很大程度上取决于功能的选择。当前大多数功能选择过程通常取决于研究人员的经验和直觉。这是一种迭代初始功能集直到性能可接受的常用方法。但是,某些有用的功能可能会因人为选择而被忽略。自动化功能工程可以帮助非专业用户训练模型并显着减少人为错误。
当前,机器学习模型通常是连接输入和输出的“黑匣子”,因此很难从机器学习模型中提取知识,然后将其概括为一般案例的科学定律。由于多种原因,机器学习模型的可解释性也是一个关键挑战。将ML模型中的连接权转换为公式非常困难。此外,模型之外的科学定律可能太复杂而无法理解。为了改善ML模型的可解释性,已经进行了许多努力。开发更多可解释的算法是一种有效方法。
各种ML算法已在材料科学中得到广泛使用。没有适合所有问题的单一算法。机器学习算法的选择取决于数据集的内部相关性、分布和大小、问题的线性或非线性以及其他一些重要因素。对于线性问题,线性回归可能是快速且可信的。此外,应考虑时间消耗。由于材料科学中的数据量很小,因此材料科学中ML的时间消耗目前并不重要。但随着MGI的发展,数据大小将迅速增加,时间消耗将变得更加重要。因此,正确选择机器学习算法是机器学习应用的核心。到目前为止,材料科学中的机器学习研究主要依靠监督学习。除了监督学习之外,半监督、无监督学习和其他新颖的机器学习方法在材料科学中也有广泛的应用。
随着概率论、统计学、计算机和材料科学等多学科领域的发展,ML技术有望在材料科学中带来变化,并且强大的AI用于材料开发将成为现实。
An Chen, Xu Zhang, Zhen Zhou, Machine learning: Accelerating materials development for energy storage and conversion. InfoMat 2020, DOI: 10.1002/inf2.12094.
Writer B. Lithium‐ion Batteries: A Machine‐Generated Summary of Current Research. Switzerland: Springer; 2019.