npj: 可靠、可解释的机器学习方法加速材料发现

Original npj 知社学术圈 2021-06-13

海归学者发起的公益学术平台

分享信息，整合资源

交流学术，偶尔风月

在商业应用（例如，产品推荐和广告）中机器学习（ML）成功的推动下，人们大力开发这些工具来分析科学数据。新兴的材料信息学学科就是一种类似的努力，该学科应用ML方法，通过学习结构-属性关系来加速材料的选择、开发和发现。材料信息学研究人员越来越多地在其工作流程中采用ML方法来预测材料的物理、力学、光电和热特性（如，晶体结构、熔化温度、形成焓、带隙）。尽管商业应用和材料科学应用的总体目标可能相似，但相应的数据、任务和需求之间存在根本差异。在不仔细考虑机器学习的假设和局限性的情况下，应用机器学习技术可能导致最佳机会错失，最糟糕的是浪费大量资源和错误的科学推断。该研究提供了材料信息学界必须克服的独特挑战，以使材料科学中的ML解决方案需要得到普遍认可。

应用材料信息学过程中，可靠且可解释的机器学习解决方案的构建面临挑战，该研究为应对这一挑战迈出了第一步。美国劳伦斯•利弗莫尔国家实验室的Bhavya Kailkhura和T. Yong-Jin Han共同领导的团队作出的主要贡献包括两个方面。首先，以代表性不充分和分布失衡的数据作机器学习训练的同时，在现有的材料信息学通道中找出了一些训练、测试和量化不确定性步骤中的缺陷。他们的发现引起了人们对现有材料信息学通道可靠性的高度关注。其次，为克服这些挑战，他们提出了一种通用的、可解释的、可靠的机器学习方法，用于从代表性不足和分布失衡的数据中进行可靠的学习。

他们提出的解决方案概括为：1）学习架构偏向于训练过程，以实现不平衡域的目标；2）采用抽样方法来操纵训练数据的分布，从而允许使用标准的ML模型；3）采用可靠的评估指标和不确定性量化方法，以更好地捕获应用程序偏差。与其他针对每个属性而训练独立回归模型的现有方法相反，他们为提高可解释性，采用了一种简单且计算便宜的分区方案：首先根据材料的属性值，将数据划分为若干材料亚类，然后为每个组训练各自的更简单的回归模型，这样可低成本地增强“可解释性”，较以前的人工方法还提高了预测的准确性。

为了进一步提高ML系统的可解释性，作者在框架中添加了基本原理生成器组件。基本原理生成器的目标体现在两个方面：1）提供与单个预测相对应的解释；2）提供与回归模型相对应的解释。对于单个预测，基本原理生成器提供了有关原型（或相似但已知的化合物）的解释。这有助于材料科学家使用他自己领域的知识来验证类似的已知或原型化合物是否满足所施加的要求或约束。另一方面，对于回归模型，基本原理生成器提供了有关整个材料亚类的全局说明。最后，他们提出了一种新的评估指标和置信度评分，以更好地量化置信度，并建立对ML预测的信任度。通过将其应用于两类实例，他们证明了该技术的适用性：1）预测晶体化合物的五种不同的物理特性，2）确定了潜在稳定的太阳能电池材料。

该文近期发表于npj Computational Materials 5: 108 (2019)，英文标题与摘要如下，点击左下角“阅读原文”可以自由获取论文PDF。

Reliable and explainable machine-learning methods for accelerated material discovery

Bhavya Kailkhura, Brian Gallagher, Sookyung Kim, Anna Hiszpanski & T. Yong-Jin Han

Despite ML’s impressive performance in commercial applications, several unique challenges exist when applying ML in materials science applications. In such a context, the contributions of this work are twofold. First, we identify common pitfalls of existing ML techniques when learning from underrepresented/imbalanced material data. Specifically, we show that with imbalanced data, standard methods for assessing quality of ML models break down and lead to misleading conclusions. Furthermore, we find that the model’s own confidence score cannot be trusted and model introspection methods (using simpler models) do not help as they result in loss of predictive performance (reliability-explainability trade-off). Second, to overcome these challenges, we propose a general-purpose explainable and reliable machine-learning framework. Specifically, we propose a generic pipeline that employs an ensemble of simpler models to reliably predict material properties. We also propose a transfer learning technique and show that the performance loss due to models’ simplicity can be overcome by exploiting correlations among different material properties. A new evaluation metric and a trust score to better quantify the confidence in the predictions are also proposed. To improve the interpretability, we add a rationale generator component to our framework which provides both model-level and decision-level explanations. Finally, we demonstrate the versatility of our technique on two applications: 1) predicting properties of crystalline compounds and 2) identifying potentially stable solar cell materials. We also point to some outstanding issues yet to be resolved for a successful application of ML in material science.

扩展阅读

npj: 机器学习—高效逆向设计高性能铜合金

npj: 浊点工程的机器学习—聚合物逆向设计

npj: 机器学习—焊接的空隙形成条件

npj: 电镜中的垃圾变黄金—深度神经网络

本文系网易新闻·网易号“各有态度”特色内容

媒体转载联系授权请看下方