查看原文
其他

CRPS封面文章:清华袁金颖/张长水团队运用机器学习探索高分子相容性 | Cell Press论文速递

Cell Press CellPress细胞科学
2024-09-05


物质科学

Physical science

2022年6月15日,清华大学化学系袁金颖教授课题组与自动化系张长水教授课题组合作在Cell Press细胞出版社期刊Cell Reports Physical Science 上发表了一篇题为“Machine learning exploration of polymer compatibility”研究论文,探索了机器学习方法在高分子材料性质预测中的应用,以高分子相容性为切入点,得到了较高的预测准确率。论文被选为当期封面文章。张长水教授和袁金颖教授为共同通讯作者,论文第一作者为清华大学自动化系博士生梁志龙。

▲长按图片识别二维码阅读原文


封面说明:在封面图片中,以一株具有神经网络根的嫩绿植物幼苗代表人工智能探索材料性能这一生机勃勃的崭新研究方向,以富有营养的功能基团和化合物浇水灌溉。太阳在背景中冉冉升起,显示出机器学习在材料科学探索方面的潜力。封面由梁志龙、朱宇轩、刘一纯等人创作。


机器学习作为数据驱动的方法,近年来在图像识别和自然语言处理等各种任务上都取得了很大的进展。最近,科学家也开始将机器学习应用于材料研究和性能预测。虽然关于材料的各类性质已经存在相当多的研究数据,但是它们大多零散地发表于各个文献中,没有特定的数据库,阻碍了机器学习模型的建立。基于这一事实,清华大学化学系袁金颖教授课题组与自动化系张长水教授课题组合作提出了机器学习用于材料性质研究的方法,包括:(1)通过自然语言处理技术从零散文献中收集、建立特定的数据库;(2)依托数据库训练人工神经网络完成性质预测任务。作者将这一通用性方法聚焦于高分子相容性,取得了一定的成果。对这一特定性质建立了包含1.4 K个条目的数据库,并在此基础上实现了不低于75%的预测精度。


图1. Graphic Abstract


高分子共混材料能够综合各种高分子的优点,而相容性是影响共混材料性能的一个关键物理量。高分子相容性一般指高分子在分子尺度上的可混溶性,相容性差将严重限制高分子共混物的使用。科学家们倾向于筛选相容性好的高分子组合,并建立了高分子共混相容性的理论模型。Flory和Huggins提出了聚合物共混最基本的热力学模型,在此基础上HSP溶度参数(Hildebrand Solubility Parameters)理论提出了判断相容性的预测方法,但是泛化能力存在一定不足;而密度泛函与动力学模拟对于宏观大尺度性质的预测则需要时间与计算资源的高消耗。面对这一挑战,作者使用机器学习的方法进行了二元均聚物高分子共混物相容性的数据库建立和相容性预测,研究框架即机器学习预测方法流程图如图2所示。


图2. 机器学习预测方法流程图


如图3的文献信息抽取模块示意图所示,作者在这项工作中通过两种途径收集了数据:从PoLyInfo数据库的形态学描述收集相容和不相容的信息,以及从与“高分子相容性”相关的论文中识别、筛选包含明确兼容性信息的句子。为了实现自动筛选功能,设计了信息抽取模块,通过关键词搜索、GPT3特征提取、多层感知机分类,实现了超过90%的分类准确率,提取出来的语句经过人工处理后添加到数据库中供下游训练。


图3. 文献信息抽取模块示意图


在训练-验证-测试集划分上,作者采用了随机划分与平衡类别严格划分,后者保证了三个子集中没有高分子共混物组合的重复。在网络设计上(如图4),作者参考了HSP的理论设计了半密集连接差分网络(HDDN),通过与HSP溶度参数理论、多层感知机(MLP)、密集连接网络(DN)、拼接密集连接网络(CDN)的对比,发现在测试准确率上明显优于其他对比模型,在随机划分测试集中取得了90.89%的准确率,在平衡类别严格划分测试集中取得了75.75%的准确率。此外,在针对HDDN各组件的消融实验中,作者验证了各组件的重要作用以及组合后的整体效能。


图4. HDDN网络示意图


为了探究网络的具体细节,作者结合具体案例验证了网络在高分子共混相容性方面的性能(见图5)。聚甲基丙烯酸甲酯(PMMA)/聚氯乙烯(PVC)共混物是广泛应用的高分子共混材料,数据库中PMMA/PVC共混物共有46条数据(组成比例不同)。核验后发现预测模型只在60% PMMA点出错,而在所有其他成分上都达到了准确的结果,证明了方法的有效性。根据PMMA/PVC相互作用参数的已有研究数据,计算得到吉布斯自由能变与成分的关系,并与训练模型的预测结果进行对比,模型与实验结果在趋势上具有很好的一致性。


图5. PMMA/PVC案例研究


在可解释性方面,作者选择PEO/PVPh(聚环氧乙烷/聚对羟基苯乙烯)共混物进行了研究(见图6)。通过化学分析发现,PEO/PVPh体系的相容性因其羟基的氢键作用而增强。为了验证预测模型与化学基础理论的一致性,通过去除PEO的醚键和PVPh的羟基来设置特殊的PEO/PVPh残缺组。通过预测模型结果发现,PEO/PVPh残缺组的预测相容性远弱于PEO/PVPh正常组。对于-COC-对最终结果的影响研究发现,-COC-的存在使预测结果更偏向于相容。这些现象证明了我们的模型与化学基本规则的一致性。


图6. PEO/PVPh可解释性研究


在这项研究中,作者还得到了一些其他有趣的发现。在相容性方面,模型更注重聚合物的化学结构,而不是组成比例。HDDN模型成功地处理了二元共混物的相容性预测,但不能直接用于处理三元或三元以上共混物与共聚物(如ABS(丙烯腈-丁二烯-苯乙烯))的相容性,需要进一步扩展。此外,由于较少提及高分子拓扑信息,也没有设计合适的框架来表示拓扑结构,高分子的重复单元结构被作为主要特征,因此模型不能代表复杂的拓扑结构,如低密度聚合物中不规则的侧链或交联。鉴于目前还没有定量评价相容性的公认方法,作者将其作为一个分类问题来处理。高分子共混是否有兼容性的定量标准,以便我们可以使用许多部分兼容的条目,有待于今后进一步研究。


该论文提出了机器学习探索高分子材料性能的通用方法,所建立的这种新方法可推广性强,可以应用到材料与化学领域的一系列重要科学问题,如共聚合反应、聚合物自组装、生物可降解材料等,未来的探索空间极为宽广。



相关论文信息

论文原文刊载于CellPress细胞出版社旗下期刊Cell Reports Physical Science上,点击“阅读原文”或扫描下方二维码查看论文

论文标题:

Machine-learning exploration of polymer compatibility

论文网址:

https://www.cell.com/cell-reports-physical-science/fulltext/S2666-3864(22)00212-0

DOI:

https://doi.org/10.1016/j.xcrp.2022.100931


▲长按图片识别二维码阅读原文

推荐阅读

上海交大薄首行团队CRPS:固态电池三维应力成像分几步?

▲长按识别二维码关注细胞科学

继续滑动看下一个
CellPress细胞科学
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存