Angew燃料电池碱性阴离子交换膜的无监督学习引导加速发现
【成果简介】
本文介绍了Alkaline Anion Exchange Membranes (AEMs)的发展及其在燃料电池中的应用。旨在合成具有高化学稳定性的AEMs,以延长阳离子交换膜燃料电池的使用寿命。由于AEMs的结构和性能之间的相关性尚未完全理解,因此它们常常通过经验试错或模拟来发展。为了简化这一过程并直接从化学空间中开发有效的采样策略,提出了一种Virtual-Module-Compound-Enumeration-Screening-(V-MCES-)方法。文章提出了各种方法,如K-means聚类、XGBoost算法和其他机器学习技术,以优化AEMs的材料设计。通过机器学习可以发现和合成有前途的AEMs。在这个领域的研究仍在不断进行中。
该工作以Unsupervised Learning-Guided Accelerated Discovery of Alkaline Anion Exchange Membranes for Fuel Cells发表在Angewandte Chemie
【图文导读】
阴离子交换膜燃料电池(aemfc)作为一种将氢气和氧气转化为能量的零排放设备,已经引起了广泛的研究关注然而,由于阴离子交换膜(AEMs)的降解导致使用寿命短,阻碍了该技术的采用根据美国能源部2019年的要求,在pH≥14的溶液中,在≥80℃条件下进行1000 h化学稳定性试验后,AEM的降解应小于5%。然而,作为OH−的转运位点,AEM的阳离子部分很容易受到OH−的攻击并导致降解。通过在离聚体中加入氟化疏水侧链,扩大阳离子基团与主链之间的空间,并在阳离子基团中引入大的抗位点保护基团,提高了AEMs的化学稳定性。因此,确保具有aemfc固有耐久性的aemfc长期稳定运行至关重要。尽管许多研究都集中在各种化学稳定聚合物的开发上,但在燃料电池中很少实现高耐久性aem由于没有深入了解AEMs结构与性能之间的相关性,AEMs的开发严重依赖于经验试错或基于密度泛函理论(DFT)的方法基于模型化合物降解路径的模拟自由能,从14个候选模型化合物合成了稳健的、立体保护的聚(芳咪唑)氢氧化物AEMs而实验方法倾向于产生偏差,模拟方法依赖于设备配置和效率低下由于现有的理论指导方针和实验驱动策略不能满足高稳定性AEMs合成的要求,在这种情况下,数据驱动方法被提出作为化学引导方法的替代方案。他等人提出了一种深度学习协议来预测AEMs的OH−电导率,模型的精度达到0.997.在该研究前期的研究中,探索了人工神经网络模型的可行性,准确分析了AEMs的碱性稳定性特征。除了设计质子交换膜(或陶瓷)燃料电池的结构外,机器学习还被用于设计质子交换膜(或陶瓷)燃料电池的催化剂并优化其运行条件。燃料电池的峰值功率可提高20%以上在13000个真实均聚物上训练深度神经网络(DNN)模型,DNN模型可以合理地预测聚合物未知的玻璃化转变温度然而,这种有监督的机器学习方法需要大量的训练数据集(超过10,000个数据点)作为先决条件,这限制了人工智能方法在筛选高稳定AEMs方面的应用。
整个化学空间的大小可以是无限大的,因为元素周期表中提到了大量的化学元素这样的化学空间可能包含许多未被发现的具有高化学稳定性的AEMs。然而,通过DFT计算或实验建立一个完整的AEMs材料结构与性能之间关系的数据库是不可行的因此,开发有效的采样策略以直接从化学空间生成高度化学稳定的aem至关重要。例如,Katritch等人引入了模块化合成子来获得新的大麻素化合物。该方法比标准的高通量筛选方法节省了数千倍的计算资源,可用于化学勘探空间。
本研究首次提出了虚拟模块化合物枚举筛选(virtual module compound enumeration screening, V-MCES)方法,自动搜索包含大于4.2 × 105个候选化合物的化学空间,以识别具有高化学稳定性(但不能预测AEMs的电导率)的有希望的AEMs,如图1所示。相对于使用监督学习辅助方法可靠地筛选如此大的空间,V-MCES方法的模型学习不需要大量的标记数据。对于V-MCES方法搜索的高度化学稳定的模型化合物,使用合成可达性评分(SA评分)快速检测容易合成的化合物。SA评分筛选有助于鉴定8022种化学稳定性较好的AEMs。在V-MCES方法给出的高化学稳定性模型化合物中,选择了几种模型化合物,合成了具有相似阳离子官能团结构的聚合物。通过聚合物的长期稳定性实验,验证了V-MCES方法获得高稳定性AEMs的可行性。这种方法易于扩展,可用于实现可学习库的快速增长。
图1。虚拟模块复合枚举筛选(V-MCES)方法用于未开发化学空间的模块化筛选。
有监督学习和无监督学习是最常见的机器学习方法在监督学习中,模型使用由输入-输出数据对组成的数据库进行训练,这对于回归或分类任务非常有用。相比之下,无监督机器学习技术可以应用于识别数据库输入数据中的相似性,而无需用输出数据训练模型(例如实验)。在无监督学习中,所有数据都是无标记的;但是,数据呈现聚类结构,其中类似类型的数据被聚类。这一过程提供了与传统分析(如统计)有很大不同的见解,因为这些方法完全是通过“机器”获得的,没有人工干扰。
为了利用无监督学习准确预测模型化合物的化学稳定性,构建了两个数据库。在第一种情况下,基于文献报道的数据构建了包含模型化合物的结构信息和随时间变化的降解比的数据库。由于该数据库包含了机器学习的输入和输出,因此也称为标记数据库,它可以作为监督学习训练数据库或非监督学习验证数据库。标签数据库已上传到github(见代码可用性),其中包含149个模型化合物(见图S1-S4)和896个实验测量的降解比条目。基于简化分子输入线输入规范(SMILES)编码对模型化合物的化学式进行了编码。SMILES编码被量化为160个分子描述符,以表示模型化合物的结构信息和长期稳定性实验的操作条件。描述符的详细信息列在表S1中。模型化合物包括季胺(QAs)、咪唑(IM)、环季胺(Py)和其他功能阳离子组。样品内多样性的测量显示了从0%到100%降解率的多样性梯度(图2a)。
在另一个数据库中,生成了一个类似片段的模型化合物数据库,它代表了所描述的四个功能阳离子基团之间可能的支架合成子组合。以咪唑为例,在本数据库中以咪唑为支架,用相应的合成子枚举了咪唑中的R位置(图S5)。因此,咪唑的数据库大小为合成子数的R位数的幂。
对所有功能阳离子基团的数据进行了聚合,得到了大约42万个模型化合物。该数据库包含已公开报道的已合成的模型化合物和尚未报道的新模型化合物。这些化合物只包含SMILES编码,量化结构信息,不包含特定的降解比。因此,该数据库是无标记的,仅用于无监督学习。
对标记后的数据库进行初始聚类。首先,在聚类分析中,使用标记数据库测试该算法能否检测出模型化合物之间的关系,即该算法能否将化学稳定性相似的模型化合物分组到一个聚类中。选择kmeans算法(关于算法的详细信息,请参见支持信息中的方法部分)将模型化合物划分为不同的聚类这里,K是聚类的个数,是算法的关键参数。K值可以通过分析肘关节法和廓形评分来确定。如图2b所示,曲线上的拐点,即惯性或失真度开始线性下降的点,代表K -means算法的最佳K值。在此阶段,剪影得分最大,说明同一聚类中的模型化合物尽可能相似,而不同聚类中的模型化合物尽可能不相似。
图2。a)四种模型化合物降解比分布的小提琴图。实线表示四分位数,白圈表示中位数。b)利用基于惯性的肘关节法(左)和廓形平均得分分析(右)优化标记数据库初始k-means聚类的聚类数k。c)使用无监督K -means算法(K = 5)对标记数据库进行初始聚类。
聚类算法的输入维数为分子描述符数(160维)。采用主成分分析(PCA)降低分子描述符的维数,直观地表达数据为了可视化和比较结果,前两个主要成分,即使用PC1和PC2绘制2D地图,该地图捕获了整个数据内50.9%的变化。在聚类算法中,结构相似的模型化合物表现出相似的性质。通过模型化合物在碱性溶液中的降解率来确定模型化合物的化学稳定性。如图2c所示,虽然一些模型化合物处于同一区域,但聚类算法将这些化合物划分为不同的聚类,这表明聚类算法检测到了这些模型化合物之间的一些差异。这些差异并没有通过原始数据图的纯粹可视化分析来揭示。特别是四甲基膦和乙基三甲基膦被归为同一簇,这与实验结果是一致的,因为这些化合物表现出相似的化学稳定性。然而,与实验不一定一致的是,1-苄基-1-甲基哌啶(降解比0%,500 h, 4 M KOH, 80℃)和N,N,N-三甲基-1苯基甲烷胺(降解比32.5%,168 h, 1 M NaOH, 80℃)被归为同一簇。这个问题可以归结为用于聚类算法的输入是不规则的。大多数分子描述与模型化合物的化学稳定性无关,这导致聚类算法错误地学习结构差异。因此,基于模型化合物的化学稳定性对现有分子描述进行特征选择是至关重要的。
图3。a) XGBoost算法提供的特征重要性启发式。b) Top 100特征中标注数据库的Rmse和R2值汇总。c) XGBoost算法筛选出的前20个特征向量在标签数据库中的描述符相关性。d)根据描述符比较ROC曲线和模型性能指标。
分子描述的特征选择。标记数据库包含模型化合物的结构信息和化学稳定性。因此,该数据库可用于执行监督学习,以筛选影响模型化合物化学稳定性的关键分子描述符,而无需人工干扰。XGBoost算法是一种流行的梯度增强机器学习算法,适用于处理小型数据库XGBoost算法是一种决策树算法,用于根据数据库中特征的重要性为每个叶节点计算一个分数。
然后将每棵树对应的分数相加,得到特征的预测值。XBGoost的特征重要性是通过每个属性分割点改进的性能指标的数量来计算的,并通过节点负责的观察数量进行加权首先,对模型化合物在1000小时后的降解率进行排序。1000年后降解率小于5%hour-test被认为是高碱性稳定的模型化合物(美国能源部2019年的要求)。接下来,XGBoost算法从训练集中学习输入因子之间的复杂关系,并使用5%的准则对模型化合物进行分类,分析输入因子的重要性。所有的分子描述符都按其特征重要性进行排序。图3a显示了基于XGBoost回归算法对标记数据库的特征重要性排序。这些结果表明,不同的分子描述符表现出不同的水平
图4。a)使用无监督K -means算法(K = 5)对标记数据库进行特征选择聚类。b)将该算法划分为聚类1的模型化合物。c)对算法分组到聚类2的化合物进行建模。d)对算法分组到聚类5中的化合物进行建模。e)使用PCA分析可视化未开发的化学空间。
图5。a-c) DBMe、DEEt和DEPr的1H NMR谱和电导率保留率分别在4 M KOH下80°C。模型化合物的半衰期用Origin软件进行指数拟合。
对模型化合物的化学稳定性很重要。
值得注意的是,模型化合物的分子质量(MolWt)和电荷(MaxAbsPartialCharge)对化学稳定性有很大影响。这种现象可以归因于具有较高分子质量的模型化合物通常表现出笨重的取代基,以保护阳离子免受OH−攻击。选择与模型化合物的化学稳定性最相关的分子描述符作为机器学习的输入,可以大大提高机器学习模型的准确性。从图3b可以看出,XGBoost回归算法在选取前40个重要分子描述符时,回归相关系数R2值最高,为0.95,均方根误差(RMSE)降至11.2。此外,该研究计算了前20个描述符之间的相互关系,以方便理解它们对模型化合物的化学稳定性的独立输入,以及描述符对各种阳离子模型化合物的适用性(图3c)。除了MolWt和HeavyAtomMolWt、Chi0、Chi0v和CHi3v之间的一些先验预期相关性之外,描述符的各个组成部分之间已经建立了有限的相关性。此外,前5,10,40个分子描述符是XGBoost分类算法的输入,而模型化合物的化学稳定性是输出(图2)。
在不同分子描述子数量的输入中,前40个分子描述子的性能最好,其roc曲线下面积为98.89%。因此,经过特征选择,新组合的分子描述符可以用来描述模型化合物的化学稳定性。
特征选择聚类。特征选择后,对Top 40特征向量进行重组,生成新的数据库。随后,使用基于K -means算法的聚类无监督学习对新数据库进行重新分类(K = 5)。图4a显示了使用聚类进行特征选择后标记数据库的附加3D插图。
三个新的主成分,即PC1', PC2'和PC3',捕获了67.6%的特征选择输入数据的变化。在五个划分的簇中,簇1和簇2包括已知的化学稳定和非化学稳定的模型化合物。对不同初始化种子进行1000次聚类,验证其与引用的相似性。
C2位置未受保护的咪唑模型化合物和含有苄基的季胺模型化合物被归为簇1(图4b)据文献报道,这些模型化合物在化学上不稳定,在几十小时内降解约50%。在簇2中,大多数模型化合物,如具有长链烷烃链和哌啶阳离子的QAs 在实验上是化学稳定的(图4c)。在每个聚类内,功能阳离子基团的多样性表明kmeans聚类算法准确识别了模型化合物化学稳定性的结构信息,并根据其化学稳定性对化合物进行聚类。簇5中的几个模型化合物在结构上存在一定差异,相似性不明显(图4d)。这些模型化合物的相似性是由它们的大取代基所表明的。这些大取代基表现出空间约束效应,阻止氢氧根攻击功能型阳离子基团。
实验验证。通过分析弯头法和廓形评分重新确定K值,对未标记的数据库使用相同的聚类算法。聚类结果如图4e所示算法。最初,42万个模型化合物被划分为不同的簇,每个簇包含至少5万个模型化合物。从如此大的簇中确定模型化合物的化学稳定性是困难的,因为未开发的化学空间包含许多具有复杂结构的分子。这些复杂且难以合成的分子不适合进一步应用,因此被筛选了出来。SA分数是一种衡量化合物合成难易程度的指标,用于表征分子合成的可达性,分数在1(容易合成)到10(难以合成)之间在这项研究中,该研究确定了以前被忽视的具有高化学稳定性的模型化合物。因此,SA <3.0可以筛选出大部分难以合成的分子。在SA评分采样后,大约保留了8000个分子,由于分子结构的复杂性,聚类5中的大部分模型化合物被筛选出。
图6。a)三氟苯乙酮衍生物与三苯基均聚合成聚芳基胺类AEMs。b-d) PDBMe、PDEEt和PDEPr在4 M KOH和80°C下的1H NMR谱和电导率保持率。
最初,42万个模型化合物被划分为不同的簇,每个簇包含至少5万个模型化合物。从如此大的簇中确定模型化合物的化学稳定性是困难的,因为未开发的化学空间包含许多具有复杂结构的分子。这些复杂且难以合成的分子不适合进一步应用,因此被筛选了出来。SA分数是一种衡量化合物合成难易程度的指标,用于表征分子合成的可达性,分数在1(容易合成)到10(难以合成)之间在这项研究中,该研究确定了以前被忽视的具有高化学稳定性的模型化合物。因此,SA <3.0可以筛选出大部分难以合成的分子。在SA评分采样后,大约保留了8000个分子,由于分子结构的复杂性,聚类5中的大部分模型化合物被筛选出。
对模型化合物的检查表明,该算法将新颖、化学稳定性高、易于合成的模型化合物分组到聚类2中。研究表明,在高温和恶劣的碱性条件下,QAs在苄基上的稳定性并不令人满意(所谓的迁位耐久性)。因此,具有相似结构的苯胺基模型化合物很少被研究。然而,在无监督机器学习下,具有苯环直接连接到胺基的模型化合物被归类为聚类2。这种现象代表了这类模型化合物的高化学稳定性。图4e显示了模型化合物的化学结构。接下来,对这些预测进行了实验验证(详见补充材料S1节)。模型化合物包括N,N,N-三乙基苯胺碘化物([DEEt][I])、N,N-二乙基-N-丙基苯胺碘化物([DEPr][I])和N,N ' -二丁基-N-甲基苯胺碘化物([DBMe][I]),并通过1H NMR对其纯度和化学结构进行了确证。随后,用1H NMR测定了模型化合物的化学稳定性。
长期稳定性实验条件表明,模型化合物以3-(三甲基硅基)-1-丙磺酸钠盐(DSS)为内标,在80℃D2O溶液中暴露于4M KOH中。通过计算1H共振的相对积分强度,可以确定模型化合物的降解程度。如图5a-c所示,三种模型化合物在4M KOH D2O溶液中暴露360小时(每72小时测试一次),这些模型化合物的化学位移以及模型化合物与DSS积分的相对比例没有变化。结果表明,三种模型化合物均表现出良好的化学稳定性。通过Origin包对模型化合物的剩余阳离子进行拟合,得到模型化合物的半衰期。在不存在苄基的情况下,化合物DEEt、DEPr和DBMe的寿命显著延长(半衰期分别为8705、7368和9116 h)
图7。a) PDEEt-1.45、PDEEt-1.11、PDEPr-0.83和PDBMe-0.92膜的氢氧根电导率随温度的变化。c) PDEEt-1.45、PDEEt-1.11、PDEPr-0.83和PDBMe-0.92膜的溶胀率与温度的关系。d) PDEEt-1.45、PDEEt-1.11、PDEPr-0.83和PDBMe-0.92膜在室温和约100% RH条件下的应力-应变曲线。e-f) PDEEt1.45和PDEEt-1.11膜的燃料电池性能。
由于这些芳香族季胺模型化合物在80°C的4M KOH水溶液中表现出优异的化学稳定性,因此合成了具有相似阳离子官能团结构的聚合物。考虑到聚合物主链的稳定性对AEMs的影响,采用无金属超强酸催化反应制备的刚性无醚键芳基主链作为聚合物主链这种线性,高分子量,全芳香族聚合物已经证明了低成本的高化学稳定性图6a所示为三氟苯乙酮衍生物与三苯基均聚制备这些新型聚芳基胺类AEMs的合成过程。受聚合物成膜特性的影响,该合成路线以4'-溴2,2,2-三氟苯乙酮为聚合单体,然后对其进行阳离子功能化。通过1H NMR和IR谱分别确认了含有上述高化学稳定性阳离子基团的三种AEMs的纯度和化学结构(图S7-S11和图6b-d)。计算AEMs在80°C浸泡在4M KOH溶液中后的电导率保持百分比(作为时间的函数)(图6b-d和图S12)。PDEEt ([DEEt][I])、PDEPr ([DEPr][I])和PDBMe ([DBMe][I])在1000 h的电导率保持率分别为95.6%、96.3%和94.9%。除了AEMs阴离子电导率的变化,oh型AEMs在42天碱性试验前后的1H NMR谱和重量试验验证了其化学稳定性。所有AEMs中阳离子官能团的化学位移均无变化,质量均无变化,表明新合成的AEMs具有较高的化学稳定性。这些结果证实了结合机器学习的AEMs设计可以用于确定易于合成并在扩展的化学空间中表现出高化学稳定性的AEMs。表S4显示了合成的AEMs的性能,包括离子交换容量、吸水率、溶胀率和电导率。随着IEC从1.11增加到1.45 mmol g-1, PDEEt的电导率显著提高(图7a)。
重要的是,聚(芳基胺)膜在低IEC(图7b)下表现出相对较高的导电性,这使得膜在80°C时有较低的吸水率(7%至30%)和膨胀率(5%至14%,见图7c)。聚芳胺膜也表现出优异的力学性能和热稳定性,在室温100%相对湿度条件下,断裂应力为60 MPa,应变为38%(图7d)。在调节单格温度和气体流速(图S16)后。S17), PDEEt-1.45在80°C,气体流量为1.0 L min−1,无背压时产生了645 mW·cm-2的峰值功率密度(图6e)。在65小时的耐久性测试中,在80°C、200 mA cm−2的恒定密度下放电时,电压损失约为5.7%(图7f)。
【总结与展望】
提出了一种基于无监督机器学习的新型V-MCES模型,用于组合复合文库的快速结构虚拟筛选。随后,该研究使用该模型从未开发化学空间的42万多种化合物中发现了具有高化学稳定性的新AEMs。
在V-MCES模型中,不需要庞大的训练数据库。
因此,该模型可以任意扩展到任何其他由于昂贵的实验而无法使用监督学习的物种形成挑战。该模型的另一个优点是可以在超过100万的数据库中根据材料的性质快速筛选。此外,该模型易于扩展,以适应组合库的快速增长。V-MCES模型的精度可以显著提高结合监督学习对分子描述符进行特征选择。在V-MCES模型的指导下,发现了化学稳定性较高的模型化合物(降解<1%,360 h, 80°C, 4M KOH)。进一步,对含有模型化合物的AEMs进行了长期化学稳定性测试(降解<5%,1000 h, 80°C, 4M KOH)。结果清楚地表明,V-MCES模型在加速高化学稳定性AEMs开发方面具有潜力。然而,由于没有考虑聚合物骨架,该V-MCES模型不能用于预测AEMs的电导率。
接下来,该机构将研究用于识别离聚体的机器学习模型,该模型有望应用于预测导电性或燃料电池性能。
【原文链接】
DOI: 10.1002/anie.202300388
https://doi.org/10.1002/anie.202300388