查看原文
其他

通过机器学习预测预装层析柱的性能

开朗的豌豆射手 生物工艺与技术 2022-12-21




由于其易用性和一致性,预装层析柱越来越多地被用于工艺开发和生物生产。传统上,装柱质量是通过速率模型预测的,这需要通过独立实验进行大量校准工作,以确定相关的传质和动力学速率常数。在这里,我们提出将机器学习作为层析柱性能的补充预测工具。机器学习算法,极端梯度提升XGBoost,作为定量参数(柱高、柱径和粒径)和定性属性(骨架和功能模式)的函数,被应用于预装柱装柱质量(塔板高度和不对称性)的大型数据集。机器学习模型对塔板高度和不对称性提供了出色的预测能力,分别为90% 和 93%,同时,装柱质量受到骨架(~70% 相对重要性)和功能模式(~15%相对重要性)的强烈影响,高于所有其它定量层析柱参数。结果突出了机器学习从简单的通用参数提供可靠预测层析柱性能的能力,这些参数包括战略定性参数,例如骨架和功能。我们的结果将指导层析柱优化的进一步工作,例如,通过关注骨架和功能模式的改进,来获得更优化的填料。


预装层析柱广泛用于工艺开发和生物生产。它们最大的优势是消除了昂贵且耗时的装柱程序和相关验证方案的负担,最终确保产品的一致性。预装柱的生产应简单、经济且长期(>10年)稳健,以确保层析柱的质量始终如一。


[相关阅读:为期十年的预装层析柱性能参数趋势分析]

 

预装柱的性能在销售前由制造商保证,装柱质量根据理论塔板高度(HETP) 和不对称性来衡量。这两个参数都是根据在脉冲注射非结合示踪剂后层析柱的响应计算得出的,即保留时间分布(RTD) 实验。HETP 对应于层析柱柱高内的理论塔板数 (N),高效层析柱的特点是 N 相对较大且HETP 值较小。根据一般速率模型,“装填良好”层析柱的RTD 响应是对称高斯峰。为了更好地评估装柱质量,RTD实验通常在流体动力学分散是传质的主要贡献(可忽略不计的颗粒内传质,无吸附)的条件下进行。在这些条件下,最小HETP 值理论上仅取决于示踪剂的性质、流动相的速度和层析颗粒的大小。然而,一般速率模型无法捕捉HETP 如何受到实际相关关键因素的影响,例如层析柱尺寸(层析柱直径和高度)或不同层析填料装填的难易程度。例如,Scharl等人定性地讨论了材料骨架对一系列预装柱的装柱质量的重要性。在实践中,经常观察到与对称峰的偏差,峰前沿或拖尾与许多非理想因素有关,例如柱壁效应、不均匀装填、溶质在从层析柱入口/分配器和出口/收集器之间的整个柱床内的不均匀分布,以及在额外柱体积中的分散。这种偏差通过不对称性来测量的,不对称性是一种经验参数,用于量化峰偏度,并与HETP 一起,用于评估装柱质量。

 

预测层析柱性能和层析工艺的数学模型,包括一般速率模型,通常基于第一原理。特别是,它们包括传质现象和结合动力学的详细信息,以描述峰分布和穿透曲线。虽然这些模型的预测能力通常非常出色,但它们需要通过独立实验进行大量校准工作,例如,确定关键模型参数,如传质和动力学系数。流动非理想性,例如柱壁效应和柱入口/出口处流体的分布/收集,也需要独立实验才能在模型中考量。这些额外的实验特定于所使用的层析系统(柱外体积)和层析柱(直径、高度),因此不能外推到不同的系统或不同的层析柱。最后,这些基于第一原理的模型在设计时并未考虑填料骨架和功能化学等定性变量。

 

机器学习 (ML) 代表一种用于分析和预测层析柱性能的替代方法。ML 的主要优点是能够不使用或仅使用最少的假设,而从大型数据集中提取信息,最终确定多个输入(包括定量、定性和分类参数)与输出变量之间的可概括预测模式。多年来,行业已经开发了许多算法,例如支持向量机、决策树、梯度提升和深度神经网络,并以实际的方式证明了它们处理复杂数据问题的能力。ML 已被应用于层析系统,并获得了许多成功的应用,例如峰观察、保留建模、过程优化和实时过程监控。与机器学习应用相关的主要挑战是机器学习算法非常大的实验数据集的可用性,以绘制有意义的相关性。

 

在这项工作中,我们考量了一个大型数据集,其中包含大约25,000 个预装柱质量保证实验,这些预装柱在超10年的时间内,在标准化条件下生产和检测。我们首先使用相关和自相关分析检查数据集的时间序列,以确保数据是自相一致的且与时间无关。然后,我们使用ML 方法来找出层析柱性能(根据 HETP 和不对称性测量)与层析柱定性变量(即填料骨架、功能化化学、层析柱尺寸(高度和直径)以及粒径)之间的相关性。最后基于影响层析柱性能的主要关键变量,对结果进行评论。

 

详细研究过程和结果,请参考原文。


图1. 在>10年时间内监测的预装纯化层析柱的 (A) 折合塔板高度ℎ和 (B) 不对称性𝐴𝑠的时间序列。


图2. 折合塔板高度h和不对称性As的自相关(acf)和偏自相关(pacf)。(A)h的acf;(B)h的pacf;(C)As的acf;(D)As的pacf。蓝色阴影区域对应95%置信区间。


图3. XGBoost对测试数据集(A)ℎ和(B)𝐴𝑠的预测结果。报告了(C)ℎ和(D)𝐴𝑠的可变重要性贡献。重要性的计算基于每个属性分割点所测量的性能改进,并根据节点负责的观察次数进行加权。


图4. 针对输入参数的ℎ和 As 小提琴图(骨架、功能模式、柱高、柱径、颗粒直径). (A) ℎ vs骨架 (PS/DVB: 聚苯乙烯二乙烯基苯; IS: 无机支持物;MET: 丙烯酸甲酯; AGR: 琼脂糖; POL: 聚合物嫁接;DEX:右旋糖酐; CEL: 纤维素; PVE: 聚乙烯醚亲水).(B) 𝐴𝑠 vs骨架. (C) ℎ vs 功能模式 (CIEC: 阳离子交换层析; AF: 亲和层析;HA: 烃基磷灰石层析; AIEC: 阴离子交换层析; HIC: 疏水作用层析;SEC: 体积排阻层析; IMAC: 固定化金属亲和层析; MMC: 混合模式层析;FA: 荧光团吸附层析; HCIC: 疏水电荷诱导层析). (D) 𝐴𝑠 vs功能模式. (E) ℎ vs 柱高. (F) 𝐴𝑠 vs柱高. (G) ℎ vs 柱径. (H) 𝐴𝑠 vs柱径. (I) ℎ vs 颗粒直径. (J) 𝐴𝑠 vs颗粒直径


图5. 功能模式与骨架材料组合的马赛克图。马赛克格子的大小代表每个组合的相对频率。PS/DVB: 聚苯乙烯二乙烯基苯; IS:无机支持物; MET: 丙烯酸甲酯;AGR: 琼脂糖; POL:聚合物嫁接; DEX: 右旋糖酐;CEL: 纤维素; PVE: 聚乙烯醚亲水; CIEC: 阳离子交换层析;AF: 亲和层析; HA: 羟基磷灰石层析; AIEC: 阴离子交换层析;HIC: 疏水作用层析; SEC: 体积排阻层析; IMAC: 固定化金属亲和层析;MMC: 混合模式层析; FA: 荧光团吸附层析; HCIC: 疏水电荷诱导层析

 

针对>10年内使用不同柱尺寸(柱高和直径)并装填不同填料(骨架、功能模式和粒径)的预装柱,将传统的统计分析(例如,自相关分析、卡方分析)和ML 被应用于装柱质量(折合塔板高度h 和不对称性As)的大型数据集(546种不同的层析柱特征组合)。自相关和偏自相关提供了一个定量框架,来分析层析柱质量随时间的变化。结果表明,装柱质量确实与时间无关,表明层析柱的制造、取样和检测在10 年内是一致的。


XGBoost 代表了一种出色的ML 模型,用于预测层析柱的性能,在 h 和 As 上的MAPE(平均绝对百分比误差)分别为 10% 和7%。根据所使用的 ML 工具,骨架对其预测能力的贡献最大。换言之,所使用的填料材料对层析柱性能的影响最为显著。分析还观察到了层析柱高度和性能之间的趋势,ℎ随着高度的增加略有增加,这与由于柱壁效应和轴向分散对谱带展宽的贡献较大一致。

 

总体而言,这项研究证实了 ML 仅根据一些基本层析柱特性(层析柱高度和直径、粒径、骨架材料和功能模式)的知识来评估和预测层析柱性能的能力。这些结果可用于推断新的以及现有层析柱类型的预期性能特征,帮助为新的和现有的预装层析柱生产线制定QA 方案,或作为实验室环境中传统装填层析柱的参考基准,特别是对于难以装填的层析柱,例如聚苯乙烯-二乙烯基苯。此处提供的结果可以指导层析柱优化方面的进一步工作,例如,预知装柱过程中可能出现的低效结果,以及改进骨架和功能模式、以获得易于装填的填料的建议。

 

更笼统地说,ML 提供了一种定量工具来描述具有多个输入特征的复杂问题,包括填料骨架和功能模式等分类特征。ML方法也可用于其它层析领域,例如,用于生成准确的保留模型、解析复杂的色谱峰以及检索具有优化性能的层析柱结构。


本文节选、翻译自以下文章,由于水平有限,详细内容,请参考原文。文章旨在知识分享,如有任何问题,请联系处理。

 

原文:Q.Jiang, S.Seth, T.Scharl, et al., Prediction of the performance of pre-packed purification columns through machine learning. Journal of Separation Science,2022, DOI: 10.1002/jssc.202100864.




相关阅读:

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存