查看原文
其他

用于上游工艺工作流的数据分析的最新进展

开朗的豌豆射手 生物工艺与技术 2022-12-21



 

本文节选自“Recent Trends in Data Analytics for Upstream Process Workflows”,由于水平有限,详细内容,请参考原文。

 

建模技术可以改善生物制药生产中的过程控制和监测。

 

生物药上游工艺的开发在稳健性、生产率和稳定性方面取得了一些进步。建模和数据分析工具(如机械建模、机器学习(ML)和人工智能(AI))可能会利用生成的丰富生物过程数据来获取过程知识并执行预测。然而,这些工具的工业化应用仍有很多不足之处。虽然这类技术在工业上有许多应用,但它们的广泛应用仍不普遍。本文将回顾上游工艺的数据分析建模方法,提供它们在生物制药行业中从上游工艺开发到验证工作流的潜在应用前景,并提出一个价值链峰,旨在通过质量源于设计(QbD)和过程分析技术(PAT)的应用,实现更好的工艺稳健性、过程控制和过程监测。

 

除了预测能力和优化过程理解,基于数学建模的方法在生物制药工艺开发中的应用还具有提高可视性和灵活性的好处,这可能有助于提高生产率。与QbD相关的药物开发数学建模的作用已经由FDA证明。此外,由于其稳健性、预测能力以及由FDA和欧洲药品管理局(EMA)定义的PAT和QbD概念驱动的理解,对数学建模方法的关注有所增加。

 

一个典型的端到端上游工艺工作流包括细胞系开发、选择合适的克隆、工艺开发、规模放大、风险评估、规模缩小模型(SDM)开发、工艺表征以及技术转移至生产。本文将只聚焦于生物药疗法上游工艺开发中使用的建模技术。

 

工艺开发

 

上游工艺开发包括工艺链的概念化 - 包括培养基和补液的开发 - 以及为了成功实现规模放大而进行的生物反应器参数优化。它还通过工艺表征研究等活动确定并评估影响产品关键质量属性(CQA)的关键工艺参数(CPP)。目前有不同类型的生物过程控制方式可用,而模型预测控制(MPC)似乎比其它方式更有前途。图1总结了统计、机械、机器学习和混合模型在上游工艺开发、优化和表征中的应用,表I展示了用于上游工艺开发的可用商业化技术。


图1. 统计、机械、机器学习和混合模型在上游工艺开发、优化和表征中的应用实例。DoE为实验设计、MVDA为多变量数据分析、SVM是支持向量机。


表1. 可用于上游工艺开发的商业化技术。FBA为通量平衡分析、CFD为计算流体动力学。

 

由于存在大量相关的决策变量和目标,统计技术最适合细胞培养工艺,并被用于定义设计空间;优化细胞生长、滴度和糖基化;进行根本原因分析;预测CQA;规模放大参数的相互作用研究;从克隆到实验室规模的规模放大/缩小;控制不同规模的工艺参数。在工艺开发过程中,规模缩小模型非常重要,因为它们可以帮助在更大的规模条件下复制结果,而在此规模下执行多因子实验是不现实的。辉瑞开发了一个新系统,其中,他们使用了180个微型生物反应器,用于评估相对于传统3 L生物反应器的规模缩小参数。最先进的统计建模工具,如Sartorius的SIMCA和MODDE、SAS的JMP、CAMO的Unscrambler以及Statease的Design Expert也对统计方法在生物制药行业的普及做出了贡献。


机械模型的主要目的是在输入和输出之间建立一种基于机械的关系,一旦验证,它们就可以用作预测工具。UCBPharma应用通量平衡分析(FBA),通过一个精心设计的中国仓鼠卵巢(CHO)细胞基因组规模代谢模型(GSM)描述四个工业细胞系细胞内通量的演化,这是GSM的应用实例。百时美施贵宝的另一项研究通过FBA演示了培养基优化和工艺理解。


在大多数情况下,通过微观细胞模型详细描述每一个方面在分析和计算上都是昂贵的。在这种情况下,宏观动力学模型可以为工艺优化提供足够的信息,并测试假设以及作出预测。即使在今天,最简单的非结构-非分离Monod动力学模型仍然是最普遍的首选,即使是多组分CHO生长动力学。尽管在参数估计方法和动力学数据方面存在局限性,但丰富的多组学数据为添加调控、信号传导和产品相关信息、最终形成大规模模型提供了空间。这些模型可用于过程理解和过程优化、过程设计和过程控制。动力学模型方程也可以与复杂的代谢途径相结合,以描述细胞培养趋势的动态,并帮助解决过程挑战。CHO细胞培养的动力学模型所展示的一些能力包括:代谢行为分析、通过补液开发预测糖基化、结合温度变化以及通过动力学-代谢模型解释糖酵解。类似的方法也被用于解释其它表达系统(如杆状病毒和Vero细胞表达系统) 悬浮培养中的动力学。


由于机械模型无法在尚未完全理解的过程中实现,而且数据驱动模型在其输入数据集之外存在不可靠的问题,混合建模成为了一种很有前途的方法,其旨在建立机械和数据驱动框架的组合,以获得更好的灵活性和稳健性。结合GSM、生物反应器动力学和人工神经网络分析(ANN),Insilico Biotechnology声称拥有一个商业化的混合建模工作流,也被称为生物制药工艺开发和克隆筛选的“数字孪生”。Datahow是另一家这样的公司,其提供独立软件和咨询服务,以应用确定性以及基于确定性知识的混合模型进行工艺开发和过程监控。Novasign也提供基于机械模型和统计模型的混合建模软件解决方案。Novasign已经在一种工业大肠杆菌生产过程中证实了强化DoE方法。


为了确保复杂而脆弱的治疗性蛋白质的产品异质性保持在预定义的规格范围内,必须通过完善的检测系统监测和控制生物过程,以实现实时控制。这种监控对于确保工作流程保持在FDA 关于 PAT 的建议范围内也至关重要,其中包含质量风险管理和过程理解。根据分析系统的位置,生物反应器监测技术可分为离线、在线和近线。用于过程监控的离线方法非常耗时,因此无法提供正在进行的过程的实时情况。理想情况下,传感器应该是非侵入性的、非破坏性的、稳健、快速、灵敏,并能适应生物反应器的动态条件。它还应该能够为化学计量学等数据分析技术生成高质量的多元数据。多种光谱技术已经在研究当中,例如紫外-可见 (UV-vis)、近红外(NIR)、中红外 (MIR)、介电光谱、拉曼光谱和荧光光谱,以了解它们在生物过程监测中的用途。其中,近红外和拉曼光谱在哺乳动物细胞培养和细胞治疗中最为流行。NIR 和拉曼之间的直接比较揭示了后者在灵敏度、选择性和检测限方面的优势。然而,由于NIR 更精确但不太准确,因此与拉曼相比,它在更大程度上不受光谱中微小扰动的影响。多个监控系统,例如Merck KGaA 的 ProCellics、Kaiser 的Raman RXN2 分析仪、Bruker 的 Matrix-F FT-NIR、ABB的 MB 3600 系列分析仪、Hamilton 的EVO i200 生物质系统、Renishaw 的 InVia 共焦拉曼显微镜、Foss Analytics的NIRSystems Process Analytics 过程分光光度计,以及多种分析软件,例如Merck KGaA 的 Bio4C PATRaman Software、Kaiser 的 iC Raman 和Siemens 的 SIMATICSIPAT 已经上市销售。


在 CPP 的实时监测方面取得了许多进展,例如葡萄糖、乳酸、细胞活性、氨基酸、翻译后修饰(例如N-糖基化),甚至病毒滴度。这种光谱检测产生的巨大光谱数据包可用于通过多变量数据分析(MVDA)的应用来提取信息。通常,预测回归模型是通过偏最小二乘法 (PLS) 或主成分分析 (PCA) 进行的,这些都可以在仪器软件中轻松获得。Biogen已经获得了一项基于PLS的方法的专利,该技术方法可使用拉曼光谱监测高达 4,000 L 的生产规模生物反应器,另一篇文章介绍了使用葡萄糖反馈回路过程自动化平台的产品质量控制策略。与基于拉曼的PLS 模型类似,近红外光谱也可用于生物反应器放大过程中的在线葡萄糖监测。除了统计工具外,近年来行业还在实施机械模型和机器学习方法,例如支持向量机和神经网络。Janssen 的一项研究表明,Cubist 的性能优于其它统计和机器学习模型,这说明预测算法的性能很大程度上取决于数据的特征,应通过整体方法进行选择。Amgen提出并验证了一种基于自动化机器学习的拉曼模型校准、评估和维护方法。然而,最有趣的概念之一是混合模型在生物过程监测和控制中的应用。它们在哺乳动物细胞培养中的早期应用可以追溯至1990 年代中期,基于 ANN、Monod 动力学和模糊逻辑。也有其它研究小组已经使用人工神经网络来补偿第一性原理模型的预测误差。

 

总结和未来展望

 

调查指出了数据分析链中费力的数据预处理步骤的影响,在存在高度异质性的生物工艺数据的情况中,这些步骤变得更加乏味。为了提高纸质流程的生产力,集成到实验室信息管理系统(LIMS) 中的电子实验室笔记本 (ELN) 现在已成为记录实验、查找和重用信息以及促进高效协作的行业规范。涉及主要生物制药公司的可查找(Findable)、可访问(Accessible)、可互操作(Interoperable)、可重复使用(Reusable)(FAIR) 等倡议已经就绪。

 

快速克隆筛选平台(例如Thermo Fisher的ClonePix)和高通量生产力和CQA 分析平台(例如 Perkin Elmer的 LabChip和 Sartorius的Octet)促进了早期细胞系的开发,这些平台使克隆筛选过程更加稳健和高效。从此类仪器生成的高维数据可用于多变量/统计建模,此外,深度学习模型可用于从仪器生成的数据中选择高性能克隆。目前,行业已经提出了各种自下而上的机械方法,例如基于约束的建模(CBM) 和基于组学的技术。然而,通过建模技术获得与行业相关的输出仍处于起步阶段。在这方面,控制论建模方法已经在微生物系统中取得了成功,也可以用于哺乳动物系统。预计在糖基化优化的稳健多目标建模和预测计算框架方面会做出更多努力,这是生物仿制药上游开发的关键组成部分。

 

本文中描述的用于优化、监测和控制的数据驱动建模方法试图对系统进行建模,这些方法是手动的,需要大量的人工干预。此外,在药物开发过程的每一步生成的目标和数据中都存在高度可变性,这带来了不小的挑战,因为机器学习或混合模型的默认超参数(例如,隐藏层和节点的数量)对于给定的模型通常不是最优的问题。手动拟合不同超参数组合的传统过程对于复杂问题可能无效。通过研发和生物生产中的自动化机器学习,可以实现一个包含数据预处理、特征提取、模型选择和超参数优化的建模平台。

 

对于过程监控、过程开发和过程控制,甚至可以探索一些最近的非常规过程控制策略,例如通过氧气转移率控制葡萄糖的新策略、基于通气的pH 控制策略和基于乳酸的补液策略,可以做进一步的探索。介电光谱等新兴监测技术已显示出在生物生产中的前景。更复杂的深度学习算法可用于软传感器建模,以解决监测生物过程中的干扰问题。基于混合建模和氧转移通量的新策略可以与标准实践一起应用于规模放大。应选择监测技术、仪器灵敏度和建模算法的最合适组合以获得最佳结果。这种选择对于连续生产更为关键,因为测量、监测和控制工具必须高度稳健和准确。

 

计算流体动力学 (CFD) 和隔间建模的应用将使组织在规模缩小、规模放大和技术转移期间受益,而这往常会由于对流体动力学的了解不足而受到阻碍。

 

尽管其它行业已经很容易适应数字孪生,但生物制药行业仍然缺乏数字孪生技术。数字技术的应用将通过减少实验和时间、改进控制和知识以及克服监管瓶颈来减少药物开发和生产的资本支出。软件和监测仪器等相关领域的进步将直接影响其成功实施。如图 2所示,根据其当前的适用状态,对传统和创新技术进行了分类。行业需要在生物工艺主题专家、自动化工程师和数据科学家之间形成协同效应,以顺利实施这些技术。


图2. 生物药上游工艺开发的潜在创新技术和未来前景。颜色编码是为了根据它们在生物制药行业的当前应用来区分这些技术。PC为过程表征、PV 是过程验证、CPV是持续过程验证、MVDA是多变量数据分析、DoE 是实验设计、CFD是计算流体动力学、FMEA 是失效模式和影响分析、FMECA 是失效模式、影响和临界分析、FTA是故障树分析、HACCP是危害分析和关键控制点、HAZOP是危害和可操作性研究、PHA 是初步危害分析。

 

原文:P. Pokhriyal, et al., “Recent Trends in Data Analytics for Upstream Process Workflows,”BioPharm International 35 (1) 20–25 (2022).




相关阅读:

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存