机器学习设计新一代基因治疗载体，克服基因疗法主要挑战

智药邦 2022-06-15

The following article is from 基因治疗领域 Author 张晓涵

腺相关病毒 (AAV) 载体介导的基因治疗广泛应用于患者的主要障碍之一，是多数患者对AAV有预存免疫反应或在治疗后所产生的针对AAV的免疫反应。

高通量 DNA 合成、混样及其测序等技术的进展加速了载体衣壳的优化改造，衣壳优化改造的目的主要集中于以下几个方面，即载体的产率、基因组包装质量、靶向性、免疫原性及其转导效率。

本文概述了机器学习（ML）结合病毒免疫学和高通量测序技术设计新一代衣壳载体，以扩大基因治疗载体的适用范围，造福广大患者的进展。

目前迫切需要对AAV衣壳改造以提高基因疗法的疗效及安全性

目前临床上使用的多数AAV载体衣壳序列或其特性与野生型AAV衣壳极为相似，甚至一些为野生型AAV衣壳。自然选择状态下产生的AAV衣壳，在靶向性，转导率上存在明显不足，尤其是在系统性给药情况下。提高组织细胞的靶向性、转导率将会提高基因疗法疗效的持久性、适用范围等。预存免疫反应（预存体液免疫反应与预存细胞免疫反应）往往会明显降低药效及其持久性，还会可能引起严重的临床副作用，这限制了AAV基因疗法的适用人群，此外，给药后引发的机体适应性免疫反应同样也会降低药效，及其持久性，甚至带来严重免疫毒性风险。因此，有必要研发能够有效逃逸免疫反应的AAV衣壳载体，这也是下一代基因治疗载体的研发重点之一。

目前获得新型AAV衣壳的方法主要有自然发现、合理设计及定向进化策略。定向进化方法虽然突变衣壳后的筛选通量高，但是符合期望的突变体相对不多，有效突变体得率低。合理设计需要专业知识来进行衣壳突变设计，筛选通量低，针对每个突变的成功率相对定向进化策略要高，但是总体上算下来，筛到的成功突变体数量相对定向进化策略并不高。机器学习（ML）提供了一种新的选择，兼备了高通量筛选与高成功率，机器学习既可以与目前主要筛选策略相结合，也可作为一种独立的衣壳设计与筛选手段。

概念：机器学习应用于载体衣壳工程化改造

机器学习的最新进展为设计免疫逃逸衣壳提供了新的解决方案。但从实践的意义上来说，机器学习是一种通过利用数据，训练出模型，然后使用模型预测的一种方法。机器学习中的“训练”与“预测”过程可以对应到人类的“归纳”和“推测”过程。通过这样的对应，我们可以发现，机器学习的思想并不复杂，仅仅是对人类在生活中学习成长的一个模拟。由于机器学习不是基于编程形成的结果，因此它的处理过程不是因果的逻辑，而是通过归纳思想得出的相关性结论。更大、更丰富的数据集对传统的理性设计方法提出了巨大挑战，但却是 ML 方法所需要的，为ML方法的发展提供了有利支撑。ML 模型可以用计算机代替劳动或资源密集型实验筛选方法。

随着训练数据量的增加，预测结果会变得越来越准确。重要的是，ML方法不需要太多细胞分子机制方面的生物学或化学方面的知识，当然生物方面的洞察力可以以一种增强模型预测准确性的方式融入 ML 模型构建中，从而方便用更少的数据训练出更准确的ML模型。ML 可以帮助人们简化呈现及理解高维数据及其高通量数据的形式，使人们可以有效完善改进实验。此外，尽管人们对AAV 基因治疗的许多机制细节仍然知之甚少，ML模型对衣壳相关的生物化学相关机制是不知的，在某些情况下，通过这些模型可以指导或完善人们对AAV一些生物学机制的了解，但根据有关的实验数据训练的ML模型能够有效的用于设计改造衣壳。

从ML 的定义可看出这种方法应用于衣壳改造的巨大潜力。首先，ML 算法可以学习任意序列到函数的关系。这些关系可以从衣壳序列及其相关特性的大型数据集中自动学习，一个模型可以一次预测一个或多个属性。例如，可以训练模型以了解衣壳序列与其产生有效衣壳的能力或衣壳序列与其对肝脏的趋向性之间的关系，这种训练模式，称为监督学习，需要收集我们打算预测的数据标签（测量值）。但是，也可以仅基于一组好的示例来训练模型，而无需额外的测量。例如，在快速增长的一组公开可用的蛋白质序列上训练模型来学习它们之间的关系，这种类型的训练，称为无监督学习。有监督和无监督的训练方案都可以产生预测模型，在给定输入序列的情况下输出属性值，或者以期望的属性值作为输入产生新的序列。值得注意的是，构建具有良好泛化能力的模型，需要在实验设计和模型训练方案上谨慎。否则，模型可能会过度拟合。

其次，有效的ML方法通常利用嵌套，嵌套是一种相对低维的空间，可以将高维矢量映射到这种低维空间里。通过使用嵌套，可以让在大型输入上进行的机器学习变得更加容易。一种简单且广泛应用的方法是主成分分析 (PCA)，这一方法利用正交变换把由线性相关变量表示的观测数据转换为少数几个由线性无关变量表示的数据，线性无关的变量称为主成分。主成分的个数通常小于原始变量的个数，所以主成分分析属于降维方法。主成分分析主要用于发现数据中的基本结构，即数据中变量之间的关系。PCA 和其他更复杂的非线性降维方法将高维原始输入数据转换为更易于解释、可视化和优化的低维表示。如果上述方法可以应用于 AAV 衣壳改造方面，那么具有相似特性的 AAV 变体序列在被转换为 latent 表示后，在 latent 空间中会更接近，虽然它们在序列空间中相距很远。最近的一篇报道称人们使用了一种类似的策略来预测多种病毒中逃逸突变的出现。

此外，现有表现比较好的监督学习需要大量的标注数据，标注数据是一项枯燥无味且花费巨大的任务，庆幸的是，目前的ML可以把为任务 A 开发的模型作为初始点，重新使用在为任务 B 开发模型的过程中，这种机器学习方法被称为迁移学习。迁移学习在机器视觉领域应用较为广泛，以“风格转换”为例，让机器从艺术家的作品中学习其特定的绘画风格，然后将其风格应用于任何新输入的图像，将新输入的图像风格转换为相应艺术家的图画风格。迁移学习可以在生物学许多情况中使用，例如就某一AAV血清型相关的预测而言，目前可用的数据很少，可用借鉴其它血清型相关数据，甚至可以借鉴数据量更大的其它相关类型蛋白数据进行预测建模。除了能够整合来自多种模态的数据、信息的能力外，迁移学习还可以在数据量有限的领域快速推进 ML 模型的应用，并为其预测和设计开辟新的领域。

降低给药剂量

通过衣壳改造提高衣壳载体的组织、细胞特异性转导（即载体的靶向性）可以有效降低给药剂量，进而降低载体激起的免疫反应，降低严重临床免疫毒性风险。

使载体更安全有效，往往需要优化载体衣壳的多个属性，载体衣壳的多个属性间是相互联系相互影响的，针对载体某一属性（例如提高转导率）的优化，往往会同时影响其他属性（例如载体产率，载体的靶向性，免疫原性等），这为针对载体衣壳的优化带来了很大挑战。ML 模型可对衣壳突变体进行计算机筛选，极大的减轻了载体衣壳优化的实验操作负担，在一定程度上保证针对其中一个属性的优化不会干扰其其他属性。例如：可以训练四个监督模型来学习衣壳序列与功能之间的关系，构建衣壳序列与①肝脏转导率、②靶向性、③免疫原性、④载体产率之间的关系预测模型，模型①预测出的对肝脏高转导率的突变体，可以模型②③④做进一步预测，排除那些靶向性差，免疫原性高及产率低的突变体。机器学习应用于生物学方面的大量工作集中在使用监督模型优化设计蛋白质序列的算法上。

延长疗效

理论上，有些基因疗法一次给药，终生有效。在实践中，这个目标有时无法实现，因为目前一些基因治疗载体转导基因进入机体后，会随着时间的推移，其疗效逐渐减弱，可能是由于细胞分裂、表观遗传学机制导致的基因沉默、被基因转导的细胞死亡等因素所致，在很多临床研究中发现，转基因细胞丢失的一种机制是因为被转导的细胞提呈衣壳抗原，引发特异性细胞毒性T细胞反应（CTL），导致转导细胞被清除。

了解衣壳抗原呈递的决定因素及其对 CTL 激活的影响将为 ML 模型设计逃避免疫反应的衣壳提供基础。抗原肽段的呈递规则在蛋白质组数据库中共享，这意味着 ML 模型训练可用所有现有的数据库数据集。通过迁移学习，由其他蛋白数据训练的这些预测模型可以调整为更准确的模型来预测 CD8+T 细胞针对 AAV 衣壳变体的 T 细胞表位。在少量 AAV 衣壳抗原提呈相关数据的基础上，就能够针对AAV衣壳进行有效的工程化改造，以降低其免疫原性。

克服预存抗体的影响

人是多种血清型AAV的自然宿主，尽管AAV在人群中流行率较高，很多人也存在针对多种血清型AAV载体的预存体液免疫与预存细胞免疫，但目前仍旧普遍认为AAV载体是合适基因治疗应用的较优载体之一。

预存的AAV中和抗体会降低AAV载体的转导效率，尤其在进行系统给药时其影响更为明显。NHP与小鼠实验表明体内低水平AAV8中和抗体即可明显阻止AAV8载体对肝脏的转导，给药前预存AAV中和抗体的去除明显提高了AAV载体的转导效率，其中空衣壳诱饵策略虽然有效，但是得警惕其AAV外壳高剂量带来的免疫毒性风险。

AAV中和抗体除了影响AAV转导效率外，抗AAV抗体与AAV结合后可以激活补体途径，对相应的组织器官造成免疫损伤。AAV系统给药后，一些临床试验中出现的急性免疫毒性反应可能与抗AAV抗体引发的补体途径激活有关。

针对AAV载体的体液免疫（HC Verdera et al - Molecular Therapy, 2020）

此外，抗AAV抗体可影响AAV的靶向型即影响AAV在体内的分布。研究人员采肝脏表达特异性AAV载体进行研究，给药动物5周后进行解剖，其转基因水平高的动物，载体主要分布于肝脏；转基因水平低或检测不到转基因产物的动物，载体主要分布于脾脏。推测可能是AAV与其抗体结合后形成抗体抗原复合物，与单核细胞表明的Fc受体结合，驱使载体分布于脾脏。

抗体结合衣壳外表面上的线性和不连续抗原表位，有时跨越相邻的衣壳亚基，使改变这些位点的有效方法存在较大困难。此外，中和抗体通常靶向的衣壳区域是与细胞受体识别等关键功能相关的区域，这意味着阻止抗体结合的突变也会对载体转导产生不利影响。

人体抗体如何结合和中和衣壳还有很多细节需要了解，现在有几种技术能够在单克隆水平上对抗体反应进行高通量定位。现在可以对 B 细胞编码的数百甚至数千个病毒特异性抗体进行常规测序、克隆和制备，抗体的表位可以使用高通量竞争分析来表征，并且可以推导出结合位点位置和中和活性之间的相关性。最近开发的利用冷冻电子显微镜的方法及高分辨率、定量、基于蛋白质组学的方法使血清抗体特异性能够以非常精细的细节进行表征，包括其结合位点及其其他特征。单个抗体水平分辨率数据将使 ML 模型能够学习抗体如何结合特定衣壳表位及ML 模型可用这些数据来预测抗体对相应AAV衣壳的影响。基于上述策略，ML模型可以在在具有预存抗体的患者接受AAV给药前，用于预测AAV载体给药此患者后是否会引发严重的抗AAV免疫反应。通过衣壳特异性 B 细胞的高通量测序和血清抗体的表征数据，可以在 ML 模型的帮助下创建个人“免疫指纹”，这也可用于发现抗体抗衣壳反应的一般模式。相关的研究发现，针对某些病原体，其主要的中和抗体仅仅只是其中的一类，而病原体激发的大量特异性的其他抗体则不具中和活性或中和活性很弱的结合抗体。鉴定出针对AAV的一类主要中和抗体，鉴定出衣壳抗原表位，将会有助于针对中和抗体结合位点对AAV衣壳进行工程化改造，从而更广泛地逃避抗体活性，以实现改造出能够治疗所有患者的通用型衣壳的目标。

展望

ML驱动的衣壳工程化改造将会改变基因治疗药物递送的格局，但从降低免疫原性来看，非衣壳改进策略也很重要，例如：通过改造载体基因组降低先天免疫的激活、与靶向免疫调节剂共同给药以诱导对载体的耐受性或消耗预先存在的抗衣壳抗体。上述降低免疫反应的非衣壳改造策略应该在与衣壳改造策略的协同作用，有望为载体有效重复给药铺平道路，同时也进一步提高了基因治疗的安全性和疗效。

如上所述，设计优化AAV衣壳的 ML 方法应用于多个方面：增加AAV靶向性，转导率，以降低给药剂量；逃逸CTL反应，从而使基因治疗药物疗效更持久；逃逸预存免疫，扩大AAV适用人群。虽然这些目标远大且雄心勃勃，但将所有这些优点能够同时结合优化于一个衣壳中将对该领域产生变革性影响。ML方法将通过整合来自不同实验系统的信息并提高多属性同时优化的效率来促进这一目标。我们乐观地认为，安全、高效、靶向性好、非免疫原性和通用型衣壳载体有一天将使基因疗法发挥其全部潜力，通过向机体转导治疗性或预防性核酸来治疗和预防疾病。专注于高通量检测与ML驱动的序列设计算法相结合的跨学科合作将大大加快实现这些目标的进程。

参考资料：

1.WEC, Anna Z., et al. Overcoming Immunological Challenges Limiting Capsid-Mediated Gene Therapy With Machine Learning. Frontiers in Immunology, 2021, 12: 1443.

2.Verdera, Helena Costa, Klaudia Kuranda, and Federico Mingozzi. "AAV vector immunogenicity in humans: A long journey to successful gene transfer." Molecular Therapy 28.3 (2020): 723-746.

----------- End -----------

感兴趣的读者，可以添加小邦微信（zhiyaobang2020）加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或姓名-学校-职务/研究方向。

清华女神，34岁的美女博士县长，辞职了

薄公子低调成台湾女婿 23日已在台举办婚礼

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊

故宫蛇年限定款藏书票，错过再等12年！

机器学习设计新一代基因治疗载体，克服基因疗法主要挑战

您可能也对以下帖子感兴趣

清华女神，34岁的美女博士县长，辞职了

薄公子低调成台湾女婿 23日已在台举办婚礼

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊​

故宫蛇年限定款藏书票，错过再等12年！

生成图片，分享到微信朋友圈

机器学习设计新一代基因治疗载体，克服基因疗法主要挑战

您可能也对以下帖子感兴趣

你手放哪呢，出生啊