查看原文
其他

Nat Biomed Eng:利用深度学习从抗体序列中预测抗原特异性,优化抗体药物

智药邦 智药邦 2022-06-15
2021年4月,来自瑞士苏黎世联邦理工学院的研究团队在Nature Biomedical Engineering发表文章,介绍了一种利用深度学习从抗体序列中预测抗原特异性,从而优化抗体药物的方法。

以下是该文章的主要内容。



抗体药物的优化耗时间耗资源、极具挑战

在抗体药物发现中,从靶点到苗头化合物阶段是一个成熟的过程,杂交瘤筛选、噬菌体展示筛选、酵母展示库通常都会产生一些潜在的先导候选药物。然而,先导候选药物的优化往往消耗了药物临床前开发阶段的大部分时间和成本。

这主要是由于先导候选药物的优化需要平行处理多个参数,包括表达水平、粘度、药代动力学、溶解度和免疫原性,这往往需要进行额外的工程设计。虽然噬菌体和酵母展示为高通量筛选大型突变体库(>1×109)提供了强有力的方法,然而它们主要用于增加对目标抗原的亲和力或特异性。此外,几乎所有的抗体都需要在哺乳动物细胞中以全长IgG的形式表达,这意味着剩余的开发和优化步骤必须在这种环境下进行。

鉴于哺乳动物细胞缺乏稳定复制质粒的能力,抗体最后的开发阶段是在非常低的通量下完成的,这意味着只筛选了微小的变化。这也使得抗体多参数的优化非常具有挑战性。这种挑战经常导致临床开发的抗体的生物物理特性不理想,或产生不良的副作用,甚至药物开发失败。



深度学习可推断抗体序列-功能的复杂关系

应用于生物数据的机器学习提供了一种强大的方法。

神经网络的基本理念是通过模仿生物神经元的连接来学习变量之间的复杂关系。作为单层神经网络或感知器的延伸,深度学习包含了多个隐藏层来分析隐含在大型高维数据集中的关系。

近年来,随着深度测序和并行计算的发展,在具备适当的高质量训练数据的前提下,深度学习模型有能力推断出抗体序列和功能之间的复杂关系。

训练有素的模型可以用来对完全未见过的和新的抗体变体进行预测和推断。这种预测和推断非常适合用来分析庞大的抗体序列空间。因为即使是短短的十个氨基酸,序列的可能的组合会达到1×1013种,这种规模几乎是不可能通过实验来穷尽的。



CRISPR突变+实验产生大量训练数据,模型建立

在该文章中,研究人员使用了已经上市20年的、罗氏的抗体药物曲妥珠单抗(Trastuzumab),对深度学习优化抗体药物的方法进行了验证。 

研究人员从曲妥珠单抗的DNA序列开始,使用CRISPR突变方法创建了约50,000个抗体变体,并分析抗体变体对抗原HER2的结合特异性。测序结果显示,分别有11,300和27,539个独特的结合抗体变体和非结合抗体变体。然后,所有结合抗体变体和非结合抗体变体的序列被用来训练深度神经网络。原始数据集的70%被用来训练模型,剩下的30%被分成测试数据集和验证数据集用于模型评估。

研究人员调研了各种模型,以评估它们从现有的测序数据中对结合抗体变体和非结合抗体变体进行分类的准确性和精确度,最终发现CNN深度学习模型的表现优于其他测试模型,因此专注于进一步优化该类模型。

当完全训练和优化后,模型能够根据抗体序列高精度地、准确地预测抗原特异性。



用模型搜索7200万潜在抗体序列

然后,研究人员使用训练有素的算法搜索了包含7200万个潜在抗体DNA序列的数据库。该算法预测了相应抗体与抗原的结合程度,当置信度大于0.5时,通过预测筛选出10.6×106个潜在的结合抗体变体;当置信度大于0.7时,通过预测筛选出6.39×106个结合抗体变体。

为了进一步证明深度学习识别新的抗体变体序列的能力,作者随机选择了42个不同的抗体变体序列,其中30个是结合抗体变体,12个是非结合抗体变体。流式细胞计数发现,30个预测的结合抗体变体都是抗原特异性的(100%),12个预测的非结合抗体变体中有11个没有显示结合活性。

考虑到抗体药物开发的其他标准,如耐受性、生产要求、物理特性等,研究人员将候选抗体变体的数量进一步减少到了8,000。



发现改良的抗体药物

研究人员对经过计算优化的候选抗体变体序列进行实验表征,确定了高亲和力、高表达力、热稳定性良好和去免疫化的抗体变体。经过单细胞分选,选择了55个抗体变体。

进一步地,作者分析了前十个具有最高亲和力的抗体变体的可表达性、热稳定性和免疫潜力。发现其中五个抗体变体显示出与曲妥珠单抗相当或更好的表达量;所有十个抗体变体的热稳定性与曲妥珠单抗相当或更好;值得一提的是抗体变体1,其表达量与曲妥珠单抗相当,热稳定性有所提高,并且与曲妥珠单抗相比,抗体变体1大大降低了免疫原性的风险。

ETH的科学家现在正在使用AI方法来优化临床开发中的抗体药物。为此,他们最近成立了deepCDR Biologics公司,与生物技术和制药公司合作进行抗体药物开发。



总结和讨论

为了解决哺乳动物细胞中抗体优化的局限性,研究人员开发了一种基于深度学习的方法,能够高度精确地识别抗原特异性抗体序列。通过计算和预测抗原特异性抗体变体的各种生物物理特性,可以有效地识别出最可开发的抗体分子,从而大大节省时间和成本,并大大降低下游临床开发的风险。

在数据方面,利用临床批准的抗体曲妥珠单抗,研究人员进行了单点DMS和组合诱变,获得丰富的、高质量的抗体变体的训练数据。

在模型方面,研究人员选择CNN作为分类模型的基础,因为它代表了深度学习中最先进的方法。虽然其他机器学习方法如K-近邻、随机森林和支持向量机也很适合从输入数据中识别复杂的模式,然而随着数据集规模的不断扩大,深度神经网络的表现往往超过这些经典技术。此外,深度生成建模方法,如变异自动编码器和生成对抗网络,也可用于探索来自定向进化的诱变序列空间。

作者认为,未来的工作重点是在筛选过程中提高选择的严格性,或对预测概率和亲和力之间的相关性进行更详细的分析。而一旦抗体对目标抗原的亲和力处于有效的生物修饰的理想范围内,解决其他生物物理特性就成为抗体开发的重点,这也需要应用更严格的或额外的过滤器,进一步减少序列空间,最终找到跨越更多参数的最可开发的候选治疗药物。

参考资料

1.https://www.nature.com/articles/s41551-021-00699-9

2.https://www.eurekalert.org/pub_releases/2021-04/ez-dba041521.php

----------- End -----------




感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或姓名-学校-职务/研究方向






历史文章推荐    


进入临床试验的AI设计的药物 汇总V1.0
AI药物研发公司Exscientia的理念、技术与特点
Nature:如何使用AI分析真实世界数据,简化肿瘤临床试验入组标准
远程机器人实验室在AI药物发现中的应用价值与前景
AI药物研发公司Insilico Medicine的理念、技术与特点
2020年AI + 药物研发全景概述:(五) 2018-2020的主要突破性事件
2020年AI + 药物研发全景概述:(四) 制药公司与AI的合作
2020年AI + 药物研发全景概述:(一) 概要
20家顶尖制药公司如何将AI应用于药物研发:近年来主要合作活动
CDE关于发布《模型引导的药物研发技术指导原则》的通告(2020年第59号)


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存