查看原文
其他

Dr. X | 突破自然限制——蛋白设计新方法

Dr.X 药时代 2022-09-21


关于 Dr.X 

Dr. X 是由晶泰科技博士团发起的专业知识分享栏目,旨在向生物医药行业传递和分享全球 AI 药物研发的前沿技术与研发动态,促进广大药物研发从业者对 AI 药物研发的认知,推动 AI 等前沿技术在药物研发领域的应用。

设计出满足预期高级结构并实现功能的蛋白质,在新型生物药开发的实际应用层面具有重要意义。蛋白设计通俗来讲,就是在给定蛋白结构的前提下设计出能兼容这个结构的序列,可以看做是与结构预测“相反方向”的工作。预测与设计两者也并非完全独立的过程:与结构预测类似,蛋白设计也分为模板依赖型和从头设计(de novo design)两种方案。前者建立于自然进化的思想,通过对天然蛋白序列的少量突变设计达到改良已有蛋白的功能的目的。后者则完全建立在物理约束与化学稳定性基础上的全新骨架生成,实现对序列、结构的创新性探索,同时摆脱了自然进化对目的功能不相关的结构约束,实现超稳定、超亲和等特殊性质【1】。

蛋白从头设计的应用优势逐渐得到认识,也促使该领域在最近不断实现思路方法和算法的迭代和创新。本文将围绕近期蛋白设计相关重要技术及其特色展开。


 目标结构既定的蛋白设计

传统的蛋白设计方法需要预先给定目标结构,操作上依据经验势能迭代优化氨基酸序列和蛋白主链的方式实现,这种蛋白设计的方法被称为 ”fix-backbone design” 。随着深度学习技术的进步,也出现了新的结构生成方法。比如,使用天然结构片段作为构建基础,结合在发挥功能的关键位点,并由此“长出”一个完整的蛋白。在这种方式下,首先需要选择具备满足目的结构的片段,比如片段的长度、位置及其拓扑结构等,再与其他的蛋白质片段组装。通过能量函数计算,选取最容易折叠为稳定结构的蛋白,达到从头设计全新结构的目的。这种方法适合用于设计可阻断蛋白-蛋白相互作用的蛋白结构。


蛋白幻想

随着蛋白结构预测技术和基于反向传播设计序列方法的双向发展,在实现了 fix-backbone design 的基础上,研究者尝试回答蛋白设计领域的一个经典疑问:是否能设计一段蛋白质序列,使之能够折叠成自然界中不存在的稳定结构。此前的设计方法无法实现对自然拓扑结构的突破,主要原因在于这些设计都是基于大量具有相似性的序列(片段),找出对结构约束影响最大的表征参数完成的。

蛋白幻想方法的巧妙之处在于训练了一个与氨基酸序列无关的随机噪音,并训练获得 PDB 中所有蛋白结构的 2D 特征分布,作为背景分布。与前一代蛋白设计需要预先给定最终目的蛋白“结构蓝图”的思路不同,蛋白幻想无需获知蛋白的整体拓扑结构和/或二级结构元素长度、位置等约束,只需输入随机氨基酸序列并通过引入随机突变或梯度下降的方法,结合 Monte Carlo 模拟退火进行序列更新,尝试根据 KL 散度所描述的生成结构与背景分布的差异程度,决定是否接受当前的序列更新状态,构建最终的结构。最终研究结果显示,运用这种方法幻想出的 2000 个全新蛋白,62 个具有高度稳定性,多个幻想的结构与实际测定结果高度一致,表明幻想方法的可行性。研究者表示蛋白幻想可用于解决功能片段的融合设计问题,潜在的应用场景是酶设计、金属结合蛋白,以及蛋白 binder 设计中。

图1 蛋白幻想的方法示意。A) 现有多种结构预测方法采用根据序列或多组比对序列获得残基特征分布,进而构建出 3D 结构的方法。B) 随机序列生成的结构置信度低(2D 分布特征含糊);通过引入多步氨基酸替换并运用马尔科夫链蒙特卡洛(MCMC)算法不断优化2D分布特征,进而可以获得稳定的 3D 结构。C) MCMC 流程示意图。

尽管通过蛋白幻想,研究者已经可以实现无中生有“的蛋白质从头设计,但它仍存在一定的局限性:研究中使用的氨基酸随机序列长度在 100 个氨基酸左右,对全新生成的蛋白质主链的长度和对结构空间探索具有限制。


 主链结构设计

近日轰动计算生物学领域的事件是来自中国科学技术大学团队的研究,报道了一种名为 SCUBA(Side-Chain Unknown Backbone Arrangement) 的开创性蛋白设计算法,该算法不仅能从天然蛋白获取高维度关联参数,并经验证可准确用于全新蛋白结构序列的设计,相关研究成果发表于 Nature3】。

SCUBA 模型的核心思想在于,一段全新的蛋白主链结构是否合理(即可设计性/Designability)取决于是否存在可实现自动折叠的大量氨基酸。如果做到对主链充分采样、并不断优化“以主链为核心”的能量面函数就可以实现在主链不确定的条件下,达到获得具有“可设计性”全新蛋白结构的目的。SCUBA 模型建立了对蛋白质包括局部构象偏好、肽段中氢键几何分布、手性连接处的主链空间等的高维度参数表征;此外,虽然核心思想是以主链为核心,但 SCUBA 依然引入了侧链依赖的能量项,解决了完全不指定侧链时出现主链原子位置模糊的问题,且经过使用多种天然蛋白结构的模拟实现对不同能量项权重的高度校准(模拟天然蛋白使主链均方根差达到 1.6Å ),实现了精确可靠的无需模板的蛋白从头设计。

图2 SCUBA 蛋白质设计原理及 NC-NN 模型


 展望

从天然片段的组装到蛋白幻想再到主链设计,我们可以看到,随着技术及算法的不断成熟,基于特定功能的蛋白质从头设计已越发成为可能,且其可设计的空间也随着研究的深入不断增大。相信在 AI 等技术的高效赋能下,计算驱动的蛋白质设计将得到更多应用,为生物医药领域带来新的突破与革新,从而满足更多临床未满足的需求。


参考文献


【1】M. Baek et al., Science 373,871-876 (2021).

【2】I. Anishchendo et. al.,Nature, 600, 547-552 (2021)

【3】B. Huang et. al., Nature,602, 523-528 (2022)



关于晶泰科技

晶泰科技是一家量子物理与人工智能赋能的药物研发公司,通过提高药物研发的速度、规模、创新性和成功率,致力于实现药物研发的行业革新。作为一家立足中美、服务全球的企业,晶泰科技始终坚持探索最优解决方案,以充分利用前沿的研发与计算资源,最大化满足客户与合作方的需求。

晶泰科技的智能药物研发平台将基于云端超算数字化研发工具与先进的实验能力进行整合,形成高精度预测与针对性实验相互印证、相互指导的研发系统。作为全球先锋人工智能药物研发公司之一,晶泰科技已建立起一整套量子物理干实验室与先进湿实验室紧密结合的研发迭代流程,挑战传统研发的效率瓶颈,赋能新药研发实现创新速度与规模的突破。

业务/活动咨询请联系:bd@xtalpi.com


End



推荐阅读


点击这里,更多了解晶泰科技!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存