查看原文
其他

Nature|仅根据靶点结构设计蛋白质的结合蛋白

智药邦 智药邦 2023-01-26

2022年3月24日,华盛顿大学蛋白设计研究所的David Baker、曹龙兴(同时在西湖大学)和Brian Coventry等人在Nature发表文章,介绍了一种仅根据靶点蛋白的结构信息就可以进行蛋白质从头设计的方法,该方法可以对治疗和诊断中各种蛋白质上的位点进行针对性的设计,具有广泛的用途。


摘要

在不使用其他信息的情况下,设计与靶点蛋白表面特定位点结合的蛋白质是一个突出的挑战。我们首先对蛋白质表面选定区域的可能结合模式的巨大空间进行了广泛探索,然后在最有希望的结合模式附近加强搜索。对12个不同蛋白质靶点(具有非常不同的形状和表面特性)进行的结合蛋白的重新设计证明该方法非常广泛的适用性。生物物理特性分析表明,这些结合蛋白都小于65个氨基酸,具有超稳定性,并且经过实验优化后,与靶点的结合水平在纳摩尔到皮摩尔之间。我们成功地解析出了五个结合蛋白-靶点复合物的晶体结构,所有这五个结构都非常接近于相应的计算设计模型。近50万个计算设计和数十万个点突变体的实验数据为该方法的优势和局限性、以及我们目前对蛋白质-蛋白质相互作用的理解提供了详细的反馈,并用来指导这两方面的改进。现在,我们的方法现在可以针对治疗和诊断应用中的各种蛋白质上的感兴趣位点进行针对性的设计。 

前言

蛋白质相互作用在生物学中发挥着关键作用,用设计的蛋白质破坏或调节这些作用的通用方法将产生巨大的影响。虽然实验室的经验性方法 (从非常大的抗体、DARPIN或其他蛋白质骨架库开始) 可以产生与蛋白质靶点的结合物,但一开始就很难针对靶点蛋白质表面的特定区域,并且很难对可能的结合模式的全部空间进行采样。计算方法可以针对靶点表面的特定位点,并提供一个更有原则的、可能比随机选择库方法更快的方法来生成结合物,洞察蛋白质界面的基本特性(要想设计成功必须了解这些特性)。

目前大多数用于蛋白质与靶点表面结合的计算设计方法都是利用来自天然复杂结构的信息。已有研究对具有不同环形几何结构的抗体结构进行计算对接,并产生了结合物,但设计的结合模式很少被高分辨率的结构解析所验证。结合物是从几个计算确定的热点残基(hot-spot residues)开始产生的,然后被用来指导天然蛋白质结构的定位。然而,对于许多靶点蛋白来说,在蛋白表面没有明显的口袋或裂缝,可以用来将少量的侧链放入其中。以上方法由少量的热点残基引导,因此仅限于一小部分可能的相互作用模式。

设计方法

我们试图开发一种通用方法来设计任意蛋白质靶点的高亲和力结合物,以解决两个主要的挑战:首先,在一般情况下,没有明确的侧链相互作用或二级结构堆积排列(packing arrangements)可以介导与靶点的强相互作用,相反,有非常多的、单独的、非常弱的可能相互作用;其次,选择将这些弱相互作用中的哪一种与单个结合蛋白结合的方法非常多,并且任何给定的蛋白质骨架都不太可能同时呈现可以包含这些相互作用的任何预选的侧链。

我们的方法有一个简单的比喻,就像面对一个非常困难的攀岩墙,只有几个好的立足点或彼此相距甚远的抓手。以前基于"热点"的方法只关注涉及这些立足点/抓手的攀岩路线,但这大大限制了可能性,可能没有办法将它们连接成一条成功的路线。我们的方法是:第一,确定所有可能的立足点和抓手,不管它们有多差;第二,让数以千计的攀登者选择其中的一部分,并尝试攀登;第三,确定那些最有希望的路线;第四,让第二组攀登者详细探索它们。

就像这个比喻一样,我们设计了一个多步骤的方法来克服上述两个挑战:1)列举一套庞大而全面的与靶点表面相互作用的虚拟侧链(disembodied sidechain);2)从大型的计算蛋白质库中找出那些可以承载许多这些侧链而不与靶点发生冲突的蛋白质骨架(protein backbones);3)在这些结构中找出重复出现的骨架基序(backbone motifs);4)生成并针对靶点投放第二轮包含这些相互作用基序的骨架(图1a)。步骤1和2对空间进行了非常广泛的搜索,而步骤3和4则在最有希望的区域加强了搜索。我们在下文中对每个步骤进行描述和说明。

图1 |  从头蛋白质结合物设计管道的概述。

a,我们的两阶段设计方法的示意图。在全局搜索阶段,数十亿的虚拟氨基酸被对接到选定的靶点区域,骨架的定位由有利的侧链相互作用引导。然后设计接口序列将其与靶点相互作用最大化。在集中搜索阶段,界面信息被提取出来,并进行聚类。然后选择有优势的基序来指导另一轮的对接和设计。接下来根据计算指标选择设计进行实验表征。请参阅补充数据图 1了解从头结合物设计流程的更详细流程图。b,PatchDock、RifDock 和重采样协议的采样效率比较。

我们首先将氨基酸与靶点蛋白对接,并将通常有数十亿个氨基酸进行有利的氢键或非极性相互作用的骨架坐标和靶点结合能存储在一个6维空间哈希表中,以便快速查找(图1a;见方法)。这种"旋转体相互作用场 (rotamer interaction field, RIF)"使我们能够仅根据蛋白质的骨架坐标,快速估算出与靶点对接时可实现的靶点相互作用能量(不需要耗时的侧链取样)。对于每个对接,哈希表中每个匹配氨基酸的靶点相互作用能量被加在一起。

由于蛋白质靶点大得多,而非极性相互作用是蛋白质-蛋白质相互作用的主要驱动力,我们把RIF的生成过程集中在感兴趣的特定表面区域的非极性位点上。RIF方法改进了以前的离散相互作用取样方法,将算法的复杂性从O(N)或O(N2)减少到O(1),考虑到侧链-靶点相互作用的数量,允许考虑数十亿而不是数千的潜在界面。

对于针对旋转体相互作用领域的对接,最好是有一组非常大的蛋白质骨架可选,因为任何一个骨架能容纳许多相互作用的机会都很小。这些骨架的结构模型必须相当精确,这样才能保证定位的正确性。利用片段组装、分段片段组装和螺旋延伸,我们设计了一套长度从50到65个氨基酸的迷你蛋白,含有比以前的迷你蛋白骨架库更大的疏水核心,这使得蛋白更稳定,引入设计的结合面更耐受。84,690个跨越五种不同拓扑结构的骨架被编码在大型的寡核苷酸阵列中。使用基于高通量蛋白酶解的蛋白质稳定性检测,发现34,507个骨架是稳定的。 

我们试验了几种将这些稳定的骨架与靶点结构的RIF对接的方法,平衡了整体的形状互补性和最大化特定的RIF。最有力的结果是使用直接的低分辨率形状匹配,然后在RIF(RIFDock)中进行基于网格的刚体方向细化。与单独使用PatchDock的形状匹配相比,这种方法在序列设计后产生了更好的Rosetta结合能(ddG)和packing(见下文)(图1b红色和绿色),与没有PatchDock形状匹配的分层搜索相比,与靶点的非极性相互作用更为广泛。

图 2 | 迷你蛋白结合物的从头设计和表征。 

a 和 d,以表面表示形式显示的天然存在的靶蛋白结构,在可用的模拟图中显示已知的相互作用关系。用于结合设计的区域以淡黄色或绿色着色;靶点表面的其余部分为灰色。b和d,由位点饱和诱变结果着色的设计复合物的计算模型。设计的结合蛋白由位置香农熵着色,蓝色表示低熵(保守)的位置,红色表示高熵(不保守)的位置;靶点表面为灰色和黄色。c 和 f,不同温度下的圆二色光谱(绿色:25°C,红色:95°C,蓝色:95°C,然后是 25°C)和(插入)222 nm 波长的 CD 信号随温度的变化用于优化设计。

由于用于建立RIF的散列的分辨率的损失,以及对侧链之间相互作用的必然近似计算(见方法),我们发现RIF解决方案的评估通过使用Rosetta力场的完全组合优化得到了很大的提高。然而,完整的组合序列优化是相当耗费CPU的,为了能够通过数以百万计的替代骨架位置进行快速筛选,我们开发了一种使用Rosetta的快速预筛选方法来识别有希望的RIF对接。我们发现,只包括疏水性氨基酸,使用比标准Rosetta设计计算更少的旋转体,以及更快速的可计算能量函数,使设计速度提高了10倍以上,同时与全序列设计后的结果保持了很强的相关性;这种预筛选大大改善了最终设计的结合能和形状互补性,因为可以处理更多的RIF方案。

我们观察到,在某些情况下,将标准 Rosetta 设计应用于对接筛选导致模型具有不满意的极性基团和其他次优特性。为了克服这些限制,我们开发了一个组合序列设计方法,在避免埋藏极性原子的同时,最大限度地提高与靶点的形状和化学互补性。使用基于结构的序列图谱提高与骨架单体结构的序列兼容性,在基于蒙特卡洛的序列设计阶段对交叉界面的相互作用进行加权,以最大限度地增加结合物和靶点之间的接触,并在包装前消除含有埋藏的不满足的极性原子的旋转体。与标准的Rosetta界面设计相比,该协议产生的氨基酸序列更有可能折叠到设计的结构中并与靶点结合。

在开发整个结合物设计管道的过程中,我们开发了一种与视觉评估更为一致的packing质量定量指标--接触分子表面(见方法),它以明确惩罚不良packing的方式平衡界面互补性和尺寸。我们用这个指标来帮助选择快速预测阶段和完整序列优化后的设计(见方法)。

为了产生更好的设计,我们加强了对设计好的界面周围的搜索。我们开发了一个重新采样协议,从第一个"广泛搜索"的设计中提取所有与靶点蛋白有良好接触的二级结构基序,根据这些基序的骨架坐标和刚体位置对其进行聚类,然后在每个聚类中选择具有最佳每位置加权Rosetta结合能的结合图案;为每个靶点选择大约2000个基序。这些基序被用来指导另一轮对接和设计:将库中的支架叠加在基序上,将有利的互动基序残基转移到骨架上,并对骨架序列的其余部分进行优化,以便与靶点产生进一步的相互作用,通过骨架扭转角最小化来增加骨架的灵活性,以提高与靶点的形状互补性(图1a)。相对于广义搜索阶段的设计,基于重采样协议的设计的界面指标得到了很大的改善(图1b)。从大范围搜索和重新取样阶段中选出的具有最有利的蛋白质折叠和蛋白质界面指标的设计进行了实验验证。

实验测试

以前的蛋白质结合物设计方法只在一个或两个靶点上进行了测试,这限制了对其通用性的评估。为了稳健地测试我们新的结合物设计管道,我们选择了13个目前相当受关注的天然蛋白质,涵盖了广泛的形状和生物学功能。这些蛋白质分为两类。第一,参与信号传导的人类细胞表面或细胞外蛋白,第二,病原体表面蛋白,其结合蛋白可能有治疗作用(图2和图3)。

对于每个靶点,我们选择了一个或两个区域来引导结合物,以获得最大的生物效用和潜在的下游治疗潜力。

图3 |  从头设计的迷你蛋白对信号通路的抑制

使用上述协议,我们为12个蛋白上的13个靶点位点的每个位点设计了15,000-100,000个结合物。

为了评估每个设计是否像相应的计算设计模型那样折叠和结合,并研究折叠和结合的序列依赖性,我们通过排序位点饱和诱变库(SSMs)产生了结合表面的高分辨率足迹,其中每个残基都被20个氨基酸中的每一个替换了。

在几乎所有的情况下,我们发现少量的替换可以增加表观的结合亲和力,我们产生了结合5-15个这样的库,并在越来越严格(较低的靶点浓度)的条件下对结合进行排序。这些增强亲和力的替换中有许多是对酪氨酸的突变,这与酪氨酸在天然蛋白质界面中的高相对频率是一致的。这些亲和力增强的替换为改进方法提供了有价值的信息,因为这些替换最好是在计算序列设计计算中被识别出来。

我们在大肠杆菌中为每个靶点表达了亲和力最高的组合优化的结合物,以进行更详细的结构和功能特征分析。所有的设计都在可溶性部分,并且可以很容易地通过Ni2+-NTA色谱法进行纯化。所有的设计都有与设计模型一致的圆二色光谱,大多数(13个中的9个)在95℃下是稳定的(图2、3和表1)。通过生物层干涉仪评估靶点的结合亲和力,发现其范围从300 pM到900 nM(图3,表1和扩展数据图4)。序列图谱数据报告了设计上对结合至关重要的残基,但对结合的靶点区域的报告很弱。我们使用结合竞争实验、生物测定和复合物的结构表征的组合来研究这个问题。对于这9个靶点,这种表征表明其结合模式与设计模型一致。

参与信号传导的细胞受体

我们设计了针对PDGFR、EGFR、InsulinR、IGF1R和Tie2的结合位点的、以及针对TrkA和FGFR2结合位点附近的表面区域地结合物。与NGF、PDGF-BB、insulin、IGF-1和Ang1在酵母上的竞争实验表明,TrkA、PDGFR、InsulinR、IGF1R和Tie2的结合物与靶点部位的结合,与计算设计模型一致

病原体靶点蛋白

随着SARS-CoV-2冠状病毒大流行的爆发,我们应用我们的方法设计了针对SARS-CoV-2穗状蛋白受体结合域靠近ACE2结合位点的迷你蛋白,以阻止受体的参与。由于对冠状病毒治疗的迫切需求,我们描述了这些努力的结果;正如FGFR2、IL-7Rα和VirB8的情况一样,该方法产生了皮摩尔水平的结合物,这是已知在细胞培养中抑制病毒的最有效的化合物之一(IC50 0.15 ng/ml),随后的动物实验表明,它们在体内对病毒提供有效的保护。迷你蛋白结合物的模块化性质使其能够迅速整合到设计的流感和SARS-CoV-2结合物的诊断中。

所设计的结合蛋白都是非常小的蛋白质(<65个氨基酸),而且许多是3螺旋束。为了评估它们的靶点特异性,我们测试了与每个靶点的最高亲和力结合物与所有其他靶点的结合。很少有交叉反应(图4a),可能是由于它们的表面形状和静电特性相当不同(图4b)。与以前对亲和力的观察一致,这表明各种各样的结合特异性可以在简单的螺旋束中进行编码。

图4|设计的结合物具有高靶点特异性

高分辨率的结构验证

高分辨率的结构对于评估计算蛋白设计的准确性至关重要。我们成功地获得了FGFR2和IL-7Rα的非结合小蛋白结合物的晶体结构,以及H3、TrkA、FGFR2、IL-7Rα和VirB8的迷你蛋白结合物与它们的靶点的共晶体结构(扩展数据表2)。

图5|迷你蛋白结合物与靶点蛋白复合后的高分辨结构与计算设计模型非常接近

高分辨率的序列足迹(图2和图3)和竞争结果表明,这些界面既涉及设计的残基,也涉及靶点上的预定区域。实验确定的结构和原始设计模型之间非常接近,这表明实现高亲和力所需的替换在调整界面能量方面起着相对微妙的作用;复合物的整体结构,包括单体结合物的结构和详细的靶点结合模式,是由计算设计程序决定的。

设计成功的决定因素

为了使我们的从头设计策略获得成功,我们必须在所设计的约60个残基序列中编码关于折叠的单体结构和靶点结合界面的信息:没有折叠到正确的结构,或者折叠到预定的结构但没有与靶点结合的设计将失败。为了评估设计单体结构的准确性,我们对IL-7Rα靶点进行了额外的计算和实验。大量的骨架被叠加到第一次广泛设计搜索中确定的11个界面螺旋结合基序上,并按上述方法进行了序列设计。发现结合程度与结合基序的RMSD之间有很强的相关性,表明设计的骨架必须相当精确才能实现结合。

为了评估设计的界面的结合的决定因素,假设设计折叠到预定的单体结构,我们利用了本研究中产生的大型数据集(810,000个结合物设计和240,000个单一突变体)。不同靶点的设计成功率差别很大:对于一些靶点(FGFR2和PDGFR),产生了数百个结合物,而对于其他靶点(Tie2和CD3δ),从10万个设计库中获得的结合物少于10个。在所有靶点中,成功率和靶点区域的疏水性之间有很强的相关性,通过实验观察到的与靶点结合的设计往往具有更强的预测结合能,以及更大的接触分子表面。正如以前在设计蛋白质稳定性时发现的那样,迭代设计-建立-测试的循环,其中设计方法在每次迭代中都被更新,以纳入前一轮设计的反馈,这应该导致设计方法和成功率的系统改进。

结论

我们成功地为14个靶点位点设计了纳摩尔级别的亲和力结合物,这表明结合蛋白可以仅用靶点蛋白的结构信息进行从头设计,而不需要事先提供结合热点的信息或结合的复合物结构的片段。这一成功也表明,我们的设计管道为从头设计蛋白质界面的问题提供了一个相当普遍的解决方案,远远超出了以前描述的方法。

然而,仍有相当大的改进空间。只有一小部分设计能够结合,而且几乎在所有的情况下,其中最好的设计需要额外的替换来实现高亲和力的结合。此外,设计与高极性靶点部位的结合物仍然是一个相当大的挑战--这里的靶点部位都含有至少四个疏水残基。这项工作中产生的数据集(包括关于结合物与非结合物的信息,以及关于单个点突变体对结合物影响的反馈)将有助于指导开发直接从计算机设计高亲和力结合物的方法,而不需要反复的实验优化。更广泛地说,这里产生的新的结合物设计方法和大型数据集为研究蛋白质-蛋白质相互作用的基本物理化学,以及开发和评估蛋白质-蛋白质相互作用的计算模型提供了一个起点。

这项工作是朝着仅从结构信息出发直接计算设计高亲和力结合物的长远目标迈进的一大步。我们希望在这里创造的结合物,以及用该方法创造的新结合物,在作为单体蛋白的信号通路拮抗剂和作为多聚体格式的刚性骨架的可调整的激动剂,以及在致病性疾病的诊断和治疗中找到广泛的用途。与抗体不同的是,所设计的蛋白质在大肠杆菌中高水平表达时是可溶的,并且是热稳定的,因此可以构成下一代低成本蛋白质治疗的基础。更广泛地说,快速和稳健地设计任意蛋白质靶点的高亲和力结合物的能力,可以改变许多依赖亲和试剂的生物技术和医学领域。

参考资料

Cao, L., Coventry, B., Goreshnik, I. et al. Design of protein binding proteins from target structure alone. Nature (2022). https://doi.org/10.1038/s41586-022-04654-9



--------- End ---------


感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或  姓名-学校-职务/研究方向


- 历史文章推荐 -


蛋白质结构与AlphaFold

●Nature|确定蛋白质结构的短暂状态

AI+蛋白质错误折叠疾病的药物开发|Congruence获5000万美元A轮融资

●BIB|通过深度多任务学习准确预测RNA、DNA 和蛋白质结合的内在无序残基

●Curr Opin Struc Biol|蛋白质设计的深度生成建模

●Nat Methods|用AlphaFold以原子精度预测蛋白质结构

●Drug Discov Today|基于AI的蛋白质结构数据库有可能加速罕见病研究

●Nat Methods特刊|2021年度方法:蛋白质结构预测

●Nature Outlook|借助算法和模拟将蛋白质折叠的瞬时结构转变为药物靶点

Nature|人工智能助力蛋白质折叠预测

Science|AI揭示了蛋白质复合物的结构

●BioRxiv|利用AlphaFold-Multitimer进行蛋白质复合物预测

●谷歌母公司推出AI驱动的药物发现初创公司Isomorphic Labs

Nat Rev Drug Discov|AlphaFold对药物发现意味着什么?

●Nature社论|结构生物学中的人工智能将会继续


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存