查看原文
其他

从头设计出自然界中不存在的蛋白质,他让人类离“上帝之手”越来越近

药明康德 药明康德 2023-11-10

▎药明康德内容团队编辑

提到蛋白质从头设计,华盛顿大学蛋白质设计研究所所长大卫·贝克(David Baker)博士的大名可谓是无人不知、无人不晓。这位学术达人常年顶着一头蓬松的乱发,嘴角挂着孩子气的微笑,永远像年轻人那般活力四射。在追求知识和科学的心态上,大卫也总是像孩子般充满好奇,让人感受到他内心那份对未知世界探索的热情。


不过,可能很少有人知道,在走上生物化学研究的道路前,大卫的专业是研究哲学。1983年,一堂关于蛋白质折叠问题的生物学课程彻底改变了他的人生轨迹。自那以后,这个众多科学家前赴后继尝试破解的生物学难题便成了他毕生的研究课题。在今天的文章中,药明康德内容团队将结合公开资料为大家讲述大卫·贝克博士与蛋白质折叠之间的的不解之缘,并分享他在这一领域的突破性成就。


▲David Baker博士(图片来源:药明康德内容团队制作)


小小的蛋白质里藏着天大的疑问



在生物体内,蛋白质让很多科学家们着迷。这种分子的尺寸只有纳米大小,复杂程度却可以超过任何一台人造的机器,大自然的精妙由此也可见一斑。


1983年,在哈佛大学学习哲学的大卫·贝克在一堂生物学课程上了解到蛋白质折叠问题。此前的科学家们通过试验发现,这些复杂的蛋白质只由20种简单的氨基酸经过排列组合拼接而成,而一条氨基酸序列就已包含了它能形成蛋白质的所有结构和活性信息。就像有设计图纸一样,一条氨基酸序列可以自发折叠成唯一的三维结构,然后在细胞内发挥特定的功能——有的可以结合DNA,控制基因的开关;有的可以识别病原体,启动免疫反应。在这些现象背后,一个巨大的问题随之浮现:一条氨基酸序列从理论上来说可以有无数种折叠方式,那为什么它能够自发折叠成唯一的三维结构呢?


图片来源:123RF


自那堂课后,大卫对这个数十年来困扰了无数科学家的难题产生了极大的兴趣,甚至不惜转换专业在生物学领域从头开始学习。而当他和导师提起他想要对这个难题发起挑战时,他的导师劝他不要头脑发热,因为“没人知道这是怎么回事”


听从了导师的建议,大卫将这一念头短暂封存,并在未来的诺奖得主Randy Schekman教授课题组获得了博士学位,主攻细胞生物学。博士后期间,大卫接触到使用计算机科学来进行结构生物学研究的方法。在这个过程中,他发现使用计算机解析晶体结构并不是他擅长的,但他却萌生出了另一个想法,或许计算机可以帮他实现那个他始终放不下的梦想——解开蛋白质折叠之谜。


向梦想靠近,开发出蛋白质结构预测程序



1993年,大卫成功获得了华盛顿大学生物化学系助理教授的职位,开始独立工作。在他招收第二个学生后,他建议学生借助计算机的力量做蛋白质结构预测相关的课题。1996年,他与研究生们开始编写一个叫做Rosetta的程序,这个程序有潜力根据一段氨基酸序列解出蛋白质的结构。


在自然界中,为了保持稳定,蛋白质总是折叠成具有“最低自由能”的形状。这就好像水会从高处往低处流,然后停留在那里一样。不过利用计算机预测蛋白质结构也并没有想象中那么简单。由于每个氨基酸至少有三种不同的构象,那么一个仅含有100个氨基酸的蛋白质,其可能的结构就高达3的100次方种,这对计算机来说都是个难以处理的运算量。


不过,Rosetta的程序设计用了一种十分巧妙的方法,它不是通过穷举法从这些天文数字般的可能结构中挨个寻找自由能最低的形状,而是先分析蛋白质的生物物理特性,模拟出一个大致的形状,然后进行微调,只留下自由能更低的结果。这样一来,研究人员们可以更快预测出蛋白质的结构。


图片来源:123RF


好消息是,Rosetta的表现十分惊艳。自1994年起,和大卫一样想要解开蛋白折叠之谜的生物学家们会定期聚在一起,检验各自的成果:就像考试一般,他们会拿到一个蛋白质的序列,然后预测出它的结构。随后,这些预测结构会和已通过实验方法得到解析但尚未公开的真实结构进行比对,看哪一个结构更为接近。在这个被誉为蛋白质结构领域“奥林匹克”的活动中,Rosetta程序总是最有力的竞争者,并且具有统治性的优势。


开发Rosetta的意外收获



在Rosetta诞生的过程中,大卫还有许多意料之外的收获。尽管Rosetta的设计经过优化,但预测蛋白质折叠所需要的运算量依然巨大。最开始,大卫只能通过不停购置新的电脑设备来扩大计算力,后来,新买的电脑把实验室的空间占满了却依然无法满足他们的需求。迫于这样的压力,大卫和他的学生们想出了一个绝妙的解决方案——借助互联网,邀请世界各地的人们用他们计算机的闲置算力来帮助进行计算。


2005年,大卫团队启动了一个做Rosetta@home的项目,基于他们开发的Rosetta软件包,利用分布式计算的力量来解析蛋白质结构。令人感到意外的是,这些“网友”们还给大卫发去了反馈意见,表示计算机折叠没有他们手动折叠来得更好。更巧的是,当他与一名计算机科学家聊起这些话题时,俩人灵感迸发,决定从Rosetta@home出发开发一款游戏,让全世界对蛋白折叠感兴趣的人能够发挥他们的才华,参与到蛋白质折叠的解谜游戏中。


这款名为Foldit的游戏由于能帮助学生更好地了解蛋白质的三维性质以及蛋白质结构和功能间的关系,已被一些大学引入课堂。更令人吃惊的是,一些该游戏的高级玩家还曾通过这款游戏破解了一种逆转录病毒的蛋白结构,并将成果发表在了《自然》杂志子刊上。


▲Foldit玩家确定M-PMV逆转录病毒蛋白酶结构的过程(图片来源:参考资料[12])


除此以外,与Foldit同时期诞生的还有一个名为Rosetta Commons的学术团体。这个团体的成员包括许多高校和研究机构的人员,其中很多都在大卫的实验室工作过。除了日常的交流合作,他们会定期举办会议分享最新成果、讨论如何进一步优化Rosetta,并开设训练营培训那些对Rosetta感兴趣但不知道如何使用的人。


从预测到模拟,破解上帝之手的奥秘



虽然大卫最初的研究方向是预测蛋白质的结构,但在这个方向上取得突破之前,他已着手向另一个截然相反且更具挑战性的领域——“蛋白质的从头设计”发起了冲击。相比于预测蛋白质的结构,从头设计出一个蛋白质需要向弄清蛋白质折叠的原理再迈进一步。这要求科学家们能根据一个具有特定形状的蛋白,倒推出其DNA序列。


从某种意义上讲,从头设计蛋白,要比预测蛋白结构难上几个数量级。假设要设计一个由100个氨基酸组成的蛋白质,每一种氨基酸又有20种截然不同的可能,使将得可能的氨基酸序列总数高达20的100次方。这个数字究竟有多大?它比整个宇宙中原子的总数还要多!


由于大卫在Rosetta的开发中已经取得过一定的经验,这次再开发从头设计蛋白质的方法就有了良好的基础。从DNA序列到蛋白质结构,Rosetta能找到能量最低的形状。那么反过来,Rosetta也能用来推导为了构成这一形状所需的蛋白组件。在此基础上,研究人员们还学会了如何像拆解乐高玩具一样,将一个蛋白质拆成螺旋或者桶装的小块,分块击破。


图片来源:123RF


2003年,大卫的团队设计出了第一个原本并不存在于自然界中的蛋白质,它被命名为Top7。这当然是一个重要突破,但却没有开辟一个崭新的时代。大卫实验室的成员开玩笑说Top7只是一块从热力学角度上看很稳定的“石头”。因为他们从头设计出的这个蛋白质虽然折叠成了研究人员们想要它折叠的模样,但不具有任何功能。


7年后,大卫的一名博士后研究员做出了改进。他将抗体的一部分连接到了人造蛋白上,使人造蛋白首度具有了功能:新合成的蛋白能识别流感病毒,有望成为一种新的药物,但这多少有些“作弊”的意思,毕竟最重要的那部分来自天然的抗体。


接下来的几年时间,大卫的团队对Rosetta进行了更多的优化。如今,大卫的实验室,以及他的合作伙伴们已能设计出多种不同的蛋白,有朝一日,人类完全获得“上帝之手”的能力将不再是梦想。


图片来源:123RF


不过到目前,从头设计蛋白依然是一个不断试错的工作,需要大量的资源投入。以设计结合蛋白为例,从流程上看,科学家会首先用Rosetta模拟出所感兴趣蛋白表面上的一个“口袋”,然后再设计出大量不同的螺旋结构,形成稳定骨架。这些骨架上含有一些特定的氨基酸,有可能会与“口袋”进行完美的契合。这个工作就像是在一把钥匙上不断打磨,最终使其完美地对应一把锁。


随后,研究人员们会根据设计合成所要的DNA序列,将其引入细菌细胞,期望它们能够产生所需要的蛋白。获取这些蛋白后,他们还会做两个测试:评估这些蛋白是否能如预期般折叠,以及折叠后的蛋白是否能如预期般结合特定蛋白。通常来讲,人工设计的蛋白极少能同时满足这两个条件。而那些脱颖而出的蛋白,则会成为新一轮设计与筛选的起点,直至获得最佳的构象。


遇劲敌,取长补短开启新一轮进化之路



在2018年以前,大卫及其团队开发的Rosetta在蛋白质结构预测领域完全没有对手。而那一年,一款DeepMind公司开发的叫做AlphaFold的机器学习算法令大卫嗅到了危机。AlphaFold通过一种叫做神经网络的算法可以模拟大脑的学习过程,使人工智能快速成为某一个领域的专家。


尽管18年的蛋白质结构预测竞赛依然是Rosetta拔得头筹,但首次亮相就获得了第二名的AlphaFold令大卫见识到了机器学习的过人之处。于是,他要求团队紧跟时代的风向,加紧研究机器学习。大卫的预感没有错,在2020年的竞赛中,第二代AlphaFold击败了Rosetta,一举成名。


不过,大卫率领着团队很快就追赶了上来。2021年7月15日,当DeepMind公司在《自然》杂志上发表论文,公开了“AlphaFold2”的源代码,并且详细描述了它的设计框架和训练方法时,大卫的团队也于《科学》杂志上介绍了其开发的RoseTTAFold算法。


相关阅读:《自然》《科学》齐发里程碑,两款新型AI精准预测蛋白结构


RoseTTAFold的神经网络能够同时考虑蛋白序列的模式、蛋白中不同氨基酸之间的相互作用,以及蛋白质可能出现的3D结构。在这个系统中,一维、二维和三维的信息能够相互交流,让神经网络综合所有信息,决定蛋白质的化学组成部分和它折叠产生的结构之间的关系。


▲RoseTTAFold系统结构简介(图片来源:参考资料[5])


研究人员表示,RoseTTAFold系统在解析蛋白质3D结构方面的表现与AlphaFold2的水平几乎相当,在有些蛋白上甚至优于AlphaFold2。利用来自AlphaFold的公开信息,也得益于多年来对于机器学习的积累,这个算法的开发只用了区区几个月的时间。


2020年,大卫因“开发的技术让人们可以设计大自然中从未见到过的蛋白”获得了素有“科学界的奥斯卡”之称的科学突破奖——生命科学科学突破奖。


下一站,剑指新药开发



作为蛋白质从头设计的先驱者,大卫希望通过“蛋白质设计革命”开启一个全新的时代,我们将学会使用一种前所未有的方式来操控生物分子,例如从头设计出全新的药物、疫苗、疾病疗法等,拓展新药研发的边界。


2022年8月,大卫及其团队在《细胞》杂志上发表论文他们已利用AI技术平台精准地从头设计出能够穿过细胞膜的大环多肽分子,开辟了设计全新口服药物的新途径。同时,大卫团队成员联合创建的初创公司Vilya也正式亮相,并从著名风投机构ARCH Venture Partners获得5000万美元A轮融资。利用这一技术,跳过高通量筛选、直接合成候选药物的策略不再遥不可及!


今年以来,大卫及其团队已在《自然》和《科学》杂志上发表了数篇重磅论文,其开发的全新的蛋白质从头设策略法可靶向不可成药靶点,并能实现按需设计生物分子,为蛋白设计提供了更广阔的可能性。


对于大卫的工作,很多人认为它就像魔法一样神奇。大卫本人也是这么认为的,他曾在一次访谈中表示:“我喜欢做这些魔法般的事情!”现在,年过60的大卫依然有自己的课题,并坚持自己做实验、展示工作成果。就像他在访谈中说的,如果想要像他一样充满创造力,“选择重大的科学问题,享受工作的每分每秒就好。”


大家都在看






▲欲了解更多前沿技术在生物医药产业中的应用,请长按扫描上方二维码,即可访问“药明直播间”,观看相关话题的直播讨论与精彩回放




参考资料(可上下滑动查看)
[1] Weijie Zhao, Chu Wang, Protein designer David Baker: I like doing things that seem like magicNational Science Review, Volume 7, Issue 8, August 2020, Pages 1410–1412, https://doi.org/10.1093/nsr/nwaa071

[2] WINNERS OF THE 2021 BREAKTHROUGH PRIZES IN LIFE SCIENCES, FUNDAMENTAL PHYSICS AND MATHEMATICS ANNOUNCED. Retrieved September 10, 2020, from https://breakthroughprize.org/News/60

[3] Scientists are finally learning how to design proteins from scratch. Drug development may never be the same. Retrieved June 24, 2022 from https://endpts.com/scientists-are-finally-learning-how-to-design-proteins-from-scratch-drug-development-may-never-be-the-same/

[4] Rosetta Commons- Overview. Retrieved June 24, 2022 from https://www.rosettacommons.org/software

[5] Baek, Minkyung et al. (2021) Accurate prediction of protein structures and interactions using a three-track neural network. Science. vol. 373,6557: 871-876. DOI:10.1126/science.abj8754

[6] RoseTTAFold: Accurate protein structure prediction accessible to all. Retrieved June 28, 2022 from https://www.ipd.uw.edu/2021/07/rosettafold-accurate-protein-structure-prediction-accessible-to-all/#:~:text=RoseTTAFold%20is%20a%20%E2%80%9Cthree-track%E2%80%9D%20neural%20network%2C%20meaning%20it,one%20another%2C%20and%20a%20protein%E2%80%99s%20possible%20three-dimensional%20structure.

[7] The protein design revolution. Retrieved June 30, 2022 from https://www.ipd.uw.edu/applications/

[8] Pan, Xingjie, and Tanja Kortemme. (2021) Recent advances in de novo protein design: Principles, methods, and applications. The Journal of biological chemistry 296: 100558. DOI:10.1016/j.jbc.2021.100558

[9] Mirdita, Milot et al. (2022) ColabFold: making protein folding accessible to all. Nature methods 19,6: 679-682. DOI:10.1038/s41592-022-01488-1

[10] Mohan, Kritika et al. (2019) Topological control of cytokine receptor signaling induces differential effects in hematopoiesis. Science 364,6442: eaav7532. DOI:10.1126/science.aav7532

[11] Silva, Daniel-Adriano et al. (2019) De novo design of potent and selective mimics of IL-2 and IL-15. Nature 565,7738: 186-191. DOI:10.1038/s41586-018-0830-7

[12] Khatib F, DiMaio F; Foldit Contenders Group; Foldit Void Crushers Group; Cooper S, Kazmierczyk M, Gilski M, Krzywda S, Zabranska H, Pichova I, Thompson J, Popović Z, Jaskolski M, Baker D. Crystal structure of a monomeric retroviral protease solved by protein folding game players. Nat Struct Mol Biol. 2011 Sep 18;18(10):1175-7. doi: 10.1038/nsmb.2119. Erratum in: Nat Struct Mol Biol. 2012 Mar;19(3):364. PMID: 21926992; PMCID: PMC3705907.


免责声明:药明康德内容团队专注介绍全球生物医药健康研究进展。本文仅作信息交流之目的,文中观点不代表药明康德立场,亦不代表药明康德支持或反对文中观点。本文也不是治疗方案推荐。如需获得治疗方案指导,请前往正规医院就诊。

版权说明:本文来自药明康德内容团队,欢迎个人转发至朋友圈,谢绝媒体或机构未经授权以任何形式转载至其他平台。转载授权请在「药明康德」微信公众号回复“转载”,获取转载须知。


分享在看,聚焦全球生物医药健康创新

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存