这么说吧,只要英伟达股价还能涨,我就会对此保持浓厚兴趣。
巧了,2024 年春节,英伟达创始人兼CEO 黄仁勋在迪拜有个高端对话。
阿联酋人工智能部长Omar Al Olama 问了个好问题。
黄仁勋回答的信息量很大,我不仅反复仔细看了,还讨论了一把。
“We say drug discovery, nobody says car discovery, we don't say computer discovery, we don't say software discovery。”
(此处有视频,请移步“亲爱的数据”视频号,顺手点关注)
黄仁勋谈道,
在未来,生命科学等相关领域不会用“发现(discovery)”这个词。
现在我们说“药物发现”,但不会说 “汽车发现”“软件发现”。
若词语用法发生变化,很可能是底层基础 技术发生了变化,导致含义有所变化。 “发现”是自然界里有,设计意味着可能自然界里没有。
黄仁勋没有用网红词“AI 颠覆”,而是在娓娓道来一种“转变”。
在他的描绘中,未来生物学(或者说以生物学为基础的学科)会像传统行业(比如汽车和软件)那样高度工程化 。
为了避免误解,我们先统一认识。生物学不是没有工程,本文不讨论原有工程,只聚焦科学转变为工程。
蛋白质是生命的基石,本文的讨论从AI 预测蛋白质结构开始。
蛋白质结构是决定其功能的关键因素, 了解蛋白质结构以便理解蛋白质功能,或者反过来,已知蛋白质功能设计蛋白质。
比如,药物筛选,了解蛋白质结构可以帮助筛选出更有效的药物候选物,缩短药物研发周期。再比如,抗体药物设计,已知抗原结构特征,设计能和该抗原稳定结合的抗体。
没有谷歌 AlphaFold 软件的时候,人类约已知 17 万种蛋白质折叠后的空间结构。
这些“已知信息”主要来自于实验室,方法包括X 射线晶体学、电子显微镜和核磁共振等成像技术。AlphaFold 是谷歌DeepMind 团队开发的一种蛋白质结构预测系统。根据蛋白质的氨基酸序列预测其三维结构。
AlphaFold 软件用到当时很新且很厉害的算法(MSA )。重点是对这些序列进行比对,找到氨基酸序列相似的蛋白质;进而推测未知结构蛋白质的结构。
打个比方,一个蛋白质和它结构相似的蛋白质多,好比“兄弟姐妹”多,这时候MSA 算法的效果就好。这样一种“靠亲戚”的算法,对孤儿蛋白(orphan
proteins )的预测准确度就比较低。 第二个台阶依然是谷歌跨上去的,谷歌在这个领域的实力不容小觑。
早在2020 年,AlphaFold2 展现出优秀的预测能力,预测精度达到与实验方法相当的水平。AlphaFold2 一顿猛干,从问世之时一直干到2022 年7 月,就把地球上几乎所有的2.14 亿种蛋白质结构都做了预测,这18 个月的成果是人类历史工作量的好几百倍。
AlphaFold2 的局限是停留在对现有蛋白质的结构预测,没有考虑设计全新蛋白质的需求。
第一个是ProteinMPNN ;第二个是ProGen ;第三个是RFdiffusion 。 第三个台阶是 David Baker (大卫·贝克)实验室的成果 ProteinMPNN 迈上去的。 David Baker (大卫·贝克)这个科学家特别值得好好聊聊。
这位生于1962 年的老教授,想必头发也有些花白了吧,我欣赏那种用尽毕生精力只为做成一件事的科学家。 David Baker (大卫·贝克)开创了预测和设计蛋白质三维结构的方法,称赞其为“蛋白质设计”领域的行业领军人物,实至名归。
我断断续续地观察他们团队好几年了,每每写这个领域,就不得不感慨,这团队又为行业做了不少好事。
有些科学家的AI 成果只停留在学术论文里,进展太小,创新极微,或者没啥人用;
有些科学家的AI 成果一经问世就属于某个商业实体,想用就要掏钱。
再反观David Baker (大卫·贝克)团队,论文高产似母鸡,专利收割机。仅仅是一个实验室的成果,完全可以拿出来和谷歌内部这个方向的团队PK ,我相信这种良性竞争是“ 推动行业进步的催化剂” 。
于是,2022 年9 月,David Baker (大卫·贝克)实验室拿出来一种蛋白质设计方法ProteinMPNN 。 教授的自我点评很关键,他说:“AlphaFold 是预测蛋白质结构,而ProteinMPNN 的作用是设计蛋白质。”
也就是说,传统方法通常通过改造现有的,而ProteinMPNN 不受已有蛋白质结构的限制。
自问自答一把:“自然界没有的蛋白质结构也能被设计出来了吗?”
“是的,例如,他们设计了一种前所未有的纳米环形结构的蛋白质。”
ProGen是美国斯坦福大学和千亿市值SaaS巨头企业Salesforce一起研究的。
2023年1月的ProGen,是一种生成式模型(Gen erative model )。
这点从ProGen 算法的名字上能看出来,也能从论文标题里看出来:
《大型语言模型可以跨越不同家族生成功能性蛋白质序列》。
第一,ProGen 用于生成不同功能的蛋白质序列,包括酶和抗体。
第二,ProGen 可跨越不同蛋白质家族生成功能性蛋白质序列。这意味着它们可以用于开发新的药物和治疗方法。
AlphaFold 2 证明大语言模型常用的Transformer 架构在蛋白质结构预测中很有效,ProGen 则证明了大语言模型在蛋白质设计任务中也可以承担重要角色。这个问题,我请华为于璠博士讲解。
他在 华为工作12年,现任华为昇思 MindSpore技术总经理。 在MindSpore 软件上,部署有计算生物领域套件,这个名为MindSpore SPONGE 的是生物计算的分子模拟工具。基于此工具,他们团队联合昌平实验室等科研机构完成了蛋白质折叠的训练与推理全流程(MEGA-Fold) ,同时还通过算法创新(MEGA-EvoGen) 解决了孤儿序列结构预测的问题,并在全球持续蛋白质结构预测竞赛CAMEO 中取得连续三次霸榜的好成绩。
这个团队我跟得比较紧,几乎看着他们一步一步做起来,前情故事收录于《我看见了风暴》一书。 于璠博士告诉我:“ProGen 算法把蛋白质看作一种语言。”
这句话不是很好理解,蛋白质和语言,就像生物课和语文课,两者看上去没有关系。
可以换个角度这么想,几十个氨基酸或者几千个氨基酸可以组成一个蛋白质,蛋白质有几亿种。英文字母组成单词,英语语言表达的意思也有上亿种。
大语言模型生成的原理是预测下一个词,简单点说就是成语接龙,只要不断电,机器能一直接下去。当你理解了大语言模型预测下一个词的方法,再把蛋白质看成一种语言。
那预测下一个“字 ”的“套路”,就能用在蛋白质预测的模型上了。
于博谈道:“ProGen 算法借鉴大语言模型生成文本的原理主要体现在以下两个方面:
第一,将蛋白质结构表示为一个序列,蛋白质结构可以表示为一个氨基酸序列,这与文本中的单词序列类似;
第二,大语言模型学习语言中的上下文关系,并预测下一个单词,这与预测蛋白质结构中的下一个氨基酸原理类似。”
简单讲,ProGen 算法的大致步骤如下:1. 将蛋白质表示为一个氨基酸序列;2. 用模型来预测下一个氨基酸;3. 重复步骤2 ,直到生成完整的蛋白质。
2023年初的ProGen作为一个语言模型,参数规模并不大,只有12亿。对比2022年末,元宇宙公司Meta的模型(ESM-2)有150亿参数,参数大了10倍。紧接着2023中,百图生科也推出了一个又大一个数量级的蛋白质语言模型(xTrimoPGLM),具备1000亿参数。
第五个台阶还是David Baker(大卫·贝克)实验室的成果迈上去的,他们团队真是高产。
2023年7月,他们实验室拿出了成果RFdiffusion,该模型能够定制化设计蛋白质。这一重要进展,既有潜力,也有挑战。
于璠博士的观点认为,大 模型的威力并没有完全释放,随着模型通用性能力的提升,生物领域也会受益。 他谈道: “从技术角度,可以把 AlphaFold2 理解为专有模型,擅长蛋白质结构预测这种单一任务,就好比机器翻译模型,擅长翻译; 引入语言模型的成功,代表着一种呼之欲出的趋势,把预训练大模型做好,下游很多生命科学方向的任务都能被统一解决。 ” 写到这里,我不禁感慨一句,工程蛋白质的野望,不像泡沫,像希望。
未来,生物领域的科学发现转变为工程,比如蛋白质发现,变成蛋白质工程。他这种观点,在小范围内引起了一些讨论,但尚未引起广泛关注。
RWKV一种新的LLM架构,以四个主要基本参数命名: Receptance Weighted Key Value(RWKV)。 周芃博士的背景跨越了类脑与大模型。她在美国加州大学圣克鲁斯分校取得博士学位。 比起同学科的博士,她在专注于脑启发式计算、类脑计算之外,又投身于大语言模型事业。她目前在研究将类脑的原理用于创新大模型结构。 她这样告诉我:“今天的计算机产业,规模大,分工细,从芯片到计算机体系结构,从硬件到软件。计算机产业依靠扎实的基础性发明奠定基础。那些半导体奠基人或者说诺贝尔物理学奖获得者的工作居功至伟,是典型的科学工作。而大部分软件从业者所做的相关工作是工程。
黄仁勋迪拜对话中这一小段话的意思是说,生命科学还处在发现生物世界本身规律的阶段,人类还没有进入生命科学蓬勃发展并创造出有巨大影响力且实用的东西的时期;
等到那个时候,绝大部分工作是工程。
打一个类比,生物学还处在发明半导体的时代。”
我接着问周芃博士:“能不能这样理解,未来会有一套计算机硬件、软件、系统、应用,基于生物所启发创造专用,进而再发展出一个生物的工程系统?”
我更进一步地问:“甚至,生物专有芯片,从研究到应用,全套围绕生物,甚至整个计算机软件栈全部都基于生命科学重新设计一套?”
她说:“是的,我认为未来得有这么大的一个产业。”
同时,她也告诉我,她相信未来生物学也会取得计算机产业今天所取得的成就。 这次,我也和百图生科首席AI 科学家,美国佐治亚理工学院计算机学院终身教授宋乐 聊了聊。
宋乐教授谈道: “我非常同意黄仁勋说的。 ”
他补充道:“主要是大规模预训练模型和生成模型让蛋白质设计变得越来越工程 。”
这种软件可以“模拟”“预测”高度复杂数字生物系统。
例如,在这种软件上,对某种蛋白质的结构可以预测得很准。预测准了之后,才能改造。
这样的话,便利之处在于,想开展什么工作,先通过软件来“模拟”“预测”。
或者说,不限于蛋白质结构,这个软件能对生命科学里面涉及到的属性做模拟,预测,和设计。 想用什么属性,都可以。 就像编辑文本一样,我们可以添加、删除或修改氨基酸来创造新的蛋白质。
类似这种通用蛋白质工程平台,像设计汽车那样,设计软件那样,来设计蛋白质。 目前,我们对蛋白质的理解是从分子微观层面理解生物的分子机理,
未来会对这个生命体的不同的层次进行模拟或者是建模或者预测。
未来,软件会从微观向更宏观的尺度进展。通过这种软件,可从不同尺度观察和模拟生命体。
系统层级越高,模拟越难。
目前的进展集中于分子尺度下。
未来,除了单个分子层面的“模拟”和“预测”,我们将能“看到 ”越来越多的分子相互作用,细胞,细胞相互作用,组织器官,甚至生物个体层面的“模拟”和“预测”软件或AI 模型。 我向宋教授提问:“分子尺度下的生物软件系统大约会在多少年左右发展起来?”
略加思考之后,他给我的答案是:
“5年” 。
“我们现在还在起步阶段,很多论文发表在《自然》《科学》杂志上,代表着一种 新思想的涌现。当下,模型的预测准确率也需要新的突破。 ”他补充到。 未来多种任务统一的通用生物大模型会有更大威力。百图生科做了一个1000亿参数的模型解读蛋白质,融合了蛋白质理解和生成两大类不同任务。 每次,我和宋教授交流,都感觉被前沿信息冲击了一把,如果不仔细思考,很容易理解不透彻。在交谈中,他还多次鼓励我,启发我:“你想象一下……” 引用宋教授的朋友圈里的一句话:“一起用预训练大模型见证生命科学的进化。”
聊了这么多,其实你会发现,于璠博士、周芃博士、宋乐教授,他们三位从某种程度上毫不费力地达成了共识。 补充一个视角:
DeepMind创始人戴密斯·哈萨比斯(Demis Hassabis)在和外媒 “Endpoint News” 对话(2023年9月26日)时谈到:
公司( Isomorphic Labs)的目标不仅仅是使用 AlphaFold 进行蛋白质结构预测,而是要更进一步,参与整个药物发现的过程。
他提到:“需要做另外6次大的突破 (We need to make another half-dozen big breakthroughs)”.
翻译过来:“距离AI参与整个药物发现过程,还需要 6个AlphaFold 级别的重大技术突破 。”
在我看来,Bio Tech 的科学家对技术趋势的判断总是非常大胆。
憧憬建造一个“生物的平行宇宙”, 猛一听,简直是像流浪地球一 样 科幻。 同时,我了解到有很多Bio公司一点也不Cloud Tech或者AI Tech。 有一位云厂商的销售老总告诉我,有家基因公司,实力强劲。结果,该公司上云的几行代码,放眼整个公司没有人会写,最后他只好自己上手了,幸亏他有编程背景。
不仅于此,不少生物实验室里的科研人员,每天干着不少类似“保洁大姐”的工作。 而我们这篇文章在大胆畅谈谈“设计蛋白质”“编辑药物”。 跨度有点大,是不是在胡扯? 质疑永远有意义,而像我这样的科技记录者和观察者,预判错误是家常便饭。 我认为错误与否并不最重要,而是观察和推论的过程里,我有收获,读者也有收获。
对于普通人来说,可用于医疗的工程蛋白质的时代已经越来越近了。
对于万亿市值的科技巨头英伟达来说,黄仁勋所描绘的未来,奔涌着财富的潮水。
按照David Baker(大卫·贝克)教授的判断:“如果你能完全按照第一性原理设计蛋白质 ,你就可以解决当今人类面临的许多问题——在医学方面,也在材料和能源方面。”
长文系列
1. 2023年终盘点:图文大模型编年简史
2. 跳槽去搞国产大模型,收入能涨多少?
3. 大模型下一场战事,为什么是AI Agent?
4. 假如你家大模型还是个二傻子,就不用像llya那样操心AI安全
5. 指令数据:训练大模型的“隐形助力”
6. 对话百度孙珂:想玩好AI Agent,大模型的“外挂”生意怎么做?
漫画系列
1. 搞掂大模型,如何榨干每一滴算力?
2. 大模型用于腾讯广告,难在哪?
3. 卷大模型开源,正确姿势是什么?
4. 腾讯混元大模型“干”广告创意:那我走,都让AI来?