“穿越周期,探索边界”——新药创始人俱乐部第八届年会于7月12日在苏州吴中区圆满落下帷幕。本届年会围绕会员深度交流的需求,对行业发展趋势及热点话题邀请极具代表性的专业人士分享交流。
今年年初,ChatGPT的热浪席卷而来,带来了一场全民的科技狂欢。GPT在获得热烈讨论的同时也让人们对其在未来的应用陷入了思考。如今人工智能与大众的“蜜月期”已过,正是我们聚焦到生物医药行业,探究GPT的出现是否会带来变革以及具体应用的可能之时。
GPT的意义究竟是什么?
狂欢背后,快速变化的科技力量有哪些?
未来,GPT在Biotech领域,有哪些应用前景?
俱乐部特别邀请到峰瑞资本合伙人马睿先生分享“数字化与GPT下的医疗与新药研发”。峰瑞资本比较完整地参与了AI制药1.0时代的整个发展和投资。2016年峰瑞投资了晶泰科技,2019年,在天使轮领投剂泰医药。如今晶泰和剂泰已经成为了AI制药领域的头部企业。峰瑞资本还在逆合成分析(智化科技)、超大规模化合物虚拟筛选(康迈迪森),在AI驱动的肿瘤代谢领域first in class新药开发(科因生物)和RNA大语言模型计算(北京衡昱)上做了布局。
让我们一同跟随马睿先生,去了解什么是GPT,探索在GPT这个大的变量下,会对生物医疗行业带来怎样的变化和机会。
GPT的出现,变革了AI领域,但这个技术在生物医疗领域会不会带来颠覆和创新,能否在可见的时间内形成商业化落地?接下来会不会进入AI制药2.0时代?我们很多人也在关心这些问题。要讨论GPT x Bio,首先要搞清楚这波AI技术革命是怎么来的。
GPT是一个生成式的预训练的transformer。GPT中的“G”就是Generative(生成式的)。生成式是指需要通过学习数据,抽取数据当中的规则,然后用这个规则来生成句子、图像、文本或者序列等。GPT中的“P”是Pre-Trained(预训练),它和大模型有关。大模型一般是指有1,000亿以上参数的模型。在做预训练的时候,可以用没有标注过的数据来进行无监督的学习。当在执行具体任务的时候,可以通过少量的标注数据,把它迁移到具体的任务上。所以说预训练和大模型的一个非常大的优势是不需要(或者只需要少量)标注的数据。这一点对应用在生物方向非常重要,因为生物中很多数据都是没有标注的。例如,知道序列,但我们并不一定知道生物分子的结构和其功能。GPT中的“T”就是Transformer,它是一种新的也被证明是目前最好的特征提取器,正是因为用了自注意力机制的新的提取器,才使得大模型、预训练和生成产生了可能。特征提取器这个说法对于做生物医疗的人来说可能是比较陌生的。我们可以想象一个神经网络,它有输入和输出,特征提取器就是中间的神经网络算法,用来提取数据里面的特征。特征提取器的好坏决定了分析数据的质量和速度。过去的3-4年,Transformer在NLP领域成为公认的效果最好的特征提取器。特别值得强调的是,它能够更好地捕捉长序列中的上下文关系,而且能够并行计算。并行计算这件事情非常重要,它使得训练模型的时间大大减少,天然匹配大模型和海量数据。Transformer从人脑的运行里面借鉴了一种机制——注意力的机制。如下方这张图,大家可以看这张图一秒钟,可能大部分人都能看到“锦江饭店”这几个字,但是右边比较浅的“喜运来大酒家”和最下面白色车旁边的女人可能就看不到。
这启发于人类在进化过程中发展出来的迅速从大量信息中找出重点信息的能力。我们一秒钟就能注意到最重要的事情,在这些事情上倾注更多的感知和计算资源。那这种注意力机制在NLP里是怎么实现的呢?实际上就是在语言处理的时候,每一个新的单词都去计算句子里面已有的单词和对要生成的单词的重要性,根据这个重要性来调整权重。在 Attention 机制引入之前,长距离的信息会被弱化,就好像记忆能力弱的人,记不住过去的事情是一样的。Attention 是挑重点,就算文本比较长,也能从中间抓住重点,这就是Attention,我们通过计算概率来知道哪个是我们应该关注的重点。生成式AI为什么重要?上一代的AI叫判别式AI,或者叫做分析式AI。它给出一个判别式的结果,是或否,0或1。例如,你会不会点我发送给你的广告?你会不会喜欢给你推送的小视频?生成式AI是从数据中学习到隐含的规则,再在这个规则的指导下来进行创作(生成)。所以我们很自然地看到它带来了不一样的应用,例如生成图像、视频、文本、程序、游戏等等。但我觉得更重要的意义是在算法上,生成式AI是更智能的AI。判别式AI需要非常高精准的标注数据,在数据当中去做分类,划定一个决策的边界。生成式AI给出的是一个条件的概率,也就是说给定x的情况下,y的概率是多少,它非常地精准,但是它经不起噪音的扰动,也并不真正理解它解决的问题本身。生成式AI是通过学习数据的分布,来了解数据是如何嵌入到空间里面的,通过比较数据的模式和异同来学习和理解。实际上我们需要更加地理解数据本身,才能找到它的规则,所以它叫做Understanding and Generating。这就是为什么说生成式AI从算法底层上来说能够更加智能,更加高级。更重要的是,生成式AI可以针对无标注的数据。对生物学来说,这非常重要,只需要给它序列,不给它任何其他的信息,它就能够通过学习序列,得到序列以外的信息。生成式AI很重要,那我们怎么去生成?上一代的生成器叫做GAN(生成对抗网络)。它有一个判别器来告诉我们生成的对不对。它把判别这一步做到了自动化。新一代的生成器叫做Diffusion model。
如上图的例子,在小狗的图像上加三维的高斯噪音,这个图像就变得模糊了一点,越加噪音越模糊,直至完全变成一个高斯噪音。把这个过程反过来,通过不断降噪,就能逐步得到完整的图像。Diffusion就是用神经网络,去学习这个反向、降噪的过程来实现(小狗/图像)生成。为什么Diffusion模型比GAN模型好呢?上图蓝色部分显示在加噪的前几步会进入到隐式空间,或者在去噪的后几步又会从隐式空间回到数据空间。实际上,我们利用这样的模型,能让神经网络更好地学到数据里面隐含的隐式结构。我们之前提到,Transformer很重要。没有Transformer,提取器就不够高级,也不够并行。下一代的AI将会是生成式AI,它比原来的AI更智能,我们也开发出越来越好的生成的模型。其实深度学习本身有两个大的矛盾,一是,对于某个子领域,可能并没有那么多数据。在AI制药,这点尤其突出。比如对于某个靶点蛋白,和它结合非常好或者有生物功能的小分子很少。二是,LSTM/CNN特征抽取器不够好,不能有效抽取数据里的特征和知识。Transformer发明之后,首先在自然语言处理的这些领域里面,像Bert和GPT这两个预训练的模型,就可能把原来多个子领域全部都统一起来,内化到Transformer的参数里面,变成了统一的模型,也就是大模型。有了大模型之后,就可以用数据对它进行预训练,我们逐渐可以用大模型,处理非常多的数据,模型也就越来越大。GPT4比GPT3大了非常多倍,大到一定的程度之后,就涌现了智能。李开复提到,我们从AI1.0来到了2.0。AI1.0是一个任务,对应少量的垂直数据,对应一个解决这个任务的具体的小模型。诸多数据集和诸多模型形成孤岛无法打通,需要劳动密集型的进行数据标注,无法真正形成平台。AI2.0,在数据端,集合了多模态的无标注的海量数据,在模型端形成一个跨领域知识的foundation的模型。训练好大模型之后,在具体执行任务的时候,只需要用少量标注的数据来做一个迁移的学习,就能够在具体的任务里面去执行,这完全是一个范式的转移。原来那些无标注的数据,是没法在1.0里面使用的,但可以在2.0里面使用。
PLM和NLP很像。上图最下方的泛素蛋白的氨基酸序列看上去跟一段文字没什么差别。这个蛋白的氨基酸序列就像字母表里的字母,蛋白的二级结构很像文字里的单词,如果用一定的顺序把这些二级结构连接在一块,就像一个有语义的句子。如果更大范围地把更大量的结构域累加在一块,就变成了一个长句。它跟语言很像在于,有的时候你改其蛋白中的一个氨基酸序列,它的功能就完全丧失了,在语义上你改一个字母,它就完全不是一个意思。有的时候,你调换一组单词的位置,却并没有改变句子的意思,很像功能域的重排。有的时候有语法正确,但是没有任何意义的句子,很像生物体内有的这种错误折叠的蛋白(内禀无序)。NLP是预测一句话里面下一个词出现的概率是什么。这个概率和句子中已经存在的词都相关,因此是一个联合的高维(长句子)的联合概率分布。相似的,蛋白语言模型也将是个高维函数。和物理相比,生物是更复杂的系统,其规律是非线性或者随机的,描述生物关系的函数往往更加地高维。我们很难找到简单的经验公式来描述生物过程。这就是为什么我们只能发现药物,而不能去对它进行设计。生物这样的一个高维的系统是最适合用AI来进行解决的。为什么AI特别适合解决高维的数学/科学问题?因为AI在隐式空间里对高维的问题进行降维,在没有维度爆炸的情况下来解决问题。Transformer这样更好的特征提取器帮助我们捕捉人脑看不到的隐含联系。超大数据、超强算力、超多参数在工程化上胜过人。制药是从分子到细胞再到人体,是一个多尺度的高维的问题,所以是天然地适合AI来做的。我们对于AI制药2.0的到来深信不疑。生物医疗里面的数据化和计算,我们把它简单分成两类。第一类是只关心生物大分子本身,沿着中心法则去看DNA、RNA、Protein;第二类是关心相互作用的数据化和计算。左边的图很好理解,从关心一个基因或一个蛋白变成关心一组基因或一组蛋白,逐渐来到了系统生物学的时代。右边的图,分子间的相互作用是AI制药关心的基础问题。本来我们关心一个蛋白的功能,但现在要把几十个蛋白串联,了解它们之间的相互作用,这个被称为合成生物学。所以在各个层次上它的计算能力是不一样的,而且差别是很大。从分子到细胞,从生物大分子到相互作用的计算,不能混为一谈。如果只从中心法则上的序列结构功能来看,其实我们在DNA层面,研究得是比较充分的。在蛋白层面,其实是进展最快的。但是在RNA层面,我们才刚刚开始。上图表格的左边半部分摘自中科院的娄春波老师的一个PPT。他的意思是,虽然你能计算,但是生物系统越复杂就越计算得不准,核酸层面能做到80%的精确度,到蛋白层面可能只有50%,到基因线路层面就只有不到10%,如果你在整个细胞层面来做modeling,就只能做一个定性的描述。右边我添加了相互作用的大致数据。算小分子和小分子相当于固相化学或者固态化学的这些计算还是比较准的,算蛋白跟小分子就已经不准了,而且这里面AI比CADD(computer aided drug design,计算机辅助药物设计)更加不准。AI的准确度能到多少,这是个见仁见智的问题。GPT会首先影响到图片中黄色高亮的这两个部分,蛋白设计、蛋白-蛋白相互作用的准确率、阳性率、设计速度会极大地提高,可能会超越我们的想象。如果一年之后再来看,这两个数可能就会非常地高。那将会带来非常大的颠覆,下面就举例说明。因此,先说结论(上图)。看GPT在Biotech领域里的机会,按照现状和技术渗透的先后我认为主要有以下几种机会。首先,GPT驱动的NLP的进步,直接应用于生物医疗知识的提取。我们能不能从知识、文献等里面挖掘知识?其实在AI制药1.0的时候也有类似的公司。例如,BenevolentAI。其次,是聚焦在生物大分子本身,序列-结构-功能,能不能去做计算?这个方向进展其实是很快的,比如说单体蛋白质结构的预测基本上已经被Alphafold2解决了。至于结构预测的逆问题蛋白设计,也就是给定功能或者结构,去设计序列,是现在发展特别快的一个领域。在过去一年半的时间里基本上是以月为单位在迭代进化:从计算蛋白的能量,到用transformer,再到用生成式AI和diffusion model。而相比于DNA和蛋白上的计算,RNA结构的预测和RNA的设计才刚刚开始。第三个层面,就是相互作用的计算。药物的设计往往要考虑抗体抗原结合,蛋白来作为binder(粘合剂),或者说是蛋白和小分子的结合。其实酶的设计,也是要考虑蛋白和小分子的相互作用的动态能量过程。AI制药1.0很有挑战的地方在于,它选了最难的问题——蛋白和小分子的结合计算,这个小分子还要能成药,最后还要在人体内有效。这些问题即便在今天来看还是有不少技术瓶颈,短期内难以解决。但是对于大分子,我们预测未来1—3年有可能解决蛋白和蛋白相互作用的问题,完全能用计算来解决。如果能实现,这意味着可能以后再做蛋白和蛋白的设计,不用再做实验了,可能和Alphafold2 一样精准,将会带来非常大的颠覆。
例一:Facebook做的ESM-2是一个基于蛋白的大模型。基于单序列,它就能给出结构。它和Alphafold2不一样的地方在于,它不需要MSA的序列。如果一个蛋白,我们找不到它的同源序列,用ESM-2来预测结构的效果比Alphafold2更好。如果一个蛋白,它有不少同源序列时,Alphafold2的预测结果会更好。ESM-2有150亿个参数,是比9300万参数的Alphafold2显著要大的模型。其实现在来看,在想要做到精准的前提要求下,大模型可能暂时还比不上已使用的正确的数据。
例二:Progen其实是美国的科技公司Salesforce做出来的一个条件蛋白模型。用2.8亿条蛋白序列预训练出一个大模型,再用5.6万条溶菌酶家族的序列微调一下,模型就可以用来生成带有溶菌属性的蛋白。结果,模型生成了100万条溶菌酶家族的蛋白序列,他们挑了100条来合成,测试结果显示其中的66条有溶菌的活性,其中的5个,活性还相当不错。上图中右下角红色的是原来天然的溶菌酶,蓝色是计算出来的溶菌酶,它跟定向进化一样,在序列空间里紧挨着原来的序列,它没有全新地生成序列,但是它生成了>30%序列不一样的序列,足够申请专利。这类模型可以被用于替代或者辅助定向进化。这种方法的限制是,极度依赖于自然界的同源序列,无法催生全新的结构。当然,定向进化获得了2018年的诺贝尔奖,如果能够用计算来帮助进化,这种方法也非常有价值了。例三:在核酸上也是同样,只要有序列,就能做出大模型,在增强子、启动子和TF结合位点上能够达到一定的预测水平,还能预测突变株。上面的例子都证明了,利用大模型去学习序列的数据,就能够做一些计算和预测,能够达到一定的预测水平和精准度。但是一个重要的问题是这对于制药水平够不够?我们知道,制药级别的分子对接需要达到1Å级的精度,即便只是预测蛋白的结构也不能超过2.5Å的误差,这是原子级别的精度。GPT的模型如何与有精准要求的制药来匹配?我们认为主要是从几个方向去进行加强:- 数据:从单序列预测,到添加结构信息、MSA信息 (至关重要)
- 新的算法:graph,transformer,diffusion
数据是至关重要的。例如,添加MSA或者结构信息对结构预测非常重要。这也非常合理,添加结构相关信息,形成序列到结构的映射,比只用序列信息要准确。MSA信息也是内含了结构的信息,虽然它是多序列比对,但它告诉你进化上哪些氨基酸残基在结构上接近。你需要在垂直领域有非常深的know-how,例如蛋白设计,而不能只会简单调用大模型。只有在垂直领域有数据积累和know-how,才能更懂如何借用AI的最新进展,包括但不限于图神经网络、Transformer和diffusion。“最后一公里”的时候,要用物理模型来“精修”一下。目前来看,大模型和制药之间的Gap,可能是这么拼上的。我们以蛋白结构预测和蛋白设计为例来说明,AI是如何被应用,以及实现非常精准和越来越好的预测的。Alphafold2就是用了MSA信息加上Transformer,实现了计算和实验一样的精度。由于非常准确,它建立了一个蛋白的1D序列到3D结构的数学公式。我们已经很擅长判别什么样的序列像一个蛋白的序列,因此蛋白设计也从计算物理能量,转变成一个计算概率的数学问题,这就自然地使得蛋白设计从物理计算变成AI的计算。物理计算有两个难点,一是精度不够,对算力要求高;二是构象空间不能充分采样。AI通过在隐式空间里降维,让你能够一目了然地找到目标。这就让我们从算最低的能量,变成了算最高的概率。AI的设计成功率大概是能量计算的10倍,带来了非常大的颠覆。蛋白设计领域做得领先的是美国的David Baker,他不仅尝试了结构预测、AI的设计,而且开发了Protein MPNN和RF diffusion。Protein MPNN通过,添加结构信息来提高精准度。用图神经网络表示蛋白,然后将蛋白结构输入到模型中。利用稀疏的图输入,将Alphafold2 network改“轻”。这个模型只有170万个参数,Alphafold2是9,300万个参数。但是Protein MPNN在设计蛋白的时候,比Alphafold2效果还要好。而且它特别擅长设计大的蛋白,它能够很好地完成1万个氨基酸的蛋白的序列的设计。这在以前基于能量计算的Rosetta Deisgn时代是无法想象的。David Baker还做了很多幻想设计(生成),实际上就是给你一个随机的序列,用Alphafold2去判断它是不是像蛋白。很多序列其实并不能折叠成一个蛋白,如果不能,就去改变(一个)氨基酸的序列。通过MCMC序列优化(每步随机替代其中的一个氨基酸),步数足够多后,得到像蛋白的结构及其序列。幻想设计可以锁住活性位点,生成剩余的部分,可以用来设计酶、结合蛋白的蛋白、抗体表位等等。例如David baker用family wide hallucination(家族中保守区域的结构/序列进行锁定,而非保守的结构进行自由幻想)的方式成功设计了人工荧光素酶。蛋白结构预测模型采用self-attention更好地捕捉序列和结构之间的关系,但在生成方面的能力较弱。如果结构模型和diffusion结合在一起,把蛋白结构预测模型巧妙地用扩散模型的方式进行训练微调,就产生了RF diffusion。这种主链设计工具大大提高了设计的阳性率(过去对于每项设计任务需要实验尝试成百上千个蛋白,用RF diffusion最少只用设计1个蛋白),大幅缩短了设计的时间(从原来的半天到现在的几秒钟),这是非常革命性的进展。由于diffusion可以独立地对旋转和平移矩阵,添加三维高斯噪音从而获取训练数据,比hallucination中一步步优化的MCMC要快和更有效率,RF diffusion全面碾压基于幻想的RFdesign,在几个月内就自己革自己的命。RF diffusion能设计非常大的纳米颗粒蛋白,设计蛋白与蛋白相互作用,针对蛋白靶点都能拿到nM级别甚至pM级别的binder,它能设计金属催化剂,基本上在众多的设计任务上都是目前最好的模型。未来2年的一个前沿就是主链-侧链一体化考虑的设计。一般是给定主链的,去采样侧链,以及得到序列;或者是用天然蛋白拼接成主链,再进行设计,因为主链一动计算量就太大了,问题太复杂了。但是现在最前沿的算法可能已经可以一体化考虑主链、侧链,或者考虑更多的柔性。我觉得这会是一个tipping point(爆发点)。如果这个问题被解决了,那可能在药物设计精度下的大分子设计大概率都会被解决。相比大分子,小分子的问题更难。生物技术公司Schrodinger官网提到,可能AI没法在小分子对接上有所作为,因为小分子稍微变化,整个功能改变得很多,无法被AI完全识别。我们觉得,小分子上暂时可能还绕不开物理的计算,我们更看好物理结合AI的计算方式。我们一再强调数据化特别重要,是峰瑞投资的重点。数据化,就是产生数据,是对生物系统和生物过程更好地进行表征、测量和计算。生物科技的一切狂飙都开始于人类基因组计划。过去30年,全基因组测序的成本,从30多亿美元,降到今天的100美元,没有任何一个领域像生物科学这样有这么多的(序列)数据。另外,因为AI产生的模型最后判别的标准不能是AI自己,还得是实验验证。我们可能绕不开实验和测量。干湿结合的数据化的超级平台有其存在的道理。数据化的程度也会影响模型本身。Alphafold2能成功,是因为我们已经有将近20万个蛋白结构的数据,并且利用了海量的测序数据在进化上的比对(MSA),而fold的种类只有1000多种。PDB蛋白结构数据 (17万)+ 进化信息(2834.2 millions)的测序数据 vs. 空间 (1400种fold,新fold很少)。如果考虑蛋白-小分子对接的问题,我们只有2万个高质量的小分子和蛋白结合的复合物的数据,但要解的类药化合物的空间是10的60次方。也就是,3D结构复合物数据 (2 万) vs. 类药小分子化学空间 (10^60)。所以我们要想一想已有的数据,和我们想要解决的问题需要多少数据量之间的对比,这样就能大概知道在哪里会有突破点,或者在哪里能率先突破。上图总结了大模型和生物“大”模型领域不同模型的训练数据和参数。生物模型其实还达不到大模型的标准。即使像ESM-2这样纯基于大语言模型的蛋白模型有150亿的参数,但这还很难和GPT3的1750亿参数相比。并且我们可以看到,真正精准的和好用的模型,如Alphafold2,ProteinMPNN,RF diffusion都不是特别大的模型。暂时来看,在生物模型上,好的不大,大的不好。但随着测序数据继续增加,情况可能还会变化。英伟达预测序列数据将会大爆发,在未来3年,增长到30EB(比2021增长6倍)。目前,序列的数据远远多于结构的,结构的远远多于功能的,未标注比例很高,特别适合做无监督学习。Gartner预测到2025年,可能有30%的药是由GPT或者Generative AI来生成的。随着序列数据进一步爆发,以后有可能就不用再去操心MSA,怎么去配模型和物理计算等问题。美国生命科学风险投资公司Flagship Pioneering预测我们要进入到生成式生物学的时代。在前沿生物科技领域,峰瑞资本大概投了50多家企业,基本上是围绕上图三个逻辑。其中最首要的就是数据化,怎么利用新工具和新设备来产生数据;第二步就是说怎么利用AI来帮助我们理解这些数据,读懂生物底层的代码;第三步去做治疗或者做干预,需要元件、递送和新疗法。最近看到陆奇的大模型世界观,他也提到了三个系统,第一个系统是信息系统,实际上是产生数据;第二个系统是模型系统,对应现在的GPT,在这个模型系统中,AI在令人激动地发生变化;第三个系统更重要,叫执行系统,是自动驾驶、机器人和无人机等。
鄂维南院士提到,AI特别适合解高维数学方程,帮我们接近复杂的科学问题。相比于物理、化学和材料,生物学更加非线性和更加复杂,无法用简单的方程或原则描述,更加需要AI来帮助降维。我非常同意AI4S的理念,但在哪些领域,测量的工具给我们带来真正高通量的数据?我认为是在生物领域。因此Bio可能是最适合AI驱动的领域之一。Gpt x Bio会带我们走向AI制药的2.0时代。数据化是一切的基础,没有数据就谈不上AI。数据化一直是峰瑞投资的一个重点。如何用好已有数据,如何采集新的数据,例如芯片合成DNA、蛋白的合成和测量、蛋白和其他生物分子相互作用的测量等也将是重要的方向。AI本身,或者模型系统本身,也在发生着革命。这一波的革命是由几件事情引爆的——从判别式到生成式的AI、Transformer的应用、大模型和预训练等。模型应用于生物科技,或者借鉴革命的思想启发生物科技新的进展都是我们关注的方向。我们即将进入生成式生物学的新时代。过去的生物学,是在进化的范围内观察和记录。生成式生物学有机会利用AI找到生物系统和生物过程的底层规律;用规律生成新的生物学或者进化路线以外的广阔空间中全新生物分子,来颠覆药物研发,这就是生成式生物学最大的意义。蛋白设计是几条大的技术线的交叉,虽然蛋白设计在投资上已经热过一波。但是我觉得和ChatGPT的场景来对比,蛋白设计的容错率会更高。如果能通过蛋白设计,找出人无法找到的分子,会带来更大的颠覆,非常期待未来3年这个领域的技术进展和应用创新。
点点这里,了解我们,欢迎加入