【凯泰行研】大分子AI制药行业研究
The following article is from 凯泰资本 Author 研究驱动投资
凯泰资本行业研究报告
——大分子AI制药行业研究
文|凯泰资本执行总裁 俞广为
【前言】
近年来在生命科学研究和生物医药研发数字化的背景下,AI开始在生物医药领域崭露头角。在生物学靶点发现、药物虚拟筛选、逆合成预测等分支上都获得了单点突破,尤其是2020年Deepmind设计的AlphaFold2算法在CASP14大赛当中惊艳世人之后,AI大分子药物研发平台如雨后春笋般在国内涌现。但是,前两年红透半边天的AI小分子药物研发公司在今年经历药物研发失败、后续融资不利的挫折下,让传统药物研发人才对大分子AI制药始终保持着冷眼旁观的态度。凯泰资本作为一家创新型基金,肩负着理解技术进步,通过创新投资变现认知,共同构建未来生物医药产业的使命。在目前全球经济下行、市场指数持续下挫的今天,也许我们停下脚步,和行业共同思考大分子AI制药的路径,能够帮助药物研发在未来更快进入到一个新的世界。
投资建议
现阶段倾向投资具有数据生成能力或者已经形成数据分享范式的大分子AI药物研发公司。当下,数据私有化才能构建壁垒。数据构建的方式应与开发药物的形态对齐,在垂直赛道深耕(细胞因子AI制药、抗体AI制药、多肽AI制药)的项目能更好地落地。
算法可作为公司初建的创新点和壁垒所在,但公司的核心点仍在于湿实验和干实验轮动的策略(平台化解决方案),应从对管线或者服务可能的效果上判断策略的有效性,从策略细节来判断公司对于数字化药物研发的认知。算法必须覆盖策略的核心环节,而不是可有可无的工具化产品(如药代动参数预测软件),否则商业价值很难保证。
公司团队除了需要多背景交叉,对于生物医药研发流程的超凡理解,还需要有强大的执行能力(算法产品化能力、商务拓展能力、湿实验组织能力等)和快速的跨学科学习能力。
行业研究
一、 行业发展历史
其实,通过计算研究药物的设想并不新颖,从1981年福布斯杂志专题报告《下一次工业革命:默克公司通过计算机设计药物》开始,这一概念就已经走入大众视野。但无论是计算机辅助药物设计(Computer-Aided Drug Design)还是化学信息学(Chemoinformatics),终究无法逃脱当时研发水平的局限性。构效关系研究、药物结构改造、药物理化参数预测等功能还是只能制作成软件,作为离散的工具使用。从21世纪初人类基因组计划开始,生命科学领域开始大量产生数据。2013-2015年,AI在其他领域的成功应用也促使了欧美的先行者融合建立了诸如Recursion、Insilico、AbCellera等公司。其中小分子和AI的结合更为成熟,包括Nimbus、Exscientia等企业均有项目推进到临床。2018年伊始,国内投资人也感受到了这股风潮,晶泰科技、星药科技等一大批企业在扶持下浮出水面。而2020年AF2的成绩,使信华生物、华深智药、分子之心等AI大分子企业形成了第二波AI制药投资热浪。
二、 行业发展基本现状
据目前观察,AI进入药物研发领域之后并未根本改变传统药物研发流程,即从临床前到临床,临床前药物研发从基因、蛋白到组织、器官、个体的验证顺序,原因有二:第一,目前业界不存在一种泛用化AI算法,可以在学习不同维度的数据之后,自主决策研发流程。目前AI能较好地解决描述清晰、规则相对确定的问题,这属于弱人工智能范畴;第二,目前任何算法平台累积的结果都不能保证在药物研发方面的预测准确率,基于伦理道德乃至法规的限制,干实验(计算实验)数据短期内不可能替代湿实验(真实实验)数据。驱动AI在各个应用场景当中有效应用,三大基本要素——数据、算法和算力——缺一不可,生物医药场景也不例外。
图|数据、算力、算法
1、数据
1.1 我们真的有数据吗?
现有的生命科学和药物研发路径决定了生命科学的数据结构,即依从基因、蛋白、细胞、组织、器官到动物和人类的排列顺序。如果AI药物研发科学家对生物医药数据问题泛泛而谈,那能得到的答案一定是数据积累已经走上了快车道,不同层面的公共数据库,包括GenBank(美国DNA数据库)、NONCODE(RNA数据库)、Uniprot(蛋白质数据库)运营良好。但从药物研发的角度来说,上述数据库侧重信息平台属性,依靠单一维度的数据很难建立起知识图谱,找到疾病和基因、蛋白或细胞之间的关系,建立系统认知,也就很难选择出靶点,进行有效药物开发。
生物学相比于化学和物理,目前生物学还处在一个快速发展的阶段,人类的生物机制网络搭建还处于早期状态,而药物研发往往和最新的生物研究成果息息相关,公开的数据存在滞后现象。除此之外,新的基因或者蛋白测定往往需要开发新的试剂盒和新的测定方法,因此存在固定成本前期投入的问题,过往累积的数据当中无法找到关联信息。最后,生物医药相关的数据生产成本非常高,全基因测序普及化的概念已经提出超过10年,但是离单人测序费用降至100美元的目标达成还有路要走,更遑论蛋白组学、单细胞测序等手段,单人几千美元的价格让几百或者上千组从基因到个体串联的数据集合变得非常昂贵。在细胞模型或者动物模型设计层面,大量疾病缺乏和病人临床表现密切关联的模型,模型的设计本身就是一种必要创新。
如果说上面的数据要求在所有药物研发当中统一存在,那么实际进入到药物早期发现和后续临床前开发阶段,无论是抗体还是多肽,创新药研发大概率会选择全新靶点和机制,则持续进行湿实验产生数据的循环目前无可避免。以AI研发抗体为例,目前除了少数公司声称可以从头设计抗体以外,绝大部分的公司需要通过传统B细胞测序、噬菌体展示甚至是杂交瘤筛选的方式先建立针对特定靶点的抗体结构库,然后再着手研究抗体-抗原结合机制,训练算法进行抗体结构优化。即便抗体结构可以通过计算机独立生成,后续的蛋白结合等验证实验无法免除。从产业端来看,无论是Abcellera的抗体生成平台、单细胞测序平台,还是Generate去年融资3.8亿美元扩大湿实验研究,现阶段数据生成能力对于AI公司的重要性不言而喻。
1.2 生物医药的数据共享在哪里?
生物医药研发数据的稀缺性和孤岛效应当然也给予从业者极大的动机去设立数据分享机制或者平台来最大化提升不同来源的数据价值。欧美在区块链、Web3等概念的先发优势也自然延伸到了生物医药领域。从2020年开始,欧美就有针对生命科学的协议诞生。目前像Molecule这样的协议已经开发了多个场景下的去中心化自治组织(DAO),譬如VitaDAO(抗衰老药物研发)、PsyDAO(迷幻药物研发)、LabDAO(生命科学实验协作)等。参与会员除了可以共享数据和IP(IP的NFT化)以外,还可以寻求项目资金支持。但在目前的情况下,DAO的主题多是在边缘地带(如罕见病领域等)形成所谓共识,在上面募资业务最为成熟,项目金额平均为20-30万美元,很难支撑有价值的科研结果,项目的质量也较高程度地依赖DAO组织的判断。IP和数据的交易因为量级不够,很难形成具有共识的公允对价。在国内,虽然有一些数据共享社群存在,不过因为对应利益分配机制缺失,所以只能由强势方来组织串联去中心化的内核缺失。
图|去中心化科学类自治组织的运营模式
数据分享形态除了DAO以外,另外一个值得关注的形态就是联邦学习(federated learning),即参与各方形成联盟,将同类数据或在本地训练的模型加密上传至第三方管理机构进行拼合。需要之时,其中一方可将算法输入给第三方的中央服务器,由第三方运行训练完成的算法,将输出交还给输入方,这样在理论上参与各方既不用担心隐私数据被窃取,另一方面各方也可以共同使用数据带来的预测能力。当下最知名的案例为MELLODDY(Machine Learning Ledger Orchestration for Drug Discovery,机器学习分类帐编排的药物发现),是由杨森制药于2019年发起,由17家生物医药知名机构参与的项目,旨在创建一个跨机构的实验性平台,统一各家数据,共享预测模型。该项目的起点不可谓不高,包含超过10亿的湿实验数据点,其中有来自40000种不同实验的2000万个小分子化合物的表征数据。合作以3年为期,在这个阶段内,联盟各方都可以免费调用训练的模型。可惜现实不是童话故事,2022年7月13日,MELLODDY发布公告,宣布为期3年的项目合作成功,增加数据对于模型的预测能力是有实质提升的。但MELLODDY没有公布具体哪款药物的研发通过项目的算法预测有了实质的加速,提升数值并没有想象中那么好(10%的应用水平预测能力的提升,4%的药理或毒理的定性预测水平提升,2%的定量预测水平提升),看来时代的限制不是依靠单纯的抱团就可以解决。
图|模型训练参与公司量和预测能力的关系
2、算法
2.1 蛋白结构预测带来的热浪
新算法的开发从来都是各家AI药物研发公司的重中之重。可是说到算法平台对于实际管线开发的助力,大分子领域海外公司的开发案例不多,而国内公司运营时间短,更是一个乏善可陈的状态,何况开发新算法从来不是制药公司的专属领地,不少TMT公司如腾讯、百度、华为、字节跳动和阿里巴巴也躬身入局,寻找生物医药场景下自身的定位。AF2问世之后,大量AI药物研发参与者就开发出了自身版本的蛋白结构预测算法,无论是Uni-Fold(深势科技)、TR-Fold(天壤科技)、Vibrantfold(信华生物)、Omegafold(华深智药)、Helixfold(百度)等都在保证预测结果的前提下,运算效率有了显著的提升,而一些特色功能包括华深智药宣传的不利用MSA进行预测,Uni-fold的自动搜索药物结合位点还是TR-fold希望兼容的蛋白-蛋白相互作用,未来还需要结合研发案例进行效果观察。
Alphafold解决的蛋白质的结构问题一直是生物学的研究重点,药物结构的合理设计也需要了解蛋白质靶点结构及其和功能之间的关系。在AF2诞生之前,无论是传统生物学当中使用X光晶体衍射,还是低温电镜的方式直接测定蛋白结构,还是计算生物学采取物理计算相关(量子力学+经典力学)的方式预测,成本高的问题显而易见。对于前者的测定来说,部分蛋白自然条件下无法提取提纯,不满足测定的前提条件,而对于后者的预测来说,是否能够提供预测模板和模板质量成了预测的关键,而PDB数据库从1971年成立至今仅收录了17万个蛋白结构(相比自然界超过2亿种蛋白的数量)。
AF2算法的源代码没有被公开,算法主要创新点其实在2018年一代AF问世已经初见端倪。第一,Deepmind是通过蛋白质当中氨基酸残基—残基相互作用来作为描述蛋白质结构的基础,并非每个氨基酸的空间位点,蛋白质当中所有氨基酸残基对信息汇总成为接触图谱;第二,公司用了大量的基因组学数据,切割新蛋白质的氨基酸链,去寻找数据库当中的同源序列片段,从而通过学习数据库当中同源序列的氨基酸残基相互作用(建立神经网络),去预测新蛋白质的氨基酸残基的相互作用;第三,上述拼接的基础上,公司再通过自由能计算,拼装整个蛋白质,用梯度下降寻求能量稳定结构。而在2020年,AF2当中又加入了注意力机制,模仿人类先从分散组装蛋白质的每个部分,然后再将组装好的各个集合再次拼接,另外就是之前AF当中的模式识别、势能计算等模块不再是分割的模块,而是由系统统一调度。
图|Alphafold 2的设计思路
2.2 蛋白结构预测不万能
那么AF2的诞生是否就意味着蛋白结构预测甚至大分子药物研发领域目前一片坦途?可惜,答案是否定的,学界和产业界仍需要算法上的持续创新。首先,AF2目前仅预测单独一个结构单元的三级静态结构,无法提供蛋白复合体整体的三维构象。构象为热力学稳定状态,并不考虑外在环境条件,因此大概率和相同蛋白在生物体内的功能构象有差异,是否能从结构出发,对蛋白进行功能分析存在疑问,而无论是基础生物学还是药物研发,最后的落脚点在于功能。其次,药物治疗和蛋白和药物之间的相互作用相关,AF2并不能分析两个或多个蛋白相互作用,不能直接用于药物设计。第三,药物研发当中多数涉及的蛋白结构在患者疾病状态下已经发生了氨基酸序列细微变化。从整体三维构象的角度来说,蛋白可能几乎没有什么变化,而蛋白与其他物质交互的界面和交互模式发生了根本性改变,从而深刻地影响到蛋白功能。算法设计原理决定了AF2对于这种变化很难捕捉。最后,目前AF2的训练数据除了PDB当中蛋白结构以外,还需要考虑到共进化信息和进行多序列比对(MSA),对于种类独特的蛋白,在缺乏MSA序列的情况下,结构预测结果不准确。这些蛋白在特定环境下可能具有重要价值(如cas9酶在基因编辑当中的作用)。
2.3 除了蛋白结构预测,还能做点什么?
在大分子研究上,提到了Alphafold,大家一定会想到RosettaFold。作为算法开发者,David Baker及其课题组一直长期致力于计算机、人工智能在蛋白质研究领域的应用。更值得令人称道的是他们在人工设计蛋白算法当中的各种尝试,就算目前开发的算法有数据限制和模板依赖的问题,能设计蛋白体积不大,课题组跳脱了无限内卷蛋白结构预测的圈子,我们从中看到了颠覆蛋白药物开发的机会,未来的大分子药物研究可能无需反复试错,可以不拘于抗体、细胞因子等形态。2022年5月和7月,课题组连续在Nature和Science公开发表了2篇文章,分别展示了使用蛋白骨架库和不使用蛋白骨架库的情况下(通过protein hallucination和inpainting的策略),成功生成对应不同类型靶点的迷你结合蛋白,并得到初步的湿实验验证。
图|分别通过Protein Hallucination和Inpainting的方式设计蛋白的思路
图|通过RIF找到结合位点的侧链氨基酸,组合骨架蛋白片段的策略来设计迷你蛋白
得益于长期进行和大分子药物研发密切相关的算法开发, David Baker的科研成果也很容易和实际问题相联系,转化到初创公司的平台当中。如果早期以顾问身份参与的Neoleukin只是一个试水的话,那么2014年的Cyrus Biotechnology(计算机设计蛋白质)、2022年6月创立的CHARM Therapeutics(蛋白-配体共折叠机器学习)、2022年8月创立的Vilya(人工智能穿膜肽药物研发)彰显了他的研究成果的落地潜力。
综上所述,对投资人和目前奋斗的创业者来说,Deepmind的强大资源和DavidBaker的长期坚守固然是他们在当下成功的重要基石,但是我们可以学习的地方在于将算法开发和药物研发的实际问题结合起来,寻找比如抗体CDR区域优化、蛋白免疫原性预测、蛋白聚集性预测、蛋白稳定性预测等实际问题,从而带来对管线有实质推进的效果。药物研发公司开发新的算法并不代表凭空开发新的策略,更重要的是对于人工智能最新的研究结果做生物医药领域的适配工作,就像AF引入MSA机制,通过氨基酸残基对来描述蛋白空间结构一样。David Baker的蛋白质设计算法也来源于DeepDream(Protein Hallucination)和图像修复(Inpainting)。最后,通过算法的开发弥补现阶段数据和算力局限,也能够成为算法的创新点之一,譬如目前算法在成功利用大数据的前提下,在数据有限的情况下是否也能提供一些具有置信度的结果,这将决定了未来2-3年公司之间的身位顺序。
3、算力
根据前述关于数据情况和算法的分析,目前阶段药物研发真正使用的算法都可以通过商用分布式算力得到解决,核心点在算力使用的时间和经济成本是否能够被研究机构或者药企接受,即不会显著提高药物研发成本。此前AF2 在CASP比赛当中,使用128个TPU,并花费数周进行训练,最终获得结果。该过程当中的花费可能对于初创药企或者研究机构在早期药物研发环境下过于昂贵,算法运行时间长,但后续无论使用Alphafold共享版本,还是各家公司的姊妹版本,都可以节省算力,达到好的预测结果。目前包括华为、英伟达等多家科技公司都在建设公司数字平台、提供额外算力上积极寻求与药企合作。未来,当数据积累量达到阈值,团队需要试错更多新算法,药企对于算力的需求会大幅提升,自建算力成本大幅飙升,药企将更倾向于租用第三方算力或者使用云算力完成工作。
在涉及分子动力学甚至物理计算等第一性原理相关算法的领域,目前商用和自建算力都无法突破计算精度和使用成本之间取舍的困局,而算法层面的近似处理会让相当数量的预测结果失真。即使像Relay Therapeutics这样的企业,自己搭建定制化大型计算机Anton建立了壁垒,却无法压缩成本。未来如果对应的商用量子计算机及匹配算法开发成功,则可能会大幅度推进第一性原理相关算法在药物研发当中的落地。
4、商业模式
根据观察,目前AI药物研发公司主要采取3种方式进行运营:软件化、提供CRO服务或者是直接入局药物研发。其中,无论是软件化还是CRO服务,目的是稳定的现金流,平台软件多为标准化产品,实现功能单一,而CRO项目多为基于公司特色算法的定制式临床前项目。这两者的特点在于服务集中于单环节,回收单笔或者多笔服务费,但是目前国内付费意愿不高,成单率低,单次服务的费用很难超过百万人民币级别。鉴于CRO服务高定制化,AI公司需要反复理解下游客户的需求,消耗时间和人力成本。AI公司直接进行药物研发也分为两种情况:一种为合作开发的方式,多为公司来控制特定药物研发项目的干实验操作,而将湿实验交给传统药企完成,盈利则通过项目拥有者的里程碑付款和可能的收入分成实现;另一种采取接力棒或者是彻底自主开发的方式,与典型的生物科技公司类似,干湿实验都由AI制药公司全部完成,盈利通过项目转让获得,以上操作方式对公司的湿实验执行及组织能力提出了高要求。
虽然商业模式上有差异,但赛道上种子选手的好坏的评价标准还是否能开发原先难以开发的药物,或是否能提高研发效率,减少资金支出。这点对比两家AI大分子制药公司Abcellera和Absci的利润和公司市值就可以得到。迄今为止,Abcellera通过堆叠超100条药物管线合作开发,获得利润已经超过2亿美元,公司市值仍有30亿美元,而Absci至今未产生利润,市值在3亿美元。
三、 破局之道
一直以来,我们都相信药物研发数字化、AI等新技术的引入将是不可逆转的趋势。据上述分析,我们必须承认获取各要素资源的难度大相径庭,AI大分子药物研发在各环节的成熟度将会被拉开,基于上述判断,我们认为:
在现阶段数据分布极端不均衡,且数据分享模式尚未成熟的情况下,目前的AI大分子药物研发公司如果想要建立真正的差异化,必须打造自身的数据资产生产能力。数据生产的纬度可以是抗体筛选(单B细胞分析)、靶点蛋白—功能关系(蛋白质组学)、靶点表位结构、多肽结构等等。数据生产平台需要有一定独特性(非CRO标准服务或者通量远高于目前行业水准),和药物研发紧密相关。
在数据分享上,联邦学习将会比参与或构建DAO更容易落地实施,联盟的组建更多关注数据的标准性和联盟参与企业的数字化程度,两家或者三家企业的灵活合作更容易落地实现。在数据层面通过数据量或者数据制造方式形成的壁垒将更可靠。
根据目前的观察,算法的产权保护相对困难,因此壁垒构建相对短暂。基于干湿实验结合的角度,AI大分子药物研发公司仍需要有一定的创新算法研发能力,这种能力集中体现在应用端。
算法应用端的创新应理解为开发需要系统化,连续迭代更新。输出应尽可能使生命科学人才易懂,和湿实验平滑对接(比如算法预测的数据是否具有现实含义;是否具有可解释性;在预测的基础上,是否能给出修正意见等)。在算法和算力部分,我们支持公司多合作,以开放的态度打磨自身的能力。
在商业模式上,无论选择什么路径,都需要建立在公司自身对于药物研发的深刻理解上,否则CRO业务无法完成业务标准化,拓展品类和增加客户数量受限。在药物研发业务当中,湿实验(累积几个月)所占时间远高于干实验(累积几天),团队不理解药物研发,最终会让干实验提升的效率被湿实验的低效所稀释。从现在的公开公司发展情况来看,公司直接参与到药物研发当中会比进行CRO服务更容易实现价值,核心原因还是下游客户对于AI算法作为CRO服务质量缺乏评价标准,付费意愿低,这个特点在国内尤为明显。
公司至少需要生命科学和算法两个维度的人才储备,更重要的是开发出属于自己的方法论去串联湿实验和干实验(即选择储备什么样的数据集,什么环节模型训练之后有好的预测结果,结合预测结果团队如何决定项目推进),达到超越传统药物研发的成绩,这是AI大分子药物研发公司成功的充分条件。需要达到上面的目标,公司掌握的技术可能不仅是严格定义的机器学习算法和生物医药,还要纳入合成生物学(解决人造蛋白的合成问题)、工程自动化(实验室自动化数字化改造)等领域的知识。
四、结语
从技术到商业,我们常高估一年的变化,低估十年的变化。这句话放在AI制药领域无疑是非常适用的。过去5年资本市场的疯狂将行业带向了第一个期望的峰值,而这往往意味着去泡沫化的开始。随着各家AI大分子公司的药物研发结果公开之后,才会有公司客观地认识AI制药的时代局限,走上真正的技术发展道路。对于投资人来说,AI大分子领域的价值投资才刚刚开始,而传统药物研发企业也将在积极拥抱AI的浪潮中,塑造新的药物研发逻辑。
重磅!mRNA行业全景图:火种已燃,大势已至,聚力向前,技术为王
盘点近300家“FIERCE 15”的biotech:M&A与倒闭是主基调
2022年中国CAR-T细胞治疗市场现状、专利情况及重点企业分析