附PPT | 腾讯首席科学家张正友谈AI和生命科学
当生命科学遇到AI技术,会碰撞出什么样的火花?
2023大湾区科学论坛5月22日在广州召开,在鹏城实验室和科技厅主办的人工智能分论坛、第四届人工智能发展论坛暨2023新一代人工智能院士论坛上,腾讯首席科学家、腾讯AI Lab及腾讯Robotics X实验室主任张正友博士对此进行了阐述。
他表示,由于新基因测试技术带来了巨大的数据量,传统生信方法难以很好地分析单细胞数据,目前只有不到20%的基因数据得到有效应用,而AI技术的发展,为单细胞数据分析提供了解决方案。
比如,针对单细胞转录组数据的处理分析,腾讯AI Lab提出了一个scBERT模型,是业内首次将自然语言处理中BERT模型的很多思路,应用到单细胞基因数据的分析上。
为验证模型的性能,AI Lab在9个独立的数据集上测试模型,涵盖了 17 种人体主要器官, 50多种细胞类型,以及50多万个细胞,算法的性能超过了现有发表的所有方法。同时,算法在新类发现和批次效应校正上,也有很好性能。
除了基因测试,在创新药物研发领域,针对目前存在的研发周期长,动辄需要10年以上的时间,成功率低(犹如“大海捞针”)等难点,AI算法可以用于药物发现的各个环节,提升这些环节的效率,从而降低投入成本,缩短研发时间,提升成功率。
例如,基于在深度图学习、预训练大模型等AI技术上多年的技术积累,腾讯AI Lab开发的AI药物发现平台,覆盖了大分子和小分子药物设计的主要环节。
在小分子药物发现领域,联合腾讯量子实验室研发,包括了分子成药性评估、分子生成、活性预测等;大分子方面,包括了抗体结构预测、抗体对接以及自动人源化改造等模块。其中大部分模块,均在腾讯与科研单位及药企的合作项目中得到了效果的检验,特别地是和湿实验进行了相互验证、相互提升,初步形成了干湿实验结合闭环。
在抗体药物研发方面,AI技术同样可以大展身手。
然而,抗体药物的研发效率受限于湿实验筛选流程,成本高、耗时长。从成千上万的候选抗体中筛选出最具有治疗活性的抗体是核心挑战。AI Lab利用最先进的AI算法,辅以量子化学计算,打造了一套全新的AI抗体药物筛选与优化流程,提升抗体药物发现效率。
下面是张正友博士「AI + 生命科学:加速基因计算与药物研发创新」主题演讲的全文。
腾讯AI Lab成立于2016年,实验室强调研究与应用并重发展,以“学术有影响,工业有产出”为目标,基于扎实的学术研究,将AI能力运用在游戏、内容、虚拟人以及医疗、医药、基因计算等多个场景中。
2017年11月,在国家「新一代人工智能发展规划」中,腾讯首批入选并主导建设医疗影像国家人工智能开放创新平台; 2020年4月, 发布中国首款获批进入临床使用的智能病理显微镜; 2020年7月,发布了首个AI药物发现平台; 2022年7月,发布了便携式智能化手术导航系统; 2022年9月,研发的scBert模型攻克了单细胞测序数据分析痛点; 2023年初,发表多项AI+空间组学技术研究,入选Nature子刊;
今天的报告分为两个部分:一是AI+基因计算,主要是在单细胞测序、空间组学分析等领域,通过充分利用基因数据,解答生命科学的重要问题。二是AI+新药发现,包括小分子药物、大分子药物研发等,目标是利用算法模型优化研发流程,实现降本增效。
AI 破解单细胞测序及空间组学分析的难题
首先介绍下我们在基因计算方面的工作。基因测序技术是推动生命科学、医学研究进步的重要基础,也是探索人类未来健康的重要手段。
过去的测序技术只能对整个组织进行测序,里面包含成千上万个细胞,难以了解单个细胞在组织中的位置和发挥的作用。
随着近5年测序技术的突破,特别是单细胞组学、单细胞多组学和空间组学突破,使得我们可以在病灶部位切取组织,分离出不同类型的细胞,定位每个细胞的坐标,并且测定每个细胞测定内部的信息,从而充分了解细胞的异质性,为解答生命科学重要问题创造了条件。因此这几项测序技术连续几年被「自然」和「科学」期刊评为年度方法。
新测序技术的出现,对这些数据的分析也提出了极大的挑战。
首先,数据量几万倍地增长。过去一团组织才有一组测序数据,现在每个细胞就拥有一组数据,每个数据可检测到2~3万个基因的表达值。另外由于测序技术的不完善,而单细胞本身的表达量也比较小,数据存在噪音,缺失普遍存在,跨平台批次效应严重。
第二,基因表达数据本身是非欧结构、无序的;另外,生物学家已经通过大量实验验证,基因之间的相互作用非常复杂,这也是细胞多样性的基础。
第三,单细胞多组学中含有DNA、mRNA和蛋白等不同模态的信息,这些数据从不同层面反映细胞的功能和状态,如何关联整合这些多组学数据存在挑战。
由于这些挑战,传统生信方法难以很好地分析单细胞数据。据统计,只有不到20%的基因数据得到有效应用。AI技术的发展,为单细胞数据分析提供了解决方案。
我们可以用自监督学习来学习基因之间的内在编码,降低数据维度,以及修正批次之间的差别;用图神经网络来模拟基因之间的关联和调控关系,以及利用多模态学习的技术,来对齐和整合多组学数据。
针对单细胞转录组数据的处理分析,腾讯AI Lab提出了一个scBERT模型,是业内首次将自然语言处理中BERT模型的很多思路,应用到单细胞基因数据的分析上。
2) 微调阶段,是在具体任务上微调,学习特异性的基因相互作用。基于少量数据微调,降低了对精标注数据的依赖,提升了模型的准确性。
scBERT模型设计有几个亮点。
首先,模型引入了自然语言BERT模型的思路。我们的embedding在借鉴BERT的embedding方式的同时,还针对基因表达的数据特性进行了独特设计,有效转换表达谱数据作为模型输入,降低数据噪声。
同时,应用Performer编码器,无需降维、筛选特征基因,具备高分辨率的全基因组级别特征解释性。
我们在9个独立的数据集上测试模型,涵盖了 17 种人体主要器官, 50多种细胞类型,以及50多万个细胞。算法的性能超过了现有发表的所有方法。同时,算法在新类发现和批次效应校正上,也有很好性能。这项研究在Nature Machine Intelligence 上发表[1],开源在GitHub也获得了较好的认可。
前面讲的是细胞内的基因表达,而细胞外的生态系统,即细胞所处的微环境,也共同调节细胞的生理功能。也就是说,细胞和细胞之间,细胞和微环境之间的相互作用,对生命活动起着非常重要的作用。
对微环境的研究需求催生了空间组学技术,使得它们获得了广泛的关注。空间组学技术借助各类成像或者测序技术,可以同时测量细胞的基因表达谱和空间位置,得到细胞微环境里其他细胞的基因表达和细胞间的相互作用。
空间组学技术虽然才出现两三年,已经在生物学研究上发挥了重要作用。应用领域包括:第一是组织稳态,例如对各个正常组织进行时空图谱的构建。例如为研究大脑功能的大脑细胞图谱;第二是癌症研究,例如癌症的发生发展机制,与肿瘤微环境的相互作用,用药前和用药后的变化等等;第三是一些其他疾病发展的研究,例如老年痴呆症的发展机制等。
空间转录组细胞类型注释主要的挑战有:大量细胞的基因表达测序数据是超高维数据,每个细胞有20000个基因;空间转录组测序相比于单细胞测序技术,往往具有较低的基因检测率,存在数据缺失;空间转录组还需要定位细胞的位置和边界。
为了应对上述挑战,并充分利用空间位置信息,腾讯AI Lab提出了一个深度学习的框架Spatial-ID,结合迁移学习和空间信息的嵌入,用于空间转录组细胞注释。迁移学习从已有的单细胞转录组数据集迁移单细胞表达谱信息,使得分类体系与先前已经定义的细胞图谱对齐。空间信息嵌入则充分挖掘细胞在空间背景下与相邻细胞之间可能存在的交互关系,进一步提升细胞类型识别的准确性。
我们的算法在公开数据集上展现出比现有SOTA算法更准确的细胞注释,同时推理时间(inference time)大幅缩小;并且在3D数据集上也展示了很高的性能,对数据缺失的鲁棒性也较强。
Spatial-ID在小鼠大脑细胞注释的结果,展现了很高的一致性。在UMAP特征空间上,也能观察到细胞类型的富集性(下图b),在这个大脑区域分辨出30多类细胞。通过我们算法对空间组学数据的分析,可以准确地定位大脑功能区以及每个区域的细胞组成,构建了小鼠大脑细胞图谱。这项成果最近发表在Nature Communications上[2]。
我们最近也在和上海神经所合作进行猴脑细胞类型图谱的建设,是国家大科学脑计划的一部分。人脑有800亿个细胞,现在没有技术可以测量。目前行业大部分在研究鼠脑,鼠脑只有7000万细胞。猴脑更接近人脑,大概是人脑的1/10,比鼠脑复杂很多,光是皮层就有100多亿个细胞。利用我们的算法,我们首次为灵长类大脑皮层做了全局性的细胞级别分辨率的细胞类型图谱。
在细胞注释的基础上,为了揭示生物学上的意义,我们进一步建模表征空间中不同细胞之间的微环境和组织构成。通过构建微环境之间的相互关系网络,将细胞分子表达谱的低维流形与空间局部拓扑特征联系起来,实现多个重要计算任务的同时分析,包括微环境异质性定量(SHN)、空间域识别(SDM),以及差异微环境分析(DME)。这个成果最近也在Nature Communications发表[3]。
SHN模块是进行微环境异质性的度量,在这个大脑的空间组学分析中,我们发现随着大脑皮层层数增加,空间异质性逐渐增加。这是一个新的发现。
SDM模块精确识别大脑皮层功能区,在识别脑区的效果上优于现有其他算法。可以看到ARI(一个衡量聚类质量的指数)有提升明显。
DME模块可以识别不同细胞的特异微环境。很多疾病发生前后,细胞类型的构成是不变的,而只有空间分布变了。这里DME模块识别出纤维化肝组织(相比正常肝组织)的特异性微环境,我们可以分析不同肝纤维化区域的微环境,通过量化和轨迹分析,研究肝纤维化的演变机制。
算法开发离不开对数据的认知、理解和使用。因此,我们建立了一个目前最大规模的空间多组学数据库(SODB), 支持许多计算方法的benchmark数据需求,让研究人员只需专注于计算模型本身。
在这个大规模数据集基础上,我们还打造了高效、便捷的各类工具,为空间组学研究者提供资源和一个开放的社区和平台。这项工作目前已在Nature Methods发表[4]。
总结一下AI+基因计算方向的工作:基因是生命的最基本元素,基因测序技术的进步,可以帮助我们更深入地理解基因的奥秘,但同时也对大数据分析提出挑战,这正是AI所擅长的,相信AI未来将帮助破解更多基因计算领域的重要问题。
AI 加速小分子与大分子药物发现
下面介绍下我们在AI+药物研发方面的工作。
创新药物研发存在两大难题,其一是研发周期长,具体体现在环节非常多,一般需要10年以上的时间;其二是成功率低,犹如“大海捞针”。这两个方面的难点,刚好是AI技术所擅长解决的问题,AI算法可以用于药物发现的各个环节,提升这些环节的效率,从而降低投入成本,缩短研发时间,提升成功率。
基于在深度图学习、预训练大模型等AI技术上多年的技术积累,腾讯AI Lab开发了AI药物发现平台,覆盖了大分子和小分子药物设计的主要环节。在小分子药物发现领域,包括了分子成药性评估、分子生成、活性预测等;大分子方面,包括了抗体结构预测、抗体对接以及自动人源化改造等模块。其中大部分模块,均在我们与科研单位及药企的合作项目中得到了效果的检验,特别地是和湿实验进行了相互验证、相互提升,初步形成了干湿实验结合闭环。
下面介绍几个具体应用案例。
药物筛选最核心的模块之一,是预测蛋白质-小分子的相互作用和亲和力。其中,结合构象预测有助于我们理解类药分子如何与靶蛋白相互作用形成复合物,是药物筛选中的先决条件。在结合构象预测中,传统的方法是基于“采样-打分”模式的分子对接,这类方法需要在构象空间中大量采样,通过基于经验或机器学习的打分函数评估结构的好坏,找到最优构象,通常对接效率低,消耗资源大。我们自研了一套端到端的方案,结合了物理启发式的几何深度学习方法,分子对接的精度和速度都有质的提升。无论是全新的靶点,还是已知的靶点均能满足。[5]
下一步是基于结合构象,来预测靶蛋白和类药分子的结合亲和力强度,这是药物筛选中的核心环节。分子对接所用的打分函数,一般采用简单的线性拟合模型,精度往往不高,严重影响虚拟筛选的预测能力。因此, 开发高精度的打分函数,是提升虚拟筛选预测能力,以及发现高质量活性分子的有效途经。我们的方案具有很好的泛化性,可迁移到天然产物、核酸等复杂底物与蛋白的相互作用。
新的分子设计能探索更广阔的化学空间。在分子生成中我们关注两大场景,一个是基于靶点的全新分子设计,一个是分子骨架跃迁。
首先是以靶点结构为限制条件分子生成,这一步可以快速构建虚拟化合物库。现有的分子生成模型,比如以配体为中心,只考虑分子的一维或二维结构,或考虑配体或蛋白的三维结构纳入生成模型相比。我们的模型考虑输入的是,具有原子物理化学性质的配体−受体复合体的三维网格构象,有效生成与靶点蛋白具有高概率结合的新分子。[6]
分子骨架跃迁则是以已知的活性化合物为起点,通过改变分子的核心结构,获得新颖的化学结构。我们从计算机视觉中获得启发,采用风格迁移的思想,使生成的分子保持活性的同时改变骨架,获得新的候选药物分子。[7]
在临床前阶段,ADMET 成药性预测可以筛选和优化前期得到的先导化合物,减少药物研发后期的资金浪费。在 ADMET 成药性预测中,我们结合了多种前沿的AI算法,目前已经内建了70 多个性质参数预测模型,覆盖重要的理化性质,及药物代谢动力学的吸收、分布、代谢、外排、毒性等过程的评价参数。[8,9,10]
结合我们先进的底层AI技术和腾讯高性能云计算能力,AI药物发现平台的一站式小分子药物发现解决方案,能帮助药企和研发机构,从亿万级数据库中挖掘出先导化合物,最终找到理想的临床前候选分子。
下面再讲一下我们在抗体药物研发方面的技术进展。2020年,Alphafold 2将蛋白质结构预测性能推向了前所未有的高度。人们开始思考如何以这一突破为起点,推动AI技术在制药领域中的应用。
抗体是最常见的蛋白质类药物:在近年来全球销售额前十的药物中,抗体药物几乎占据半壁江山。然而,抗体药物的研发效率受限于湿实验筛选流程,成本高、耗时长。从成千上万的候选抗体中筛选出最具有治疗活性的抗体是核心挑战。我们利用最先进的AI算法,辅以量子化学计算,打造了一套全新的AI抗体药物筛选与优化流程,提升抗体药物发现效率。
我们的AI制药平台主要有三大优势。首先是先进的AI技术,针对十亿级的蛋白质序列数据,我们构建了蛋白质“语言”大模型,挖掘潜在的、高频出现的氨基酸组合及其相互依存关系,实现对抗体结构的精准预测;同时,依托腾讯云强大的算力,我们重构了AI虚拟筛选算法,使筛选计算高度并行化,实现百倍以上的效率提升;最后,我们紧密结合了AI与量子化学计算,对药物与靶点间的作用力及其能量进行建模,从而实现药物理化性质的精准预测。
比如利用AI大模型的能力,对抗体药物的3D结构进行精准预测。我们创新性地引入了抗体重轻链特征融合模块,使得模型能够感知重轻链相互绑定的氨基酸,进而对重链和轻链的夹角进行准确预测。在benchmark数据集上,我们的模型的预测误差是最低的,优于各大同类模型。
完成抗体结构预测后,第二步是进行高通量的抗体-抗原对接,从而筛选出具有生物学治疗效用的对接姿态。传统软件完成一次这样的对接构象搜索计算需要720分钟,我们通过对模块进行并行化重构,计算时间仅仅需要3分钟。在对接精度方面,我们也充分考虑了对接面氨基酸的理化性质和空间位置,比传统方法的精度提升了20%。
完成对接后,我们还需要在具有相似对接姿态的抗体中进行亲和力的评估,从而筛选出可以紧密结合抗原的抗体。亲和力的评估依赖于抗体和抗原结合前后的自由能变化。如何利用AI预测分子间能量?
在2022年底由Facebook及CMU联合举办的世界催化剂公开挑战赛中,我们团队利用AI结合量子化学的计算模型,实现了催化剂能量的准确预测,获得了冠军。将该技术迁移到抗体药物的亲和力预测中,不仅可以对亲和力进行准确预测,还可以对亲和力不足的抗体进行改造,并给出改造后的抗体-抗原结合姿态。[11]
在提升抗体药物安全性方面,我们首创性地提出了基于强化学习的抗体人源化改造方案。有些抗体来自于动物,比如羊驼,它们用于治疗人类疾病时可能会引起副作用。改造动物源抗体,使其更容易与人体的免疫系统相容,提升安全性。
我们的方法是,首先通过收集并快速检索上千万条人源抗体序列模版进行抗体骨架区域替换;随后,我们利用前面介绍的结构预测、功能与属性预测等自研AI模型,对改造行为进行奖励反馈;基于反馈,我们自研的人源抗体骨架生成式模型将提出下一轮的改造方案。通过多轮“改造-评估-再改造”的全自动化循环迭代,最终收敛至结构偏差小、功能及理化性质佳、且与人源抗体最相似的最优改造方案。
最后总结一下,传统药物研发投入大、时间长、成功率低。我们的AI药物发现平台,通过和科研单位及药企的多项合作,已经展现出AI算法对提升药物研发效率的能力;同时我们初步打通了干湿实验闭环迭代,实现了两者的相互促进和提升;以及我们也初步解决了AI用于药物发现的多项技术难题。未来,我们希望AI能在药物研发方面发挥更大的作用。
还可以获取张正友博士演讲PPT原文~
—END—