ChatGPT之所以智能,是因为其同时利用了海量的无标记文本数据(自监督预训练)和规模略小、但质量较高的标记数据(基于人类反馈的强化学习,RLHF),并在训练方式和模型架构上做了诸多创新。同理,在训练ProteinGPT的过程中,晶泰也使用了无标记的蛋白质序列数据(约2.8亿条)+抗体序列数据(包括公开数据集中的数十亿条+晶泰内部积累的抗体NGS数据),但这些仅仅解决了预训练的部分,高质量的标记数据,特别是与蛋白药物相关的标记数据是非常有限的,以抗体可开发性数据为例,常用的公开数据只有137条,构成了训练蛋白药物AI模型的最大瓶颈。 为了有效解决数据量短缺和数据质量不一的问题,晶泰科技率先提出“智能计算、自动化实验、专家经验三位一体”的创新思路,搭建了国内规模最大的“干湿融合”的大分子药物研发团队,包括近百名科学家和工程师。 其中,湿实验平台既可以通过杂交瘤、展示文库、Single B Cell等传统方式完成抗体药物从靶点到PCC的全流程研发,又可以通过高通量的实验平台为AI产生大量训练数据;计算团队除了AIDD外,还包括生信和CADD团队,可以通过NGS4AI、MD4AI等方式为AI贡献更多的训练数据。 最后,作为国内最早投身AI药物研发的企业,晶泰已经积累了超过8年的经验,在内部形成了AI算法向产业转化的一套最佳实践,在很短时间内为ProteinGPT找到了最佳的落地应用场景。ProteinGPT的模型架构自去年以来,晶泰科技内部的自动化能力开始走进公众视野,成为放大其AI数据优势的关键。除了将自动化运用于化学合成、晶型研究外,晶泰也在大分子药物方向部署了高通量的抗体筛选平台(如下图所示)。相较于传统的人工筛选,该平台的筛选通量可提高1~2个数量级,能够为内部AI模型贡献更大规模、更高质量的训练数据。 目前,晶泰在大分子领域的多个AI算法均已达到SOTA水平(State of the Art,AI术语,指在公开测试集上取得全球最佳表现),而内部人员将其中相当一部分归功于晶泰在内部生成数据上的优势。Automation4AI,正日渐成为打造“生物版ChatGPT”的重要引擎。
[1] Verkuil R, Kabeli O, Du Y, et al. Language models generalize beyond natural proteins[J]. bioRxiv, 2022: 2022.12. 21.521521.
[2] Madani A, Krause B, Greene E R, et al. Large language models generate functional protein sequences across diverse families[J]. Nature Biotechnology, 2023: 1-8.