深势科技Uni-RNA预训练模型开启AI for核酸研究新时代
在AI for Science领域,生命科学因其繁冗而驳杂的广度、曲折而晦涩的深度,无疑是诸多学科中的皇冠。AI在生命科学中的蓬勃发展既能为金山银山带来源源不断的动力,也能为绿水青山带来绵绵不绝的生机。而对RNA的研究则是皇冠上愈发闪耀的明珠,与生物医药环环相扣,和人民健康息息相关。
自从1984年第一款ASO药物得到FDA批准以来,RNA疗法一直被寄予着巨大希望,有助于解决疾病位点蛋白不可成药的难题,极大的拓展可药靶点的选择并从中心法则更上游的环节进行调控,从而有望开发出更有效的新型药物。然而复杂且庞大的序列和结构空间使得科学家对RNA空间的探索十分局限,RNA体系的复杂性也使得相关实验数据可重复性差,整体数量少,整合程度低。因此科学家急切需要一种能够高效全面探索描述RNA空间的计算工具,以实现对RNA研究的数字化革新。
自ChatGPT发布以来,预训练通用大模型以惊人的速度不断迭代和更新,展现了前所未有的能力。值得注意的是,作为通用模型,其本质内核为自然语言处理模型,即以我们日常使用的语言作为处理对象。语言作为信息的载体,承载了人类对于科学方方面面信息总结和知识积累。在回顾科学发展的一般规律时,我们可以发现其遵循着从数据(Data)、到信息(Information)、到知识(Knowledge)最终到智慧(Wisdom)的DIKW路径。但对于具体的科学数据和信息,我们往往需要深入结合学科底层特性,以其特殊的“语言” 作为载体,如在生命科学中以蛋白序列和核酸序列这样有别于一般自然语言的方式来承载信息。因此,在这个大模型的时代,针对各个学科场景打造基础专用科学大模型的广泛需求呼之欲出,更是成为了AI for Science从小农作坊模式转向安卓模式的重要基石。作为AI for Science的引领者和践行者,深势科技在这个方向推动做出了若干开创性的工作,如原子间相互作用势函数预训练模型DPA,和基于结构的化学空间预训练模型Uni-Mol等。此外,一些世界顶尖AI机构也在积极投身科学大模型的建设,例如前Facebook的针对蛋白序列的ESM 模型和最近刚登上Nature的华为盘古气象大模型。
在这样的背景下,Uni-RNA应运而生。Uni-RNA利用约10亿条高质量RNA序列进行了大规模的预训练,几乎涵盖了所有RNA空间,充分挖掘了RNA序列的潜在信息。通过在广泛的下游任务中微调模型,Uni-RNA在RNA结构预测、mRNA序列性质预测和RNA功能预测等三个RNA领域的七个主要任务中全部取得了领先的结果,更是为未来RNA领域研究的深度革新提供了无限可能。
底层预训练框架创新
为了利用大规模无标签数据进行预训练,我们构造了一个大规模的RNA序列数据集,通过预训练模型框架,结合有效的预训练任务策略,在大规模分布式集群上进行了预训练模型的训练。
七大下游任务具体的效果提升
2.1.1 二级结构
2.1.2 三级结构
5'UTR平均核糖体载量预测
3'APA近端亚型占比预测
5'UTR 和3'UTR均为mRNA设计中重要但未能被很好涵盖的非编码区域。在这两个任务中的出色表现,加之Uni-RNA在结构预测中的碾压性优势,为基于Uni-RNA打造革命性计算驱动的mRNA理性设计平台打下了坚实的基础。
ncRNA功能聚类
剪切位点预测
RNA修饰预测
总结
Uni-RNA的出现深入挖掘了RNA序列中的信息,为RNA相关领域提供了一个基于预训练的新颖的基础设施,也将为RNA研究领域提供新的研究范式,构建了AI for RNA的“安卓系统”。将为下游任务“App”,如mRNA疫苗设计、RNA结构预测、ASO开发、SiRNA疗法创新、靶向RNA小分子开发、Aptamer研发等众多关键难题提供全新的解决方案。
Bohrium APP:
https://app.bohrium.dp.tech/dprnass
扫码前往Bohrium APP
关于深势科技
深势科技是“AI for Science”科学研究范式的引领者和践行者,致力于运用人工智能和分子模拟算法,结合先进计算手段求解重要科学问题,为人类文明最基础的生物医药、能源、材料和信息科学与工程研究打造新一代微尺度工业设计和仿真平台。
我们开创性地提出了「多尺度建模+机器学习+高性能计算」的革命性科学研究新范式,并推出了Bohrium®微尺度科学计算云平台、Hermite®药物计算设计平台、RiDYMO™强化动力学平台及电池材料计算设计平台等微尺度工业设计基础设施,颠覆了现有研发模式,打造“计算引导实验、实验优化设计”的全新范式。
深势科技是国家高新技术企业、北京市“专精特新”中小企业,总部位于北京,并在上海、深圳等城市布局研发中心。科研技术团队由中国科学院院士领衔,汇集了超百位数学、物理、化学、生物、材料、计算机等多个领域的优秀青年科学家和工程师,其中公司的博士及博士后占比超过35%。核心成员获得过2020年全球计算机高性能计算领域的最高奖项“戈登贝尔奖”,相关工作当选2020年中国十大科技进展和全球AI领域十大技术突破。
↓↓点击“阅读原文”,浏览完整文章