当人工智能遇上天河二号,催生新型深度学习框架加速新药研发
导 读
蛋白质是生命活动的主要承担者,参与几乎所有的生物学过程,蛋白质功能的失常会引起生命活动的改变,导致疾病,而药物则通过纠正错误功能的蛋白质,达到治疗效果。和宏观世界一样,蛋白质和药物分子也具有特定的三维结构,类似锁和钥匙,药物的研发就是找到与蛋白质相匹配的钥匙。由于化合物的多样性,纯凭人工难以从过亿的化合物库中筛选出匹配的化合物。因此需要借助超级计算机加速药物研发进程,这样的研究具有重要的理论价值和现实意义。
近日,国家超级计算广州中心杨跃东教授与中山大学药学院徐峻教授联合团队结合多年的蛋白质结构研究经验,基于超算的强大计算能力、丰富多样的资源与平台,提出了一种新颖的端到端深度学习框架DrugVQA,利用视觉问答模型以预测药物-蛋白质相互作用,该框架模型预测精度高,结果可解释性强。该项研究成果于本月中旬成功发表在Nature子刊《Nature Machine Intelligence》上。为了让计算机学习如何识别蛋白质和哪些药物化合物在空间上能相互作用,首先需要对蛋白质和药物分子进行适当的编码,变成计算机能识别的语言。由于药物分子一般较小,一般包含少于100个重原子,具有相对较小的结构空间,因此药物可以使用化学家早年发明的SMILES文本语言进行表示。另一方面,虽然蛋白质能够由序列唯一地表示,但是蛋白质一般包含一千个以上的重原子,而从一维序列预测三维结构是蛋白质折叠这一世界性难题。因此,需要对蛋白质分子进行特殊的表示才能有效地让计算机学习。
为了解决这一蛋白质表示问题,大量研究从一维序列里手工提取结构特征,但是一维特征难以代表三维结构。另一方面,一些研究尝试利用三维矩阵将三维结构直接输入,然而这些方法的使用一般需要复合物结构,高质量数据集合很少;同时,由于蛋白质结构不规则,导致这些矩阵高度稀疏,而三维矩阵处理需要的内存也大多超过目前的GPU内存,给模型学习带来巨大挑战。
为了解决上述问题,国家超级计算广州中心杨跃东教授、中山大学药学院徐峻教授联合团队结合多年的蛋白质结构研究经验,借助“天河二号”超级计算机的强大算力及集成丰富应用软件的生物医药应用平台,将蛋白质三维结构降维使用二维残基距离矩阵表示,从而最大程度保留三维结构信息,并据此提出了一种端到端的深度学习框架DrugVQA。该项研究成果于2月14日成功发表在Nature子刊《Nature Machine Intelligence》上。
图1. DrugVQA模型示意图
如图1所示,该框架中,蛋白质采用距离图表示,而药物分子采用SMILES文本表示,因此将蛋白质和药物相互作用(DPI)任务转换为经典的视觉问答(VQA)问题:图像是蛋白质的距离图,问题是药物的分子线性符号,答案是它们是否相互作用。该框架使得可以进行蛋白质单体结构的训练,而无需与其结合配体的共晶体结构,从而大大扩展了可用于训练的数据集。为了对模型进行有效的训练,研究人员引入了动态注意力卷积神经网络(Dynamic Attentive Convolutional Neural Network)以学习将长度不定的蛋白质变为固定大小的表示形式,并引入了序列自注意力模型(Self-Attentional Sequential Model)以自动从分子SMILES中提取语义特征。大量的实验表明,相较于目前最先进的预测方法,DrugVQA在DUD-E,Human和BindingDB这三大基准数据集上都表现出了明显的竞争优势。该模型还进一步为注意力可视化(Attention Visualization)提供了生物学解释,以描绘蛋白质和药物分子的相互作用区域。
研究团队分别在数个公开数据集上做了相应实验,并与最新的DPI方法进行了比较。在预测性能上DrugVQA模型里的DPI方法超过了目前所有其它相关主流预测算法,包括基于相似性比较的Tiresias方法、结合药物指纹性质和分子特征的DBN方法、图卷积学习GNN方法,以及利用蛋白质注释信息的E2E方法,预测对比结果见图2。
图2. DrugVQA在BindingDB数据集上与最新预测方法的比较结果
除了预测精度高,DrugVQA模型的另一个优势是结果可解释性。研究团队在DUD-E数据集中选择了两对复合物例子做对比试验:蛋白质Hsp90(PDB:3EKR)和CDK2(PDB:2DUV)及其结合化合物。如图3所示,模型学习到的高度关注点与对结合贡献最大的点一致,其中在蛋白质口袋中(绿色)和药物分子上(红色云层)的高度受关注位置也正是相互作用区域。这个结果表明DrugVQA可以为药物-蛋白质结合模式提供合理的依据,同时可以为化学家进一步进行药物改造提供重要理论参考。
图3. 利用模型的注意力机制预测分子蛋白结合位点
在研究过程中,得益于超算提供的方便快捷的并行计算环境以及集成丰富应用软件的生物医药平台,特别是可定制化的GPU资源,大大提高了DrugVQA框架深度学习模型训练任务执行的效率,使原本每次都需要耗时两周以上的训练时间缩短为1天左右。同时,庞大的CPU集群和充裕的存储空间,为该研究在特征提取、数据预处理及结果预测方面提供了很多便利,极大地推动了科研进展与产出。
┣天河二号应用再登《Science》,揭秘古生代海洋生物多样性演化
— — NSCC-GZ — —
特别鸣谢:杨跃东、郑双佳内容整理:万园园、岳苹微信编辑:岳苹