Protein Sci︱王舒禹团队报道贝叶斯与图神经网络结合预测突变对蛋白质稳定性的影响
来源︱“逻辑神经科学”姊妹号“岚翰生命科学”
撰文︱王舒禹,唐洪舟
责编︱王思珍,方以一
编辑︱夏 叶
蛋白质稳定性对抗体药物研究[1]、药物耐药性[2, 3]、高性能酶研究至关重要。通常研究它的方法是测量其热力学性质,当基因突变时引起蛋白热稳定性变化对应着吉布斯自由能变化(ΔΔG)。然而,为了寻找提高稳定性的突变点,往往需要大量的尝试,若完全用实验的方法检测速度较慢。为了快速、准确地预测突变后蛋白质的稳定性变化,各种基于计算的预测方法被提出。比如基于各种物理化学假设的方法[4]。另一个分支是利用机器学习进行快速预测[5],利用支持向量机[6, 7]、梯度提升[8-10]、人工神经网络[11, 12]以及它们的结合等[13-20]技术。但是以往基于机器学习的方法有显著缺点[21-23],即他们预测不稳定突变多于稳定突变,这种偏差,也是一种过拟合[24]。最近出现的基于深度学习技术的研究,如卷积神经网络,很好地处理了这个问题,在对称预测取得了较好的效果[25-27],但是该方法很快遇到了瓶颈。蛋白分子本身属于图结构,图神经网络是潜在的更合适方法来学习分子特征,但是却鲜有人员将它用于蛋白的稳定性变化预测。究竟深度学习预测它的上限在哪,学术圈一直未能探究,这就需要能量化其误差。而贝叶斯方法结合进深度学习中潜在可以量化预测的不确定性,进而对该领域数据集质量有更深入的理解。
近期,东北大学王舒禹团队在国际学术期刊Protein Science预发表了题为“BayeStab: Predicting Effects of Mutations on Protein Stability with Uncertainty Quantification”的文章。该研究得到了密歇根大学左磊教授的大力支持与帮助。作者将图神经网络与贝叶斯网络方法结合来量化不确定性的方法,并分解其为模型引起的不确定性和数据噪声引起的不确定性。该方法通过端到端深度学习模型可以有效地学习分子特征,进而高效准确地预测ΔΔG。本研究地成果已经形成网络服务器http://www.bayestab.com。生物制药领域的科研人员如果需要使用,可以登录网站免费使用。
BayeStab的整体数据处理流程框图如图1所示,输入的数据是原生与突变后的蛋白PDB文件,然后经过剪裁之后,最终只剩下突变位置及其附近的氨基酸。PDB信息通过RDkit提取出原子的元素、近临原子、氢原子个数、键信息等形成输入的分子向量。图神经网络用图卷积、门控等对信息提取,然后再加入分子结构位置坐标,最终利用concrete dropout来进行量化不确定性,并将其分解。
图1 BayeStab模型框架。
(图源:Shuyu Wang, et al., Protein Science, 2022)
作者使用S2648数据集来训练BayeStab。基于数据集的10倍交叉验证,BayeStab显示线性相关性为0.61, RMSE为1.19。在去除5%的异常值后,相关系数r可能增加到0.69, RMSE下降到1.06。作者还在Q3421数据集上通过10倍交叉验证训练模型。去除5%的异常值后,相关系数可达0.68,RMSE降至1.29。这些数据地表现都超过了以往模型。
评估该方法过拟合往往使用过的数据集上测试来估计性能。因此,作者分别在S611、S350、Myoglobin和S669数据。
集上进行了测试。训练前,对训练数据集与测试数据集之间的重叠样本进行挑选,以保证正确的评估。在使用S611数据集评估时,BayeStab在直接突变上得到r = 0.73,σ = 0.99,在反向突变上得到r = 0.73,σ = 0.99,在正向-反向预测上得到r = -0.97,δ = 0.01(图2 a-c)。在S350数据集上BayeStab在直接突变上得到r = 0.75,σ = 1.09,反向突变上得到r = 0.75,σ = 1.05,正向-反向预测上得到r = -0.97,δ = -0.02(图2d-f)。在Myoglobin数据集上BayeStab在直接突变上得到r = 0.47, σ = 1.07,反向突变上得到r = 0.47, σ = 1.07,正向-反向预测上得到r = -0.97, δ = -0.01(图2 g-i)。在S669数据集上BayeStab在直接突变上得到r = 0.54,σ = 1.60,反向突变上得到r = 0.53,σ = 1.62,正向-反向预测上得到r = -0.97,δ = -0.01(图2 j-l)。以上测试结果均与以往方法做了对比取得了优于前人方法的效果。
值得注意的是,最后测试的S669是该领域最新的数据集,它所用到的蛋白与训练集种的蛋白不具有同源性,所以关于它的评测对于模型训练水平、防止过拟合的程度最具有说服力。本研究对其预测误差在1.6左右,这是由于测试数据与训练数据差别较大导致。同时对比以往研究,BayeStab的总体线性度是最高的(0.54左右)。
图2 BayeStab在四个数据集上测试结果。
(图源:Shuyu Wang, et al., Protein Science, 2022)
为了检验了得到的不确定性是否正确,作者减少训练集的大小并且观察由此产生的不确定性变化,所用的测试集是Ssym。研究发现当数据集的大小减小时,与数据固有噪声有关的随机不确定度保持不变(稳定在0.25),而与模型错误相关的认知不确定性应该会增加(从0.03升至0.13)。这表明现有的预测误差已经主要取决于数据集,模型误差已经很小了,而如果仪器的精度维持不变,即便增加了新的实验数据,现有的图神经网络模型也已经趋于预测的上限了。
作者使用Flask构建了一个免费的Web服务器(http://www.bayestab.com)(图3)。Web服务器将蛋白质的结构信息作为输入。用户可以将野生类型和突变类型的 PDB 文件上载到服务器。突变类型PDB文件可以由罗塞塔生成。接下来,用户需要填写突变信息。例如,L37S表示在氨基酸数37的位置,亮氨酸(L)变成丝氨酸(S)。用户还需要填写突变蛋白链信息,如A或B。最后,用户可以在提交任务后获得预测∆∆G。
图3 BayeStab网站。
(图源:Shuyu Wang, et al., Protein Science, 2022)
原文链接:https://onlinelibrary.wiley.com/doi/10.1002/pro.4467
王舒禹博士是东北大学控制工程副教授。在开始他的职业生涯后,他从事多个领域的工作,包括软机器人和计算生物学。他还领导了设计算法以自动化传感器数据处理的工作。他最近的工作重点是利用人工智能分析多模态传感数据。他发表了20多篇SCI论文,被引用两百多次,h-index 9,并获得了两项专利。他曾受邀出席从软机器人的柔性传感器到计算生物学等领域的会议。
王教授2013本科毕业于华中科技大学机械工程专业。随后,他进入纽约州立大学石溪大学研究生院,在左磊教授的指导下2017年获得机械工程博士学位。毕业后,在格芯的框架小组担任工程师。在他的工业界工作后,2019年加入了东北大学。目前,王教授领导着一个由5名研究生和几名本科生组成的小组。他教授两门课程,指导本科生,在创新创业大赛中获得二等奖。王教授的研究得到了国家自然科学基金、河北省国家自然科学基金的慷慨资助。
欢迎扫码加入逻辑神经科学 文献学习3
【1】Dev Cell︱田烨团队发现GPCR信号通路在一对感觉神经元中协调机体线粒体应激反应
【2】J Neurol︱黑色素敏感磁共振成像研究揭示特发性震颤患者中蓝斑变性和小脑体积变化
【3】eLife︱王立平组发现因果推断在猕猴额顶环路中的神经计算机制
【4】Nat Commun︱朱英杰团队揭示大脑调控奖赏和厌恶的伏隔核平行环路新机制
【5】BMC Med︱代方银团队利用家蚕构建帕金森综合征模型及进行药效评价取得重要进展
【6】Sci Adv︱邰艳龙课题组提出一种具有三维景深感知的人工遥感触觉器件
【7】Cell Res︱郑慧/徐兴顺团队揭示抑郁症诱导的抗病毒免疫功能障碍的机制
【8】Mol Neurobiol︱徐凯彪/高亦博团队发现不同原因引起的新发难治性癫痫持续状态的潜在病理机制
【9】Mol Psychiatry︱庞志平/陈超/诺奖得主Thomas Südhof团队揭示孤独症风险突变获得性功能突触新机制
【10】PLOS Biol︱陆伟团队发现睡眠-觉醒周期动态调节海马抑制性突触可塑性
优质科研培训课程推荐【1】第十届近红外训练营(线上:2022.11.30~12.20)【2】第九届脑电数据分析启航班(训练营:2022.11.23—12.24)欢迎加入“逻辑神经科学”【1】“ 逻辑神经科学 ”诚聘编辑/运营岗位 ( 在线办公)【2】人才招聘︱“ 逻辑神经科学 ”诚聘文章解读/撰写岗位 ( 网络兼职, 在线办公)[1] Gapsys, V., et al., Accurate and Rigorous Prediction of the Changes in Protein Free Energies in a Large-Scale Mutation Scan. Angewandte Chemie International Edition, 2016. 55(26): p. 7364-7368.
[2] Wan, S., et al., The effect of protein mutations on drug binding suggests ensuing personalised drug selection. Scientific Reports, 2021. 11(1): p. 13452.
[3] Hao, G., G. Yang and C. Zhan, Structure-based methods for predicting target mutation-induced drug resistance and rational drug design to overcome the problem. Drug Discovery Today, 2012. 17(19): p. 1121-1126.
[4] Pires, D.E.V., D.B. Ascher and T.L. Blundell, DUET: A Server for Predicting Effects of Mutations on Protein Stability Using an Integrated Computational Approach. nucleic acids research, 2014. 42: p. 314-319.
[5] Chen, Y., et al., PremPS: Predicting the impact of missense mutations on protein stability. PLOS Computational Biology, 2020. 16(12): p. e1008543.
[6] Capriotti, E., P. Fariselli and R. Casadio, I-Mutant2.0: predicting stability changes upon mutation from the protein sequence or structure. nucleic acids research, 2005. 33: p. 306-310.
[7] Montanucci, L., et al., On the biases in predictions of protein stability changes upon variations: the INPS test case. Bioinformatics, 2019. 35(14): p. 2525-2527.
[8] Yang, Y., et al., ProTstab – predictor for cellular protein stability. BMC Genomics, 2019. 20(1): p. 1-9.
[9] Witvliet, D.K., et al., ELASPIC web-server: proteome-wide structure-based prediction of mutation effects on protein stability and binding affinity. Bioinformatics, 2016. 32(10): p. 1589-1591.
[10] Quan, L., Q. Lv and Y. Zhang, STRUM: structure-based prediction of protein stability changes upon single-point mutation. Bioinformatics, 2016. 32(19): p. 2936-2946.
[11] Dehouck, Y., et al., PoPMuSiC 2.1: a web server for the estimation of protein stability changes upon mutation and sequence optimality. BMC Bioinformatics, 2011. 12(1): p. 151.
[12] Capriotti, E., P. Fariselli and R. Casadio, A neural-network-based method for predicting protein stability changes upon single point mutations. Intelligent Systems in Molecular Biology, 2004. 20(1): p. 63-68.
[13] Pires, D.E.V., D.B. Ascher and T.L. Blundell, mCSM: predicting the effects of mutations in proteins using graph-based signatures. Bioinformatics, 2014. 30(3): p. 335-342.
[14] Laimer, J., et al., MAESTRO - multi agent stability prediction upon point mutations. BMC Bioinformatics, 2015. 16(1): p. 116-116.
[15] Rodrigues, C.H.M., D.E.V. Pires and D.B. Ascher, DynaMut: predicting the impact of mutations on protein conformation, flexibility and stability. nucleic acids research, 2018. 46.
[16] Pandurangan, A.P., et al., SDM: a server for predicting effects of mutations on protein stability. Nucleic Acids Research, 2017. 45(W1): p. W229-W235.
[17].Giollo, M., et al., NeEMO: a method using residue interaction networks to improve prediction of protein stability upon mutation. BMC Genomics, 2014. 15(S4): p. 1-11.
[18] Rodrigues, C.H.M., D.E.V. Pires and D.B. Ascher, DynaMut2: Assessing changes in stability and flexibility upon single and multiple point missense mutations. protein science, 2021. 30(1): p. 60-69.
[19] Cang, Z. and G. Wei, Analysis and prediction of protein folding energy changes upon mutation by element specific persistent homology. Bioinformatics, 2017. 33(22): p. 3549-3557.
[20] Chen, C., et al., iStable 2.0: Predicting protein thermal stability changes by integrating various characteristic modules. Computational and Structural Biotechnology Journal, 2020. 18: p. 622-630.
[21] Fariselli, P., et al., INPS: predicting the impact of non-synonymous variations on protein stability from sequence. Bioinformatics, 2015. 31(17): p. 2816-2821.
[22] Fang, J., A critical review of five machine learning-based algorithms for predicting protein stability changes upon mutation. Briefings in Bioinformatics, 2020. 21(4): p. 1285-1292.
[23] Pucci, F., M. Schwersensky and M. Rooman, Artificial intelligence challenges for predicting the impact of mutations on protein stability. Current Opinion in Structural Biology, 2022. 72: p. 161-168.
[24] Li, B., et al., Predicting changes in protein thermodynamic stability upon point mutation with deep 3D convolutional neural networks. PLOS Computational Biology, 2020. 16(11): p. e1008291.
[25] Benevenuta, S., et al., An antisymmetric neural network to predict free energy changes in protein variants. Journal of Physics D: Applied Physics, 2021. 54(24): p. 245403.
[26] Cao, H., et al., DeepDDG: Predicting the Stability Change of Protein Point Mutations Using Neural Networks. Journal of Chemical Information and Modeling, 2019. 59(4): p. 1508-1514.
[27] Montanucci, L., et al., DDGun: an untrained method for the prediction of protein stability changes upon single and multiple point variations. BMC Bioinformatics, 2019. 20(S14): p. 335-335
本文完