Nat Methods︱张阳团队发布蛋白质、核酸及其复合物的通用结构比对算法:US-align
撰文︱张成辛
责编︱王思珍,方以一
编辑︱方以一
结构生物学中一个基本的问题就是如何对不同的生物学大分子的三维结构进行精确的分析比较,也叫做结构比对(structure alignment)。精确的结构比对除了提供直观的分子形状比较外,在大分子结构分类、功能注释、药物发现和蛋白设计等生物医学问题中都有着重要应用。常见的计算机结构比对程序都是在特定的分子类型(蛋白质、RNA、DNA)以及特定的比对问题(单体结构的两两比对、多个单体结构的多重比对、复合物结构比对)上进行优化。目前还没有一款软件可以普遍适用于多种分子类型和多种结构比对问题。这使得不同的分子类型的结构比较各自为政、难以沟通;同时也使得某些重要的含有不同类型分子的复合物(比如蛋白质-DNA)之间的结构比对难以进行。因而,通用的结构比对算法不但能促进不同计算机比对算法的融合,也使得不同类型的结构比对结果具有通用和可比性。
2022年8月29日,密歇根大学张阳课题组张成辛博士、耶鲁大学Anna Pyle课题组Morgan Shine博士生合作在《自然-方法》(Nature Methods)上发表了题为“US-align: universal structure alignments of proteins, nucleic acids, and macromolecular complexes”的工作,发布了第一款将蛋白质、RNA、DNA的单体与复合物的两两比对和多重比对等功能统一在同一套比对算法和打分函数(TM-score)[1, 2]的结构比对程序US-align(图1a-d)。US-align的网页服务器、单机版程序以及开源C++代码可在https://zhanggroup.org/US-align/和 https://github.com/pylelab/USalign获得。
US-align整合了TM-align[3]和RNA-align[2]这两款分别用于蛋白质与核酸的单体结构的两两比对算法,同时把单体结构比对算法进一步推广至复合物结构比对,单体和复合物的比对都是通过启发式比对算法对TM-score这一目标函数进行递进式优化(图1e)。具体而言,US-align先通过两结构之间的相对滑动和二级结构匹配等方式生成多个初始比对,再针对每一套初始比对,都进行反复的结构重叠(superimposition)与全局比对(global alignment)的层级迭代,求解出TM-score最优的结构比对结果。
图1 US-align实现的主要功能。(a)单链结构的两两比对;(b)复合物结构的两两比对;(c)多条单链结构的多重比对;(d)基于模板的结构比对;(e)US-align两两结构比对的递推流程图。
(图源:Zhang C, et al., Nat Methods, 2022)
虽然US-align与初代MM-align算法[4]同样使用TM-score为目标函数,但US-align在比对搜索上使用更为优化的算法,使其在复合物比对任务上的达到更好的TM-score与比对覆盖度,并且速度是旧算法(MM-align与MICAN)的数倍(图2)。
图2 US-align、MM-align和MICAN在蛋白复合物结构比对上的比较。
(图源:Zhang C, et al., Nat Methods, 2022)
US-align也实现具有将多个单体结构进行多重比对(multiple structure alignment, MSTA)的功能,US-align的MSTA借鉴mTM-align算法[5]并且新增RNA多重结构比对功能,不但在TM-score和RMSD上超越已有程序(Matt和MUSTANG),而且比对速度比另外两款程序分别快15和1650倍(图3)。
图3 US-align、Matt和MUSTANG在RNA多重结构比对上的比较。
(图源:Zhang C, et al., Nat Methods, 2022)
由于US-align既适用于核酸又适用于蛋白质,并且对所用的分子类型都使用统一的打分函数,因而特别适用于基于模板的RNA-蛋白结构比对。具体而言,对于一对输入的蛋白质和RNA单链结构,US-align可以搜索已有的RNA-蛋白复合物结构数据库,并且将输入的单链结构重合到复合物模板结构上,从而构造出输入蛋白与输入RNA之间的完整复合物结构。相比于已有的基于模板的比对程序(PRIME)和不依赖模板的程序(3dRPC),US-align的比对成功率提高了3到7个百分点,并且速度是已有程序的6到28倍(图4)。
图4 US-align、3dRPC和PRIME在RNA-蛋白质分子对接上的比较。其中3dRPC不需要结构模板;US-align与PRIME使用的模板都和输入结构的蛋白质序列相似性<30%,RNA序列相似性<80%。
(图源:Zhang C, et al., Nat Methods, 2022)
原文链接:https://doi.org/10.1038/s41592-022-01585-1
第一作者:张成辛
(照片提供自:张阳实验室)
作者简介(上下滑动阅读)
【1】STTT 综述︱蔡春梅/郑春福评述环指蛋白家族(RNFs)在健康和疾病中的研究进展
【2】Redox Biol︱吴希美/邹朝春团队合作发现维生素C缺乏导致幼雌鼠发生低血糖并揭示其中相关分子机制
【3】PNAS︱李刚课题组绘制婴幼儿大脑皮层表面积发育模式和区域化图谱
【4】Sci Adv︱姚军课题组构建三维纳米晶体管用于同时监测心肌细胞的生物电和机械信号
【5】Sci Adv︱赵存友/陈荣清团队揭示微小RNA诱导小鼠出现社交和记忆异常机制:miR-501-3p表达缺陷增强谷氨酸能传递
【6】Acta Neuropathol︱翻转酶ATP11B异质表达缺失导致脑小血管疾病
【7】eLife︱刘光伟/毕玉晶团队发现机械力受体PIEZO1肿瘤免疫新机制:调控树突状细胞依赖性T细胞分化
【8】J Pest Sci︱陈晓光等团队的研究揭示了媒介伊蚊抗性发生新机制,为杀虫剂抗性管理提供了筛选策略
【9】Autophagy︱张新军课题组揭示了RAB21在调控retromer介导的逆向回膜转运以及维持细胞能量稳态中的重要作用
参考文献(上下滑动阅读)
[1] Zhang, Y., & Skolnick, J. (2004). Scoring function for automated assessment of protein structure template quality. Proteins, 57(4), 702-710.
[2] Gong, S., Zhang, C., & Zhang, Y. (2019). RNA-align: quick and accurate alignment of RNA 3D structures based on size-independent TM-scoreRNA. Bioinformatics, 35(21), 4459-4461.
[3] Zhang, Y., & Skolnick, J. (2005). TM-align: a protein structure alignment algorithm based on the TM-score. Nucleic acids research, 33(7), 2302-2309.
[4] Mukherjee, S., & Zhang, Y. (2009). MM-align: a quick algorithm for aligning multiple-chain protein complex structures using iterative dynamic programming. Nucleic acids research, 37(11), e83-e83.
[5] Dong, R., Peng, Z., Zhang, Y., & Yang, J. (2018). mTM-align: an algorithm for fast and accurate multiple protein structure alignment. Bioinformatics, 34(10), 1719-1725.
本文完