查看原文
其他

Nat Methods︱张阳团队发布蛋白质/核酸及其复合物的通用结构比对算法:US-align

The following article is from 岚翰生命科学 Author 张成辛



来源︱“逻辑神经科学”姊妹号“岚翰生命科学”

撰文︱金玲婷

编辑︱方以一,杨彬薇


结构生物学中一个基本的问题就是如何对不同的生物学大分子的三维结构进行精确的分析比较,也叫做结构比对(structure alignment)。精确的结构比对除了提供直观的分子形状比较外,在大分子结构分类、功能注释、药物发现和蛋白设计等生物医学问题中都有着重要应用。常见的计算机结构比对程序都是在特定的分子类型(蛋白质、RNA、DNA)以及特定的比对问题(单体结构的两两比对、多个单体结构的多重比对、复合物结构比对)上进行优化。目前还没有一款软件可以普遍适用于多种分子类型和多种结构比对问题。这使得不同的分子类型的结构比较各自为政、难以沟通;同时也使得某些重要的含有不同类型分子的复合物(比如蛋白质-DNA)之间的结构比对难以进行。因而,通用的结构比对算法不但能促进不同计算机比对算法的融合,也使得不同类型的结构比对结果具有通用和可比性。

2022年8月,密歇根大学张阳课题组张成辛博士、耶鲁大Anna Pyle课题组Morgan Shine博士生合作在自然-方法Nature Methods上发表了题为“US-align: universal structure alignments of proteins, nucleic acids, and macromolecular complexes”的工作,发布了第一款将蛋白质、RNA、DNA的单体与复合物的两两比对和多重比对等功能统一在同一套比对算法和打分函数(TM-score)[1, 2]的结构比对程序US-align(图1a-d)US-align的网页服务器、单机版程序以及开源C++代码可在https://zhanggroup.org/US-align/https://github.com/pylelab/USalign获得。


US-align整合了TM-align[3]和RNA-align[2]这两款分别用于蛋白质与核酸的单体结构的两两比对算法,同时把单体结构比对算法进一步推广至复合物结构比对,单体和复合物的比对都是通过启发式比对算法对TM-score这一目标函数进行递进式优化(图1e)具体而言,US-align先通过两结构之间的相对滑动和二级结构匹配等方式生成多个初始比对,再针对每一套初始比对,都进行反复的结构重叠(superimposition)与全局比对(global alignment)的层级迭代,求解出TM-score最优的结构比对结果。
 
图1 US-align实现的主要功能。a单链结构的两两比对;b复合物结构的两两比对;c多条单链结构的多重比对;d基于模板的结构比对;eUS-align两两结构比对的递推流程图。
(图源:Zhang C, et al.Nat Methods, 2022)

虽然US-align与初代MM-align算法[4]同样使用TM-score为目标函数,但US-align在比对搜索上使用更为优化的算法,使其在复合物比对任务上的达到更好的TM-score与比对覆盖度,并且速度是旧算法(MM-align与MICAN)的数倍(图2)
 
图2 US-align、MM-align和MICAN在蛋白复合物结构比对上的比较。
(图源:Zhang C, et al.Nat Methods, 2022)

US-align也实现具有将多个单体结构进行多重比对(multiple structure alignment, MSTA)的功能,US-align的MSTA借鉴mTM-align算法[5]并且新增RNA多重结构比对功能,不但在TM-score和RMSD上超越已有程序(Matt和MUSTANG),而且比对速度比另外两款程序分别快151650(图3)

图3 US-align、Matt和MUSTANG在RNA多重结构比对上的比较。
(图源:Zhang C, et al.Nat Methods, 2022)

由于US-align既适用于核酸又适用于蛋白质,并且对所用的分子类型都使用统一的打分函数,因而特别适用于基于模板的RNA-蛋白结构比对。具体而言,对于一对输入的蛋白质和RNA单链结构,US-align可以搜索已有的RNA-蛋白复合物结构数据库,并且将输入的单链结构重合到复合物模板结构上,从而构造出输入蛋白与输入RNA之间的完整复合物结构。相比于已有的基于模板的比对程序(PRIME)和不依赖模板的程序(3dRPC),US-align的比对成功率提高了37个百分点,并且速度是已有程序的628(图4)

图4 US-align、3dRPC和PRIME在RNA-蛋白质分子对接上的比较。其中3dRPC不需要结构模板;US-align与PRIME使用的模板都和输入结构的蛋白质序列相似性<30%,RNA序列相似性<80%。
(图源:Zhang C, et al.Nat Methods, 2022)

文章结论与讨论,启发与展望
综上所述,US-align程序是一款快速、准确的结构比对程序,适用于多种结构比对任务,并且所有的结构比对功能都整合在同一套打分函数(TM-score)和启发式搜索算法下,在单体与复合物的两两比对、多重比对和分子对接等任务中都超越了其它的先进算法。下一代结构比对程序US-align2的开发正在进行中,US-align2将在兼容所有US-align功能的基础上,新增非序列顺序比对(non-sequential alignment)功能。US-align系列程序目前只能进行刚体结构比对,未来的研发工作将会关注柔性结构比对(flexible structure alignment)的支持。

原文链接:https://doi.org/10.1038/s41592-022-01585-1

第一作者:张成辛
(照片提供自:张阳实验室)

作者简介(上下滑动阅读) 
张成辛,博士毕业于密歇根大学张阳课题组,本科毕业于复旦大学谭砚文课题组,目前是耶鲁大学Anna Pyle实验室博士后。主要进行蛋白质与RNA的结构预测与实验结构解析、生物功能注释以及三维结构比对的算法开发,自2017年以来在Nature MethodsNucleic Acid ResearchBioinformaticsJournal of Molecular BiologyJournal of Proteome ResearchActa Crystallographica section D等国际权威杂志上发表第一作者文章10篇、并列第一作者7篇。

往期文章精选

【1】J Neuroinflammation 综述︱新冠肺炎与认知障碍:神经侵袭性和血脑屏障功能障碍

【2】CRPS 综述︱沈国震团队评述光电人工突触器件研究进展

【3】Science | 灵长类背外侧前额叶皮质分子和细胞水平的进化图谱

【4】BMC Medicine︱宋欢/索晨团队发现精神疾病遗传易感性与COVID-19感染风险相关

【5】Mol Neurobiology︱杨莉/龙程课题组揭示小胶质细胞介导慢性应激所致焦虑行为的分子通路

【6】Nat Commun︱叶克强团队发现TrkB激动剂前药-R13可抑制骨流失

【7】Nat Commun | 陈忠团队揭示下托参与颞叶癫痫发病的环路及分子机制

【8】Cereb Cortex︱童善保/洪祥飞团队揭示视觉空间注意任务中脑电alpha节律的重要影响因素

【9】Mol Psychiatry︱王莹飞课题组揭示KDM6B蛋白在神经元突触可塑性和学习记忆中的作用

【10】Cereb Cortex︱童善保/洪祥飞团队揭示视觉空间注意任务中脑电alpha节律的重要影响因素

优质科研培训课程推荐

【1】R语言临床预测生物医学统计专题培训(10月15-16日,北京·中科院遗传与发育生物学研究所)

会议/论坛预告

【1】会议预告丨面向大众的神经技术:国际学术大咖共话脑机接口、Meta Brain、应用神经技术……

【1】预告 | 神经调节与脑机接口会议(北京时间10月13-14日(U.S. Pacific Time:10月12-13日)

欢迎加入“逻辑神经科学”【1】人才招聘︱“ 逻辑神经科学 ”诚聘文章解读/撰写岗位 ( 网络兼职, 在线办公)

参考文献(上下滑动阅读) 

[1] Zhang, Y., & Skolnick, J. (2004). Scoring function for automated assessment of protein structure template quality. Proteins, 57(4), 702-710.

[2] Gong, S., Zhang, C., & Zhang, Y. (2019). RNA-align: quick and accurate alignment of RNA 3D structures based on size-independent TM-scoreRNABioinformatics, 35(21), 4459-4461.

[3] Zhang, Y., & Skolnick, J. (2005). TM-align: a protein structure alignment algorithm based on the TM-score. Nucleic acids research, 33(7), 2302-2309.

[4] Mukherjee, S., & Zhang, Y. (2009). MM-align: a quick algorithm for aligning multiple-chain protein complex structures using iterative dynamic programming. Nucleic acids research, 37(11), e83-e83.

[5] Dong, R., Peng, Z., Zhang, Y., & Yang, J. (2018). mTM-align: an algorithm for fast and accurate multiple protein structure alignment. Bioinformatics, 34(10), 1719-1725.


本文完

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存