综述 |Curr Opin Chem Biol:大规模糖蛋白质组学计算算法和软件的最新进展
生科云网址:https://www.bioincloud.tech/
编译:微科盟-李乃康,编辑:微科盟Emma、江舜尧。
微科盟原创微文,欢迎转发转载。
导读糖蛋白质组学,或在蛋白质组尺度上表征糖基化事件,近年来在通过串联质谱分析糖肽的方法方面取得了快速进展。这些进步使人们能够获得更全面和更大规模的数据集,同时迫切需要改进信息学方法来分析结果数据。最近出现了新一代的糖蛋白质组学搜索方法,使用多糖片段将糖肽的鉴定分为肽和多糖组分,并分别解决每个组分。在这篇综述中,我们讨论了这些新方法及其对大规模糖组学的影响,以及糖组学数据分析中的几个突出挑战,包括多糖分配和定量的验证。最后,我们从信息学的角度展望了糖蛋白质组学的未来,指出了实现广泛和可重复的糖肽注释和定量的关键挑战。
论文ID
原名:Recent advances in computational algorithms and software for large-scale glycoproteomics译名:大规模糖蛋白质组学计算算法和软件的最新进展期刊:Current Opinion in Chemical BiologyIF:8.927发表时间:2022.12通讯作者:Alexey I. Nesvizhskii,Daniel A. Polasky通讯作者单位:美国密歇根大学病理学系;美国密歇根大学计算医学和生物信息学系
主要内容
1. 糖肽搜索:传统和新方法
糖蛋白质组学数据分析在糖肽如何与光谱匹配的范式转变过程中,采用新的方法和软件工具,比以前的方法显著提高了灵敏度、准确性和速度。然而,这些进展暴露了糖肽匹配自动验证方面的现有挑战,评估和验证日益扩大的数据集的方法仍然是一个非常活跃的发展领域。表1中列出了最近开发的工具以及最近更新的流行软件包的概况。从串联质谱数据中识别糖肽的新方法的核心是将糖肽搜索拆分为肽和多糖搜索组分,首先解决其中一个组分,并使用该信息限制其他组分的搜索空间(图1)。以前的方法主要将糖肽作为一个整体单元进行搜索,这意味着需要考虑所有可能肽上的所有可能多糖的完整集合(图1a)。这种搜索的复杂性通常要求将搜索空间限制在蛋白质组的子集或相对较少的多糖,以在合理的时间内完成搜索。尽管如此,一些传统的搜索软件工具已成为糖蛋白质组学分析的流行工具,特别是Byonic,ProteinProspector和GlycReSoft,其中Byonic可能是使用最广泛的糖蛋白质组分析工具。由于多糖在受到碰撞活化时非常容易碎裂,这些工具在分析碰撞活化数据时考虑了多糖碎裂产生的额外离子。过去十年中,除了多糖特异性碎片离子,传统方法对糖肽分析也进行了许多优化。或者,这种简单的多糖碎片可用于将糖肽分配分为两部分,因为可以直接观察到仅有多糖或仅有肽的片段,并用于分离鉴定肽或多糖。在MAGIC和pGlyco软件工具推广用于蛋白质组规模分析之前,“多糖优先”方法首先由几个亚蛋白质组规模工具开发。多糖优先搜索的定义特征是使用y离子,即具有一系列多糖片段的完整肽,来确定肽质量,并使用它来大大减少可能的肽序列的搜索空间(图1b)。在实践中以两种常见的方式实现。pGlyco3使用两步法,首先使用y离子和氧鎓离子将完整的多糖与多糖数据库匹配,并通过从观察到的前体质量中减去确定的多糖质量来确定肽质量,从而允许在大大减小的搜索空间中匹配肽。大多数其他工具,包括MAGIC、GPSeeker、StructGP和Glyco-Decipher,使用三步方法,首先从y离子序列直接推断肽质量,使用N-多糖五糖核心的已知结构来找到y0离子,获得完全去除多糖的肽(图1b)。然后使用肽骨架离子在受限的前体搜索空间中匹配肽,然后在肽鉴定之后可以进行完整多糖组成或结构的后续深入表征。虽然它们在完全表征多糖之前识别肽,但我们也将这些工具归类为“多糖优先”,因为多糖碎片离子用于限制肽搜索空间。三步方法需要已知的多糖核心结构来推断肽质量,由于O-多糖核心结构的多样性,迄今为止,这种方法仅限于N-多糖。然而,它允许在减小的搜索空间中进行肽和最终多糖表征,从而对N-糖肽进行高灵敏的搜索。例如,Glyco-Decipher最近被证明与使用该方法的其他几种工具相比灵敏度有所提高。StructGP还利用这种方法,使用低能HCD碎片来区分多糖结构。相比之下,pGlyco3已经被证明可以使用其两步方法分析O-糖肽和N-糖肽,并且其速度和灵敏度很高。近年来开发了一种可替代的肽优先方法,其软件实现包括MSFragger-Glyco(FragPipe计算平台的一部分)、GPQuest 2.0和MetaMorpheus。肽优先方法利用现代蛋白质组学方法的能力,直接匹配光谱中的肽的b和y离子,同时对肽前体进行最小的预过滤,以允许匹配具有许多不同潜在多糖质量的肽(图1c)。碎片化离子索引的最新进展是这一方法的关键,因为在蛋白质组规模分析中,如果没有它,不受限制或较少限制的前体空间搜索将需要非常长的时间。一旦确定了肽序列,通过从观察到的前体质量中减去肽质量来推断多糖质量,从而大大减小多糖搜索空间。后续的多糖鉴定步骤已被证明对肽优先方法至关重要,因为单独的多糖质量不足以区分复杂样品中的相似质量的多糖成分。与多糖优先方法不同,肽优先方法不需要观察y离子以匹配糖肽谱,这可以提高灵敏度,尤其是对于y离子不太常见的O-糖肽。例如,使用最近添加多糖特异性FDR的MSFragger-Glyco进行搜索发现,在酵母糖肽的搜索中,糖肽谱比pGlyco3多60%,比Glyco-Decipher多15%。然而,肽优先方法可能会错过一些低丰度肽,这些肽可能在多糖优先方法中被发现,因为即使在没有任何肽骨架片段的情况下,也可能观察到典型的多糖碎片离子。最终,多糖优先和肽优先方法通过将糖肽鉴定划分为搜索空间较小的单独组分,大大提高了糖肽光谱匹配的速度和灵敏度。
2.O-连接的糖肽
上述糖蛋白质组学搜索方法的变化适用于O-连接的糖肽和N-连接的糖肽,但由于O-连接的多糖的不同碎裂行为,存在一些差异。虽然N-连接的多糖通常留在单糖肽的b和y离子上,但O-连接的多糖经常在碰撞活化时完全丢失,从而排除了碎片离子证据中多糖的直接定位。此外,O-糖肽产生的y离子相对较少,O-多糖核心结构的多样性对多糖优先搜索方法提出了挑战,特别是对于需要已知核心结构来确定肽质量的三步方法,区分单个较大多糖和多个较小多糖为O-糖肽表征增加了必要的逆卷积步骤。EThcD(电子传递与高能碰撞解离)和仅使用ETD(电子传递解离)的传统搜索方法能够识别和定位O-糖肽,例如通过ProteinProspector,但通常需要限制肽或多糖搜索空间或在合理时间内执行每个肽的糖位点数量。一些工具,如MSFragger Glyco和O-Search,已经单独使用HCD(高能碰撞解离)识别O-糖肽,只需报告肽序列和总多糖质量。这种方法排除了位点特异性分析,但当糖肽水平信息足够时,可以快速、灵敏地搜索大数据集。最近,开发了一种名为O-Pair的强大的新方法,该方法使用碰撞活化扫描来识别肽序列,并使用基于图论的动态编程方法,使用成对的基于电子的活化扫描来分离和定位附着的多糖。与Byonic和ProteinProspector中的传统搜索相比,特别是当每个肽允许多个糖基化位点时,O-Pair方法能够识别和定位更多的O-糖肽,同时也大大提高了速度。在pGlyco3中也实现了类似的成对扫描、基于图论的方法,并取得了一些计算上进步,从而大大提高了速度。成对扫描方法结合了碰撞活化扫描中分离肽和多糖鉴定的显著优势,以及明确定位O-多糖所需的基于电子的活化,从而实现了在新水平上灵敏地分析O-糖肽。评估多糖定位的置信度对于所有O-糖蛋白质组学方法至关重要,尤其是对于多簇的O-多糖。O-Pair通过基于图论方法的定位概率引入了一系列置信水平,该方法可用于区分和可信地定位所有、部分或无多糖的糖肽。这是一个值得高兴的进步,虽然在使用不同定位概率的软件工具之间进行比较仍然存在挑战,但它可以实现对高可信度识别的自动过滤。我们预计这一领域会继续发展,可能会结合其他蛋白质组学领域正在开发的错误定位率计算。
3.已鉴定多糖的验证
随着糖蛋白质组学转向更大、更复杂的实验,对指定多糖的自动验证的需求大幅增加。虽然用于错误发现率(FDR)估计的自动目标-诱饵竞争方法已为蛋白质组学中的肽序列分配建立了良好的基础,但通过专业注释光谱的手动验证在很大程度上仍然是评估多糖分配有效性的金标准。然而,为了应对大规模验证多糖分配的需求,正在出现为多糖分配提供置信分数和FDR控制的方法。与肽相反,肽中氨基酸的线性序列可以被反转以产生诱饵,FDR评估方法已经建立,由较少类型的单糖组成的非线性多糖对目标-诱饵FDR估计提出了挑战。大多数早期的糖蛋白质组学工具仅依赖于肽水平FDR,该FDR由蛋白质组学搜索中经典的目标-诱饵方法生成,并且需要手动验证以确认分配的多糖,因为肽分数不能直接测算多糖分配的置信度。鉴于与实施大规模多糖FDR相关的挑战,如在Byonic中,虽然几项分析表明存在显著的错误分配率,但该方法仍被经常使用。糖肽FDR评估的几种方法改变了多糖和肽的组成,以生成诱饵糖肽(图2a)。这些方法已应用于中小型分析,但由于难以避免样品中实际存在的“诱饵”糖肽,混淆了真阳性和假阳性,因此通常不用于全蛋白质组规模分析。关键的是,这些方法只能应用于传统的搜索方法,因为肽或多糖优先方法将从目标中去除具有不同肽和多糖质量的所有诱饵,从而强烈偏向于目标匹配而不是诱饵匹配。在蛋白质组规模的工具中,目前多糖FDR的常用方法是“基于光谱的”诱饵生成,其中目标多糖的理论碎片离子在与实验光谱匹配之前会有随机的少量偏移(图2b)。携带目标和诱饵(质量转移)多糖的肽的得分用于评估从诱饵的比例中提供指定FDR所需的得分阈值(图2c)。在pGlyco3、MSFragger Glyco、Glyco Decipher和StructGP中实现了该方法的细微变化。通过评估光谱中随机离子的匹配率,该方法提供了指定多糖偶然与给定光谱匹配的可能性的估计。然而,由于许多多糖共享许多相同的碎片离子(特别是N-多糖,它们共享一个共同的五糖核心),因此该方法在区分相似多糖时低估了FDR,低估的程度随着相似程度的增加而增加。StructGP在该方法中添加了一些创新,试图抵消结构特定分配的影响,这必然涉及比较高度相似的多糖。将随机质量偏移添加到前体以及碎片离子,并使用贝叶斯概率评估生成的子结构分数。StructGP、pGlyco3和Glyco Decipher将肽和多糖FDR评估结合在一个步骤中。作为FragPipe软件的一部分运行的MSFragger-Glyco首先执行肽FDR,随后通过PTM-Shepherd处理工具中的单独模块评估多糖FDR。在大多数情况下,这些方法提供了类似的结果,虽然单步方法在区分多糖或肽上可能存在类似修饰的情况时具有优势。对被分析样品中已知不存在的多糖进行诱饵搜索,已被用作评估这些方法的准确性并比较不同工具的输出结果。例如,最近一项比较MSFragger-Glyco/PTM-Shepherd和pGlyco3的分析表明,这两种工具都阻止了酵母糖肽谱对唾液酸化小鼠多糖的分配,但在控制酵母谱图对高甘露糖小鼠多糖(与酵母多糖更相似)的分配方面能力较弱。这些分析表明,当多糖被自动分配时,尤其是在糖基化特征不完全的系统中,仍需谨慎。然而,目前基于光谱的FDR工具代表着糖蛋白质组学向前迈出了重要一步,使大规模分析得以进行。我们预计多糖FDR的改进将在未来几年继续,以实现糖肽谱的全自动解析。最后,软件方法开始扩展多糖识别,包括被修饰的多糖并区分异构多糖结构,不过这些努力增加了多糖分配中FDR控制的挑战,因为在考虑被修饰的多糖时搜索空间的扩大。一些传统的搜索工具,包括GlycReSoft和Protein-Prospector,支持各种类型的多糖修饰与加合物,尤其是金属阳离子。包括Glyco-Decipher、pGlyco3和MSFragger-Glyco/PTM-Shepherd在内的最新软件工具也支持几种常见多糖修饰与加合物的修饰或加合多糖分析。值得注意的是,Glyco-Decipher使用单糖步进法,通过寻找y离子序列中的间隙,进一步发现意想不到的多糖修饰。在MSFragger-Glyco中,开放式糖肽搜索新的或意想不到的多糖也是可能的,MSFragger-Glyco最近被用于表征细菌糖肽。试图不仅区分附着多糖的组成,而且区分拓扑和结构软件方法也开始出现。StructGP使用低能量HCD光谱生成大的多糖b和y离子,以区分各种拓扑结构,并在区分生物学相关的异构多糖方面显示出有效性。这些方法必须注意一点,那就是已知在质子化糖肽的裂解过程中会发生多糖的重排。高质量的碎片信息也是需要的,但随着质谱采集方法的不断改进,这种以结构为中心的方法可能越来越适用于大规模分析。
总结与展望
随着将糖肽鉴定分为单独的肽和多糖组分的新工具的发展,过去几年来,糖蛋白质组学数据分析方法发生了范式转变。随着糖蛋白质组学数据采集的步伐不断加快,这些方法将在注释检测到的糖肽和将原始糖蛋白质组数据转化为有用信息方面发挥关键作用。然而,在提供完全自动化、蛋白质组规模的糖肽鉴定和定量方面,仍存在一些关键挑战。分配糖肽的多糖成分并评估这些分配的可信度仍然是一个非常活跃的研究领域。虽然上面强调了几种方法的前景,但由于用作实际数据集的已知标准规模较小,因此方法之间的比较仍然具有挑战性。诱饵搜索的进展提供了有用的标准分析法,但所用的诱饵多糖必须具有足够的复杂性,以匹配所检查样品中的多糖。重要的是,糖蛋白质组学方法的比较必须确保所考虑的可能多糖列表在所比较的软件工具之间是相同的。最近的几个例子比较了使用不同多糖组的软件工具的性能,可能会产生误导性结果。在这方面,最近对多糖数据库、比较和相关生物信息学工具进行标准化的努力(最近在这里进行了综述)尤其受欢迎。最后,扩展这里讨论的许多令人兴奋的进展的能力,包括被修饰的多糖,甚至是哺乳动物的N-和O-糖肽,以涵盖蛋白质糖基化的全部范围,虽然最近开发的工具如SugarPy正在这方面取得进展,但仍然是一项重要的任务。
糖蛋白质组信息学有几个令人兴奋的领域即将在未来几年出现。糖肽的定量方法为下一代生物标志物发现和精准医疗提供了巨大的前景,这需要从糖蛋白质组学数据的采集和分析中获得更高的可重复性和可靠性,以充分发挥其潜力。一些糖蛋白质组学软件工具提供了定量方法或正在积极开发它们,并且已经开发了一些工具,用于使用专门的标签或获取方法进行特定的定量实验。虽然在处理产生的复杂数据方面存在重大挑战,但糖肽的数据非依赖性采集(DIA)和光谱库匹配方法也为糖肽的定量比较提供了巨大的潜力。最近的一个软件工具GproDIA展示了DIA在糖蛋白质组学方面的潜力,以及在开发改进的信息学以应对无前体选择的糖肽分析的复杂性方面面临的诸多挑战。对于传统的DDA(数据依赖性采集模式)和新的DIA糖蛋白组学方法,预测糖肽保留时间和碎裂谱图的方法在改进谱图的注释和减少错误匹配方面具有相当大的潜力。已经提出了几种新的方法,虽然克服了糖基化的巨大异质性和缺乏大规模的、注释良好的训练数据,但这些方法目前仍然存在重大障碍,我们预计,上文讨论的深度学习和AI辅助糖蛋白质组学搜索方法的改进将在未来几年减少这些障碍。
总之,用于糖蛋白质组学数据分析的工具正在快速改进,变得更加强大且可广泛应用。将评估哺乳动物糖基化(尤其是哺乳动物N-糖基化)的许多进展推广到所有生命形式的蛋白质糖基化的整个范畴,需要在未来许多年改进糖蛋白质组学数据分析方法。虽然在验证多糖分配和可靠的定量糖肽方面仍存在挑战,但糖蛋白质组信息学的快速创新步伐似乎有望在未来几年在应对这些挑战方面取得快速发展。
https://www.sciencedirect.com/science/article/pii/S1367593122001235?via%3Dihub
----------微科盟更多推荐----------
科研 (IF: 68.164)|Nat. Biotechnol.:药物作用机制的蛋白质组全图谱
科研(IF:19.16) |Nucleic Acids Res:ProteomeXchange联盟成立10周年:2023年更新
获取此文献原文PDF、申请加入学术群,联系您所添加的任一微科盟组学老师即可,如未添加过微科盟组学老师,请联系组学老师46,无需重复添加。
请关注下方公众号
了解更多蛋白质组知识