科研(IF:13.994) |浙大:非标记蛋白质组定量和评价(国人佳作)
生科云网址:https://www.bioincloud.tech/
编译:微科盟-王丰丰,编辑:微科盟Emma、江舜尧。
微科盟原创微文,欢迎转发转载。
导读蛋白质非标记定量技术(label-free quantification,LFQ)由于其蛋白质组覆盖范围广、动态范围大、分析重现性强等优点,已成为蛋白质组学中一种卓越的分析技术。由于深度定量极为困难,因此需要构建包含多种转换、预处理和填补方法的LFQ链。然而,由于其对研究数据的高度依赖和集成链的多种可能性,确定性能良好的链仍然具有挑战性。因此,该研究构建了一个名为EVALFQ的R包,以便对超过3000的LFQ链进行性能评估。该软件包的独特之处有:(a)使用多种标准自动评估性能,(b)基于加标蛋白探索定量准确性,(c)通过综合评估发现性能良好的链。总之,由于其具有在多角度评估和扫描超过3000条链的优势,该软件包有望吸引蛋白质组学定量领域的广泛关注。该软件包可在https://github.com/idrblab/EVALFQ获得。
亮点
(1)EVALFQ包是基于R代码开发的,用于无标记蛋白质组的定量和评估。
(2)>3000 LFQ链的性能可以通过多个角度的多种标准自动评估。
(3)基于EVALFQ软件包中的加标蛋白,探索了定量的准确性。
(4)使用EVALFQ软件包,可以通过综合评估发现性能良好的LFQ链。
论文ID
原名:Label-free proteome quantification and evaluation译名:非标记蛋白质组定量和评价期刊:Briefings in BioinformaticsIF:13.994发表时间:2022.11通讯作者:朱峰通讯作者单位:浙江大学药学院
实验设计
主要内容
1. 前言
基于质谱(MS)的蛋白质组学是通过对蛋白组进行定性、定量、分子功能分析、通路互作分析和蛋白互作分析,揭示生物学功能、作用机制、疾病诊断的标志物以及预测蛋白的上、下游变化关系。定量蛋白质组学就是把一个基因组表达的全部蛋白质或一个复杂的混合体系中所有的蛋白质进行精确的定量和鉴定。目前定量蛋白质组学技术主要分为标记(Label)和非标记的(LFQ)定量策略(图S1)。在这些技术中,LFQ是通过LC-MS/MS技术对蛋白质酶解肽段进行质谱分析,无需使用昂贵的稳定同位素标签做内部标准,只需分析大规模鉴定蛋白质时所产生的质谱数据,比较不同样品中相应肽段的信号强度,从而对肽段对应的蛋白质进行相对定量,在发现蛋白质方面具有独特的优势。LFQ因其蛋白质组覆盖面广、动态范围大、分析重现性强而在当前蛋白质组学中脱颖而出,目前已被用于发现有希望的治疗靶点、研究宿主菌群的变化和阐明靶向药物代谢等方面。
尽管LFQ技术取得了诸多进展,然而,深度和高质量的定量仍然极具挑战。这些挑战归因于蛋白质丰度的不对称分布、技术处理中固有的系统偏差和多组学技术中不可避免的缺失值。针对这些挑战,首先构建了≥3转换、≥18预处理和≥7填补方法(表S1),分别用于转化数据分布、减少重复值的变异性和填补缺失的数据;然后,通过依次整合这些方法生成数千条LFQ链(补充方法S1)。由于每个LFQ链的定量性能在很大程度上取决于所研究数据的性质,因此,确定性能良好的LFQ链,以促进深度的蛋白质组学定量是非常重要且十分困难的。
迄今为止,几种强大的工具已被开发用于分析或评估无标记的蛋白质组定量。其中,Perseus提供了多种方法,但不进行任何评估;Normalyzer提供了归一化的评估;NAguideR评估了各种填补。LFQ链不仅涉及转换,还涉及预处理和填补,因此,任何只关注单一方法的评估可能无法反映LFQ链的整体性能。ANPELA是第一个能够对整个LFQ链进行性能评估的工具。然而,由于其基于网络的性质,ANPELA不可能对所有可能的LFQ链进行全面扫描(>3000,补充方法S1)。因此,构建一个通过扫描所有可能的链来实现定量性能的综合评估的新工具是至关重要的。然而,目前还没有这样的工具可用。
本文构建了一个名为EVALFQ的R包,可对3128条LFQ链进行性能评估。该R包能够(1)使用多种标准自动评价性能,(2)基于加标蛋白探索LFQ的准确性,(3)通过综合评估发现性能良好的LFQ链。由于其在多角度评估和数千条链扫描方面的优势,EVALFQ有望引起定量蛋白质组学领域的广泛关注。
2 材料与方法
2.1 本研究中分析的基准数据集的收集情况
如表1所示,第一项研究提供了基于前列腺癌患者的113个恶性肿瘤组织和111个癌旁组织的所有理论碎片离子质谱(SWATH-MS)顺序窗口采集的蛋白质组数据,并通过OpenSWATH对蛋白质组学数据集进行定量。在第二项研究中,基于肝细胞癌患者的101个恶性组织和98个配对的非肿瘤组织,检测了峰值强度蛋白质组学数据,并通过MaxQuant进行定量。在第三项研究中,提供了一个基于17个肥胖者的肌肉匀浆和16个瘦人的肌肉匀浆测得的光谱计数的蛋白质组数据集,并通过Scaffold进行定量。第四项研究提供了基于五种比例的七种非小鼠蛋白添加到C2C12小鼠细胞裂解液的五个样品组(SGs)中测得的SWATH-MS蛋白质组学数据,并通过OpenSWATH定量。在第五项研究中,蛋白质组数据集的峰值强度由7只野生型雄性小鼠和5只过表达细胞色素P450芳香化酶的转基因雄性小鼠组成,并由Progenesis进行预处理。第六项研究提供了基于添加2 fmol 48种重组人蛋白质(UPS1)的三个样品和添加50 fmol UPS1的三个样品测得的峰值强度蛋白质组数据,并由Progenesis进行了定量。第七项研究给出了一个肺癌患者的103个恶性肿瘤和103个配对的非癌旁组织的峰值强度蛋白质组数据集,并用MaxQuant进行了定量。第八项研究提供了肾细胞癌患者的18个肿瘤组织活检和18个非肿瘤组织活检的SWATH-MS蛋白质组数据集,并由OpenSWATH进行预处理。最后一项研究描述了克罗恩病患者的21个组织和健康者的10个组织的峰值强度蛋白质组数据,并由MaxQuant进行预处理。此外,所有经过处理的数据集(表1)可在https://idrblab.org/ evalfq/download/All.Processed.Datasets.xlsx获取。
表1 所研究基准的详细信息及其相应的采集技术和所采用的定量工具为了测试EVALFQ的功能,本文从著名的蛋白质组学数据库和最近发表的文章中收集了各种基准。本研究总共评估了九个基准。如表1所示,这些基准的定量工具和采集模式非常多样化,其中包括:SWATH-MS、峰值强度和光谱计数(由四种不同的定量软件工具进行定量)。由于每种方法的应用都应遵循各自的假设(表S1),因此表1还提供了对所分析基准的三个假设。这些假设包括:(A)所有蛋白质都同等重要;(B)样品之间蛋白质的丰度水平是恒定的;(C)大多数蛋白质的强度在研究条件下保持不变。所有数据均来自PRIDE和iProX。
2.2 通过序贯集成法构建LFQ链
如补充表S1所示,有3种转换、18种预处理(中心化、缩放和标准化)和7种填补方法可用于转换数据分布、减少重复值的差异性和填补缺失的数据。这18种预处理方法有三种类型的假设:(1)所有蛋白质都应该同等重要,这是应用中心化和比例缩放的先决条件;(2)所有样品中的蛋白质丰度水平应该是恒定的,这是MEA、MED、MAD和TIC等标准化方法的先验假设;(3)绝大多数蛋白质的强度在研究条件下应保持不变,这是其他一些标准化方法所要求的,包括CYC、EIG、LIN、LOW、PQN、QUA、RLR和TMM。因此,LFQ链由五个顺序集成步骤组成:转换、中心化、缩放、标准化和填补。换句话说,对所有28种方法进行随机、全面和序贯集成可以得出3128条五步的LFQ链。在补充方法S1中明确说明了通过依次整合五个步骤的方法构建LFQ链的详细信息,并在补充表S1中列出了各方法的缩写。
2.3 从多个角度进行评估的独立标准
EVALFQ提供了五个可用于评估LFQ链性能的独立标准。(1)标准Ca:基于重复值间蛋白质组的LFQ精度。标准Ca是评估减少不同样本间组内变异能力的常用标准。其值大于0,值越低表示对变异的去除越彻底。(2)标准Cb:不同SGs之间LFQ的分类能力。标准Cb用于评估对多个类别进行分类的能力。其值介于0和1之间,值越大(接近1)表示分类性能越高。(3)标准Cc:通过重现性优化进行差异丰度分析。标准Cc对评价不同丰度的重现性是有效的。其值在0和1之间,值越大(接近1)表示重现性越高。(4)标准Cd:不同数据集之间已识别标记的一致性。标准Cd用于评估不同数据集中标记的稳健性。其值介于0和1之间。如果接近1,则表示已识别标记的最高鲁棒性。(5)标准Ce:基于加标蛋白和背景蛋白的LFQ准确性。标准Ce可以反映处理后的数据和标准值之间的对应程度。当存在最小变化时,处理后的数据和标准值差异的中位数等于0。所有这五项标准都已在以前发表的文章中得到很好的确立。有关所有评估标准的详细信息详见补充方法S2。
基于这些独立的标准,EVALFQ能够从多个角度对LFQ链进行性能评估。用户可以应用上述讨论的一个或多个标准,通过参数设置来评估LFQ链。特别是,3128条潜在的LFQ链的性能可以首先使用每个标准分别排序。根据相应的标准对每种方法分配了不同的排名数。然后,通过多个标准下的多个排名数的总和来定义所研究的LFQ链的总体排名。总和越小,LFQ链的排名越高。
2.4 EVALFQ软件包的安装步骤和配置
为了确保正确安装EVALFQ软件包,必须按下列顺序安装以下工具。首先,从R网站下载安装R语言。安装R的过程取决于操作系统的类型。其次,从RStudio网站下载安装RStudio。第三,安装各种依赖的R包,包括affy、Biobase、BiocGenerics、impute、limma、metabolomics、pcaMethods、ProteoMM、ROTS和vsn。一些软件包可以从GitHub(https://github.com/)下载,一些软件包可以从Bioconductor(http://bioconductor.org/)下载,其余的软件包可以从CRAN(https://cran.r-project.org)获得。所需软件包的详细信息详见补充方法S3。第四,安装devtools软件包并加载此包。第五,安装EVALFQ软件包。在安装EVALFQ包过程中,报错信息“错误:依赖项‘Package Name’不适用于包‘EVALFQ’”提示名为“Package Name”的依赖包没有安装成功。用户可以使用补充方法S3中的说明重新安装该特定包。
2.5 EVALFQ软件包的实施和功能
EVALFQ是一个基于通用公共许可证(GPLv3)的R包,可通过GitHub存储库免费获取。它基于多个标准评估LFQ链的性能,并通过全面扫描超过3000条潜在的LFQ链来识别性能良好的链。本研究开发的EVALFQ R包《使用手册》见补充方法S3。EVALFQ中典型的评估包括三个操作步骤:
(S1)文件选择。输入数据可能是由18种流行的定量软件工具生成的各种文件,这些工具基于三种采集模式(SWATH-MS,峰值强度和光谱计数)。SWATH-MS是一种可以检测和定量样品中几乎所有可检测肽段的测量方法,用于SWATH-MS数据预处理的软件有DIA-UMPIRE、OpenSWATH、PeakView、Skyline和Spectronaut。峰值强度是一种可以在LC-MS分析水平上比较肽信号强度的采集方法,用于峰值强度数据预处理的软件有MaxQuant、MFPaQ、OpenMS、PEAKS、Progenesis、Proteios SE、Scaffold和Thermo Proteome Discoverer。光谱计数法可以对鉴定出的多肽数量或获得的光谱片段进行计数,用于光谱计数数据预处理的软件包括Abacus、Census、DTASelect、IRMa-hEIDI、MaxQuant、MFPaQ、ProteinProphet和Scaffold。这些工具生成的文件格式可以在《使用手册》中找到。PrepareInuputFiles()函数允许读者上传这些定量软件工具生成的输出文件。详细说明请参见在线《用户手册》。
(S2)数据分析。EVALFQ线的一个关键特性是它能够提供多种方法,扫描数千条LFQ链,并最终发现性能最好的一条。基于多个标准对每条LFQ链的性能评估是通过两个函数实现的:Lfqevalueall()函数用于处理非加标蛋白的数据,lfqspikedall()函数能够对加标蛋白的数据进行定量。这些函数生成的输出文件在补充表S2中有明确描述。
(S3)结果可视化。通过运行lfqvisualize()函数,生成了一个对3128条潜在LFQ链进行排名的热图,以使用不同的颜色(深蓝色、浅蓝色和粉红色分别用来表示“优”、“良”和“差”的性能)来显示每个标准下的性能。图1显示了三个基准数据集的代表性性能的多条链(10个代表一贯的“优秀/良好”,10个代表在任何标准下都不“优秀”,10个代表在不同标准中完全不同的性能)。总之,EVALFQ的特点是能够识别性能良好的LFQ链。
3 结果与讨论
3.1 不同LFQ链的性能之间存在较大差异
为了评估EVALFQ识别性能良好的LFQ链的能力,本文分别收集了基于SWATH-MS、峰值强度和光谱计数采集的PXD004691、PXD006512和Katsanos等人发布的数据集的三个不同获取模式的基准(见表1)。表2给出了每个数据集的代表性LFQ链的性能(使用多个标准共同评估)。如表所示,对于所有这些基准,不同链的性能差异较大(案例研究S1明确描述了标准中不同LFQ链的性能差异)。在通过不同定量工具定量的蛋白质组数据的一个或多个标准下,某些链并可能没有好的效果。因此,基于EVALFQ包中实现的多个标准系统地评估每个LFQ链的性能是至关重要的。
表2. 三个数据集的代表性LFQ链的性能(通过四个标准共同评估)3.2 基于多个标准识别性能良好的LFQ链
在每个独立标准下,LFQ链的性能差异较大。如补充图S2A、S3A、S4A、S5A和S6A所示,所有LFQ链的性能仅按标准Ca、Cb、Cc、Cd和Ce分别使用基准PXD002025、PXD000672、PXD002882、IPX0001804000和PXD002099进行排名。某一标准下性能的下降,不会影响其他标准下性能的变化趋势。此外,如补充图S2B、S3B、S4B、S5B和S6B所示,分别提供了仅依据标准Ca、Cb、Cc、Cd或Ce确定的前10条LFQ链。对于按一个标准排名的性能最好的链,按其他标准评估的性能差异却很大。补充方法S2中提供了基于五个标准的LFQ链性能的详细说明。
为了发现性能良好的LFQ链,EVALFQ软件包集成了一个策略,该策略能够使用多个标准对>3000条LFQ链的性能进行综合评估。如图1和补充表S3所示,该策略应用于各种基准测试(PXD004691、PXD006512和Katsanos等人发布的数据集),并提供了详细的评估结果。基于上述结果,案例研究S2明确表明对所有LFQ链进行全面性能评估以确定性能良好的链的必要性。换句话说,通过使用多个标准对性能进行综合排名,可以大大降低寻找性能良好的LFQ链的难度,这可以广泛促进当前蛋白质组学分析的研究。
3.3 通过加标蛋白和背景蛋白验证LFQ链的准确性
加标蛋白是经过充分研究的元素,有助于蛋白质组学定量的性能评估。特别是,加标蛋白水平应以预期丰度比定量,而背景蛋白水平则保持无偏变化。以加标蛋白作为金标准,案例研究S3生动地描述了基于加标蛋白和背景蛋白提高定量准确性的方法。如图2所示,以样品-1对样品-2为例,参考原始文献中采用的链(LOG-NON-NON-MEA-ZER)(灰色的小提琴图),发现另外5条链在保证加标蛋白预期浓度比的偏差方面性能良好(深蓝色的小提琴图)。总之,EVALFQ展示了其通过保持加标蛋白的真实生物学变化来验证LFQ链准确性的能力,这使得使用预期的蛋白丰度比作为金标准来识别最合适的LFQ链成为可能。随着大数据时代的到来,EVALFQ可能成为现有蛋白质组学数据分析工具的必要补充,并可能吸引相关领域的广泛兴趣。EVALFQ软件包是蛋白质组学数据分析的必备工具,具有许多优点。该软件包涵盖广泛的可用处理方法,但这些方法仅限于常用的方法。为了提高数据处理的有效性,需要不断开发蛋白质组学的新方法,这是无法自动完成的。因此,我们的团队将会持续手动更新该程序包。另外,利用EVALFQ包对数千条LFQ链进行顺序评估需要大量的时间。特别是对于大规模的蛋白质组数据集,应用该软件包所花费的计算时间从数百到数千分钟不等。未来,EVALFQ包的计算效率还应大幅提高。4. 结论
原文链接:
https://doi.org/10.1093/bib/bbac477
----------微科盟更多推荐----------
综述 |Mass Spectrom Rev:面向癌症多组学的临床蛋白质组学
科研 (IF:47.990)|Nat Methods:蛋白质组成和组织结构的空间映射:基于多重抗体成像的入门手册
如果需要原文pdf,请扫描文末二维码领取
请关注下方公众号
了解更多蛋白质组知识