查看原文
其他

科研(IF:19.16) |Nucleic Acids Res:ProteomeXchange联盟成立10周年:2023年更新

微科盟 蛋白质组 2023-06-14

 点击蓝字“蛋白质组”,轻松关注不迷路

生科云网址:https://www.bioincloud.tech/


编译:微科盟Wicro,编辑:微科盟Emma、江舜尧。

微科盟原创微文,欢迎转发转载。

导读

质谱(MS)是迄今为止高通量蛋白质组学中最常用的实验方法。 ProteomeXchange(PX)蛋白质组学资源联盟(http://www.proteomexchange.org)最初是为了标准化公共MS蛋白质组学数据的数据提交和传播而设立的。自最初的数据工作流程实施至今已有10年。在这篇文章中,我们描述了自2020年Nucleic Acids Research(NAR)上一次更新文章发表以来PX的主要发展。联盟的六个成员是PRIDE、PeptideAtlas(包括PASSEL)、MassIVE、jPOSTiProXPanorama Public。我们报告了当前的数据提交统计数据,表明提交给PX资源的数据集数量每年都在持续增加。截至20226月,已向PX资源提交了超过34233个数据集,其中仅在过去三年就有20062个(58.6%)。我们还报告了通用频谱标识符的开发以及捕获实验元数据注释的改进。同时,我们强调公共数据集的数据重用活动继续增加,使PX资源与其他流行的生物信息学资源、新研究和新数据资源之间建立联系。最后,我们总结了敏感人类(临床)蛋白质组学数据的最新数据管理实践。


论文ID


原名:The ProteomeXchange consortium at 10 years: 2023 updat译名:ProteomeXchange联盟成立10周年:2023年更新
期刊:Nucleic Acids ResearchIF:19.160发表时间:2023.01通讯作者:Juan Antonio Vizcaíno通讯作者单位:欧洲生物信息学研究所 (EMBL-EBI)

主要内容


基于质谱(MS)的蛋白质组学方法越来越多地用作生物医学研究中的一种非常有价值的工具。蛋白质组学的主要应用包括基线或差异蛋白质表达的研究、蛋白质一级结构的表征及其翻译后修饰(PTMs,例如磷酸化),蛋白质结构的阐明和蛋白质-蛋白质相互作用的研究等。蛋白质组学经常补充其他组学技术,例如基因组学、转录组学、脂质组学、糖组学和代谢组学。

ProteomeXchange(PX)蛋白质组学资源联盟(http://www.proteomexchange.org) 旨在标准化全球公共MS蛋白质组学数据的数据提交和传播。 PX资源致力于遵守生物数据的FAIR(可查找、可访问、可互操作、可重复使用)原则,支持可重复研究,并代表蛋白质组学在开放数据实践方面的最新水平。PX资源的可感知可靠性使公共领域的蛋白质组学数据量空前增加。

PX联盟数据工作流程在2012年首次实施。当时,它仅涉及两个资源:PRIDE数据库(欧洲生物信息学研究所,EMBL-EBI,英国欣克斯顿)和PASSEL资源在PeptideAtlas(美国西雅图系统生物学研究所)内。此外,PeptideAtlas通过重新分析公开提交的数据集参与其中。近些年来,有四个额外的资源加入了PX,按时间顺序列出:MassIVE(美国加州大学圣地亚哥分校,2014年)、 jPOST(jPOST项目,日本,2016年)、iProX(国家蛋白质科学中心,中国北京,2017年)和Panorama Public(美国西雅图华盛顿大学,2018年)。一个名为ProteomeCentral (http://proteomecentral.proteomexchange.org)的公共门户为所有参与的PX资源中的公共数据集提供搜索功能,因为它包含每个公共数据集的元数据信息摘要。

作为一个关键点,PX的工作与蛋白质组学标准倡议(PSI,https://www.psidev.info/)的活动密切相关,该组织在该领域开发基于社区的开放数据标准。 PX资源支持和实施与MS相关的主要PSI开放数据格式和相关的受控词汇表。此外,他们还开发和维护几个开源解析器库和工具来支持这些数据标准。

在最初的10年里,由于PX资源的可靠性以及科学期刊和资助机构制定的数据政策,也由于公共数据共享现在被广泛认为是一种良好的科学实践,蛋白质组学领域已经接受了开放数据实践。由于多种原因,这对该领域来说是一个非常积极的发展。最重要的是,多种类型的数据重用活动对该领域的贡献越来越大,如下所述。

在这里,我们提供了自三年前在核酸研究(NAR)上发表上一篇更新论文以来,PX联盟及其个人资源的最新活动。我们还描述了更新的提交统计数据,以证明公共领域蛋白质组学数据集的持续增长和PX的广泛采用。作为一个关键点,我们强调了PX资源以及第三方的数据重用活动,并讨论了未来的发展。请参阅各个PX资源的最新更新文章,以获取有关每个资源的更全面信息。


1. 当前的PX数据工作流程和PSI数据标准的实施


PRIDE、MassIVE、jPOST和iProX是通用档案资源,而PASSEL和Panorama Public是针对目标蛋白质组学方法的重点资源。所有PX资源都存储MS蛋白质组学数据,在文章审查过程中为审稿人和期刊编辑提供私人访问。有关如何访问每个资源的信息,请参见表1。此外,表2总结了PX资源提供的主要功能。 PX数据集(PXD)标识符是持久且唯一的,并用作所有最初提交的符合PX要求的数据集的主要数据集标识符(https://registry.identifiers.org/registry/px)。在某些情况下,为重新分析的数据集发布RPXD标识符。此外,一些PX资源有自己的数据集标识符,也可以与PXD标识符并行使用。此外,还可以为“完整”提交发布数字对象标识符 (DOI)(有关提交类型的更多详细信息,请参见下文),PXD标识符由标识符解析服务identifiers.org和Bioregistry解析。在数据许可方面,2020年所有PX资源都以默认的Creative Commons CC0许可为基础。但是Panorama Public和iProX分配了CC-BY许可,默认需要署名,CC0作为选项可用给数据提交者。

表1. 当前PX资源概览信息

表2. PX资源提供的主要功能

缩略语:API:应用程序编程接口; EGA:欧洲基因型-现象档案; DDA:数据相关采集; DIA:数据独立采集; DL:深度学习; DOI:数字对象标识符;公平:可查找、可访问、可互操作、可重用; GDPR:通用数据保护条例; HPP:人类蛋白质组计划; HUPO:人类蛋白质组组织; IDF:调查描述格式; JGA:日本基因型-表型档案; JPDM:蛋白质组数据和方法杂志;ML:机器学习;MS:质谱; OmicsDI:组学发现索引; ORF:开放阅读框; PDB:蛋白质数据库; PSI:蛋白质组学标准倡议; PTM:翻译后修饰; PX:蛋白质组交换; RSS:丰富的站点摘要; SDRF:样本和数据关系格式; UCSC:加州大学圣克鲁斯分校; UniProtKB:UniProt知识库; USI:通用频谱标识符。


在过去三年中,整体数据工作流程没有改变。首先,研究人员将数据提交到PX数据资源之一。其次,数据在文章审查过程中是保密的。第三,一旦被接受的文章发表,相应的数据集就会公开并传播到ProteomeCentral。届时,社区中的每个人都可以使用数据集,并且可以重复使用。有两种数据提交工作流程,称为“完整”和“部分”。对于这两种提交类型,必须包含每个数据集级别的一组通用实验元数据(以ProteomeCentral使用的共享PX XML格式编码,http://proteomecentral.proteomexchange.org/schemas/proteomeXchange-1.4.0.xsd),连同原始质谱和处理后的结果(鉴定或量化数据)。

两种提交类型之间的主要区别在于,在“完整”数据集的情况下,要求接收PX资源能够解析、处理并将所有单个结果与提交的MS数据直接连接,从而使数据可视化成为可能。这通常只能在处理结果以受支持的PSI开放标准数据格式提供时才能完成。 PX资源完全支持MS的主要开放PSI数据标准,即mzML(用于MS数据)、mzIdentML和mzTab(用于肽和蛋白质鉴定和定量的制表符分隔文件)。此外,Panorama Public还支持Skyline软件生成的其他开放格式,用于“完整”提交。

相比之下,“部分”数据集包含经过处理的结果文件,这些文件不是开放标准格式,可以被接收存储库解析并因此摄取。然后允许任何分析输出文件。需要此模式来支持使用数十种分析工具分析的数据集,这些分析工具不支持开放数据标准,并且来自许多不同的实验方法。如果最终用户有合适的软件来解析或可视化文件,则可以下载并重复使用此类“部分”数据集。或者更常见的是,可以使用原始数据作为基础对数据进行重新处理和重新解释。

在FAIR数据原则的背景下,PX中除PanoramaPublic之外的所有资源现在都支持PSI的质谱通用质谱标识符(USI),该标识符已于2021年正式化。USI提供了一种标准化机制,用于对任何质谱的虚拟路径进行编码包含在存放于PX(https://registry.identifiers.org/registry/mzspec)的数据集中。因此,USI可以提高光谱证据的透明度,使其更“公平”。ProteomeCentral在 http://proteomecentral.proteomexchange.org/usi/上实现了一个单一的端点,它可以联系所有参与的合作伙伴,以获取所提供的USI(如果在任何资源上可用)的光谱。使用肽形式的形式2.0表示法,作为USI的一部分也支持光谱解释。除了支持原始提交的光谱解释的PX资源外,其中的一个子集(例如ProteomeCentral、MassIVE和PeptideAtlas)允许用户尝试对相同光谱的不同解释,从而促进对光谱识别质量的交互式评估。例如,MassIVE USI查询工具还允许用户考虑其他信息来支持或质疑报告的标识:(i) 通过启用搜索相同USI频谱的替代标识(可能来自数据集再分析),以及 (ii) 通过启用查找用于同一USI肽的参考光谱(例如来自MassIVE-KB等参考光谱库)。


2. 实验元数据提供方面的改进使数据分析成为可能


PX数据工作流的另一个最新发展是文件格式MAGE-TAB-Proteomics的开发,以改进PX数据集的元数据注释。在样本级别缺乏适当的结构化元数据(包括实验设计)可能会阻止更简化地重复使用PX资源中可用的公共数据集,尤其是在重新分析定量蛋白质组学数据集的情况下。 MAGE-TAB-Proteomics格式是转录组学中使用的原始MAGE-TAB格式的扩展,具有两个主要组成部分:调查描述格式(IDF)和样本与数据关系格式(SDRF-Proteomics)。首先,IDF包含研究的一般描述(PX用户不需要提供它,因为该文件可以根据提交者提供的当前信息由资源生成)。其次,SDRF-Proteomics格式包括实验设计的表示,以及实验样本与原始文件之间的映射。SDRF-Proteomics是一种制表符分隔格式,其中每一列都是样本或数据文件的属性(https://github.com/bigbio/proteomics-metadata-standard)。 SDRF-Proteomics文件现在可以使用电子表格软件(例如Excel®)创建,并由提交者添加到每个提交给PRIDE的数据集。截至2022年9月,大约450个PRIDE数据集具有相关的SDRF-Proteomics文件,这些文件由提交者或重新注释数据集的第三方提供,请参阅公共数据集列表:https://www.ebi.ac.uk/pride/archive?keyword=sdrf.tsv)。

在开发MAGE-TAB-Proteomics之前,MassIVE引入了MassIVE.quant资源(与美国东北大学合作),用于共享定量蛋白质组学数据集、元数据和再分析。 MassIVE.quant兼容所有主要的MS数据采集类型和计算分析工具,系统地存储原始数据、实验设计、定量分析工作流程每一步的脚本(或描述)以及中间输入和输出文件。定量数据集的MassIVE.quant注释现在涵盖公共数据集中的128915个光谱文件,对应于数千个研究组中的33314个样本。

jPOST还专注于开发工作流以在统一过程中重新分析提交的数据。为此,必须实施多种方法来改进实验元数据的收集。除了通过人工整理从科学文章中提取元数据外,还推出了名为Journal of Proteome Data and Methods(JPDM, https://www.jhupo.org/jpdm/) 的数据期刊。该期刊鼓励数据贡献者以文章的形式提供详细的元数据[https://doi.org/10.14889/jpdm.2019.0001]。基于以这种方式收集的元数据,超过100个数据集被重新分析,分配RPXD标识符,并从jPOSTrepo 发布。 jPOSTdb也提供了重新分析的数据集,它配备了蛋白质查看器。jPOST团队将继续根据收集到的可用元数据重新分析提交的数据集。目前的计划还包括开发一种机制,根据提交的数据和收集的元数据之间的关系,通过机器学习(ML)自动从论文中收集元数据。


3. 数据提交和数据访问统计


截至2022年6月底,共有34233个数据集提交给PX资源。其中,22675个数据集(66.2%)已经公开可用,而其余数据集仍未发布(11558个数据集,33.8%)。提交的数据集数量逐年增加,这一趋势尚未停止(图1)。自上一篇PX更新论文以来,已有20064个数据集提交给PX资源,这意味着58.6%的PX数据集是在过去三年内提交的。这再次展示了公共领域蛋白质组学数据集的显着增加。仅在2021年,就有创纪录的7333个数据集被提交给PX资源(平均每月611个数据集)。在2022年前6个月,这个数字是3935个数据集。

图1. 从2012年5月到2022年6月,每月向PX资源提交的数据集数量公开发布的数据集以绿色显示,未发布的数据集以黄色显示。


4. 数据重用活动


在PX资源的支持下,数据重用活动(包括公共蛋白质组学数据集的再分析)正在急剧增加,如2中所总结。PX资源对公共PX数据集的系统再处理是使蛋白质组学数据更加公平的核心活动:可查找(例如索引标准化搜索结果)、可访问(例如不需要完整数据集下载的在线数据探索工具)、可重复使用(例如以标准开放格式报告的结果)和可互操作(例如使用标准蛋白质标识符报告的搜索结果)。在PX数据资源层面,许多这些数据重用工作旨在使生命科学家,尤其是那些非蛋白质组学专家更容易获得蛋白质组学数据。这些活动涉及蛋白质组学实验生成的不同数据类型:

1)肽和蛋白质序列以及PTM数据MassIVE已经免费开发了几个可访问的开源工作流程,用于系统数据集再分析,包括例如用于检测意外修改的MODa开放式修改搜索。总而言之,MassIVE已经从392个数据集中重新分析了超过22亿个质谱,从而推导出超过11亿个新的肽鉴定结果。为了促进数据重用,MassIVE提供自动化工作流程将提交的MS原始数据转换为mzML,并且已经使用这些工作流程在数万个转换后的原始文件中发布了数十亿个光谱。蛋白质组学数据的存储库规模集成需要专门的工作流程,以避免跨数据集积累错误发现。MassIVE通过开发 MassIVE-KB工作流程来构建光谱库,在光谱、肽和蛋白质水平上具有全局控制的错误发现率(FDR),从而解决了这个问题。当前版本的人类MassIVE-KB光谱库(https://massive.ucsd.edu/ProteoSAFe/static/massive-kb-libraries.jsp)由来自超过12亿个光谱的3.26亿个鉴定构建而成,由此产生包含19855个(大于97%)典型人类蛋白质的超过600万个参考光谱的库。

图2. 当前的PX资源和致力于公共蛋白质组学数据集数据重用的主要工作的概览图。该图列出了不同的数据类型,包括蛋白质定量表达、基因组学和蛋白质组学数据的整合(蛋白质组学),包括宏基因组学和宏蛋白质组学、肽和蛋白质序列以及PTM。对于每种数据类型,突出显示了可以访问这些数据的相应数据资源。还指出了其他数据重用活动,例如在人类蛋白质组项目、软件基准测试、机器学习方法和光谱库创建方面的努力。最后,还指出了其他重用蛋白质组学数据的生物信息学资源(ProteomeHD、MatrisomeDB和GPMDB)。

使用类似的工作流程,PeptideAtlas还发布了基于PX数据的特定物种构建,包括针对人类、拟南芥、酵母、野鲮(Rohu)和铜绿假单胞菌的构建。SWATHAtlas(http://www.swatatlas.org/)提供适用于十几种不同物种的DIA(数据独立采集)分析的光谱库,所有这些都通过DIALib-QC进行了质量验证。 PX资源的这些努力随后与人类蛋白质组组织(HUPO)的人类蛋白质组计划(HPP)旗舰计划相结合,构成有史以来最大的社区规模数据再分析项目,以构建人类蛋白质组蓝图,建立蛋白质组约90%的人类基因组的基因产物的水平存在——如果没有PX资源提供的数据共享基础设施,整个蛋白质组学界的旗舰成就是不可能的。

jPOST还从提交的原始数据中重新分析人类、小鼠、大肠杆菌、SARS-CoV-2和其他数据集,并通过jPOSTdb提供它们。重要的是要强调PX资源已经将肽和蛋白质序列数据整合到蛋白质知识库中,例如UniProtKB(UniProt KnowledgeBase)和neXtProt。此外,我们正在开发数据管道、文件格式和指南,以在“PTMeXchange”项目的背景下向UniProtKB提供PTM数据(从磷酸化开始)。到目前为止,我们一直致力于对一种方法进行基准测试,以准确报告具有全局错误定位率的PTM,并开始对来自水稻、恶性疟原虫和小鼠的富集蛋白磷酸化的数据集进行再分析和整合。未来的工作将致力于人类PTM数据,包括其他蛋白质修饰。在PX联盟的成员之外,近年来也开始了提供PX数据集PTM再分析的其他生物信息学资源,包括Scop3P。此外,GPMDB已向社区提供重新分析的肽、蛋白质和PTM识别数据超过15年。

2)来自蛋白质组学方法(也包括免疫肽组学和元蛋白质组学方法)的数据一方面,应该强调的是,肽序列数据可以通过使用蛋白质组学数据“中心”整合到Ensembl、Ensembl Genomes或UCSC基因组浏览器等资源中。此外,可以使用由例如构建的序列数据库重新分析公共PX数据集。使用基因组学、转录组学或 Ribo-seq数据,以及其他DNA/RNA测序方法。这些蛋白质组学方法的最初应用是改进基因组注释工作。最近涉及PeptideAtlas的一些工作涉及对一些数据集的重新分析,以提供使用Ribo-seq检测到的ORF(开放阅读框)表达的实验证据。

在PX合作伙伴的工作之外,已经建立了一些生物信息学资源来为某些基因组学事件提供蛋白质组学证据,例如LNCipedia(长链非编码RNA)、sORF.org(简称ORF)和OpenProt(支持真核基因组多顺反子注释模型的蛋白质组学资源)。此外,在更广泛的蛋白质组学方法背景下,PRIDE已经开展了一些试点工作,将元蛋白质组学数据集与EMBL-EBI资源MGnify中相应的宏基因组学和元转录组学数据联系起来并进行整合。此外,公共领域的免疫肽组学数据集的数量也在增加。资源SysteMHC Atlas用于表示此数据类型,链接到PX资源中的原始公共数据集。该资源目前在公共领域不再可用,但正在计划在新的基础设施中重新开发它。

3)蛋白质定量表达信息。有不同的努力来提供一致重新分析的定量蛋白质组学数据。 PRIDE正在将蛋白质表达信息整合到EMBL-EBI的资源表达图谱中,从而能够在同一网络界面中访问和可视化基因和蛋白质表达(丰度)数据。到目前为止,已经对不同组的数据集进行了重新分析和整合,主要是来自细胞系和肿瘤组织、人类、小鼠和大鼠组织的数据依赖采集(DDA)数据,以及一项涉及来自不同来源的DIA数据集。Expression Atlas还可以提供一种未来的方式,通过单细胞Expression Atlas整合单细胞蛋白质组学数据。

同样在定量蛋白质组学的背景下,如上所述,MassIVE.quant是可重现的基于MS的定量蛋白质组学的数据资源。截至2022年9月,MassIVE.quant支持传播209项定量再分析,包括元数据、来源记录和再现605496项蛋白质测量的统计分析所需的所有中间文件,从而产生114262项统计显着的差异丰度事件。

在PX联盟之外,proteomicsDB是目前提供来自人类、小鼠、拟南芥和水稻的蛋白质和基因表达数据的资源。 proteomicsDB中使用的许多数据集都是在慕尼黑工业大学的小组本地生成的,但其他数据集则取自PX资源。

此外,近年来还建立了重新使用公共PX数据集的新数据资源,例如提供人和小鼠细胞外基质更新视图的MatrisomeDB和提供信息的资源ProteomeHD关于共表达的蛋白质,等等。

在整个社区中,公共数据集被重新用于除上述主题之外的其他目的。软件基准测试仍然是最流行的数据重用类型之一。此外,一个关键用例是在涉及蛋白质组学数据的流行“大数据”方法的应用中重复使用数据集,例如ML和深度学习(DL)研究。大多数研究在ML/DL方法的开发中使用公共数据集(例如用于培训目的),包括例如蛋白质消化预测、肽保留时间、肽碎片、离子淌度的碰撞横截面或肽和蛋白质识别和定量算法的改进,以及其他应用。在这种情况下,PRIDE参与了一项使用ML方法为人类磷酸盐创建功能评分的研究,其中重新分析了112个富含磷酸盐的人类数据集。

为了促进数据重用目的的访问,PX资源中的公共数据集也可通过OmicsDI(组学发现索引)门户网站(http://www.omicsdi.org)访问。在其他可用功能中,OmicsDI 能够在可能的情况下将多组学研究中包含的蛋白质组学数据集链接到来自其他组学方法的相应公共数据集(例如,已生成蛋白质组学和转录组学数据集的研究)。


5. 支持敏感的人类蛋白质组学数据集


在欧洲ELIXIR Proteomics社区(https://elixir-europe.org/communities/proteomics)的一些PX合作伙伴和成员的带领下,去年发布了一份社区驱动的白皮书,描述了数据的现状敏感人类(临床)蛋白质组学数据集的管理实践。解决基因组学和转录组学数据的伦理问题导致了数据管理流程,以控制谁可以访问所谓的“受控访问”存储库中的数据。这意味着想要访问某些数据集的科学家需要编写一个应用程序,然后必须得到批准,例如。数据访问委员会。支持存储和传播受控访问 DNA/RNA测序数据集的资源包括 GA(欧洲基因组-现象档案)、dbGAP(美国)和日本基因型-表型档案(JGA)。

目前PX中的所有数据都是开放的,可以公开访问。蛋白质组学数据的类似受控访问选项的必要性首先取决于这些数据是否可以潜在地用于识别研究参与者。在蛋白质组学中,虽然已经发表了少量关于该主题的研究,尤其是在法医学研究的背景下,但需要更多的研究来回答不同实验工作流程和蛋白质组学数据类型的这个问题。除了与个人可识别性相关的问题外,由于与患者同意相关的要求/由于欧洲GDPR(通用数据保护条例)等个人数据法规或任何其他相关法规,可能需要对蛋白质组学数据进行受控访问.

PX中的当前政策(就像其他开放资源存储其他类型组学数据的情况一样)是提交者负责保证数据可以由他们提交到的相应PX资源合法托管。我们预计,由于伦理相关问题,将有越来越多的敏感(临床)人类数据集无法通过完全开放的PX资源提供。我们建议用户,如果存在任何此类潜在的法律问题,他们应该将数据提交到PX之外的替代存储库。然而,现有的受控访问资源(例如上述资源(EGA、dbGaP和JGA))对于蛋白质组学数据集来说并不理想。他们的数据模型基于Sequence Read Archive 数据模型,该模型是为基于测序的分析量身定制的,不能恰当地代表蛋白质组学数据集。

为了解决这个问题,一些PX成员将致力于开发一个定制的基础设施,用于存储和访问敏感的人类蛋白质组学数据,并同时制定所有相关的数据政策。在撰写本文时,PRIDE已经开始与EMBL-EBI的EGA团队合作设计此类系统。 MassIVE还为受控访问数据集设计了一个平台,但目前的实施取决于对进一步开发的未决支持。在中国,《中华人民共和国人类遗传资源管理条例》于2019年7月1日开始实施。自正式颁布以来,北京蛋白质组研究中心遗传信息保存数据库(dbPDPM)和中国国家人口健康中心数据中心获授权收集、保存、利用和提供中国人类遗传资源。计划在2022年底推出dbPDPM,它是iProX的扩展,支持多组学数据。


6. 讨论和未来计划

PX通过促进和实现蛋白质组学数据的共享,继续支持蛋白质组学领域的开放数据文化。越来越多的科学期刊(包括主要的蛋白质组学期刊)和资助机构要求提交的文章随附生成的数据集。这当然是提交数据集持续增长的主要原因之一。

PX资源继续与该领域的需求并行发展。在数据归档活动的背景下,除了已经涵盖的敏感蛋白质组学数据集主题外,还将为结构蛋白质组学数据集提供改进的支持,包括将不同结构数据的提交链接到蛋白质数据库(PDB)。理想情况下,需要以不同的方式改进对DIA方法的支持,因为最初的PX数据提交工作流是在考虑DDA方法的情况下开发的。我们计划通过强制沉积和推广使用PSI的mzSpecLib(https://github.com/HUPO-PSI/mzSpecLib),为DIA数据集中的光谱库提交(目前是可选的)提供更好的支持) 光谱库的开放数据标准,目前正在开发中。

在数据重用活动的背景下,我们计划继续上述活动,用于不同的目的(例如定量蛋白质表达、蛋白质组学、肽和蛋白质序列数据和PTM、光谱库的创建等)。我们认为这些数据重用和数据集成工作(作为该领域现有更广泛趋势的一部分)是使蛋白质组学数据在生命科学中更易于访问和重用的关键。

我们将密切关注的另一个主题是非基于MS的蛋白质组学技术的进一步发展,例如亲和试剂的使用(例如SomaLogic®和Olink®检测)。为这些数据类型量身定制的存储库仍然缺乏,但可能是需要的。中期的一种可能性是,必须开发现有PX资源的未来扩展,以及元数据和专用软件工具的指南,以支持这些非MS实验。然而,重要的是要强调,迄今为止从非MS方法生成的大部分研究都是从人类临床样本生成的,因此数据可能被认为是敏感的,因此可能必须应用受控访问机制。

重要的是要注意,只要他们遵守更新后的ProteomeXchange会员协议(http://www.proteomexchange.org/pxcollaborativeagreement.pdf)中规定的联盟要求,该联盟仍然开放接受新成员。对于所有新的公开可用数据集的定期公告,用户可以关注我们的Twitter帐户(@proteomexchange)或订阅以下Rich Site Summary(RSS)提要 (https://groups.google.com/forum/feed/proteomexchange/msgs/rss_v2_0.xml)。


可用数据源

PX网页位于http://www.proteomexchange.org。



原文链接: 

https://pubmed.ncbi.nlm.nih.gov/36370099/


----------微科盟更多推荐---------- 


科研(IF:38.104) |中国医学科学院:SARS-CoV-2劫持细胞激酶CDK2促进病毒RNA合成(国人佳作)


科研 (IF: 68.164)|Nat. Biotechnol.:药物作用机制的蛋白质组全图谱



获取此文献原文PDF、申请加入学术群,联系您所添加的任一微科盟组学老师即可,如未添加过微科盟组学老师,请联系组学老师46,无需重复添加。


请关注下方公众号

了解更多蛋白质组知识

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存