查看原文
其他

如何上传质谱数据到 ProteomeXchange 官网

michelle 老俊俊的生信笔记 2022-08-15

点击上方,关注老俊俊!

1引言

目前较为常用的上传蛋白质组学数据的公共数据库有两种,ProteomeXchangeiProX

iProX 是国内的上传蛋白质组学质谱数据的存储平台,是在 ProteomeXchange 协会制定的数据共享指导方针的指导下建立的,包括数据上传系统和蛋白质组数据库。用户可以将自己的蛋白质组数据以公开或者私密的方式上传,不需要下载和安装软件。

ProteomeXchange 网站旗下包括有 PRIDE Archive, MassIVE, PeptideAtlas, and jPOST 等子平台。上传数据需要下载提交工具 PX Submission tool。今天我们学习将质谱数据上传到 PX 上。

2主要内容

1、下载提交工具

提交工具 PX Submission tool 运行基于 Java 开发环境,首先需要确保电脑已安装 Java。

我们可以去控制面板-程序-程序和功能中查看自己是否已安装 java。

如果没有安装,可以在这个地址里面下载程序包 https://www.oracle.com/java/technologies/downloads/#java8

选择合适的版本,下载,安装。

java 安装成功后,我们下载 PX Submission tool 软件包。在 https://www.ebi.ac.uk/pride/ 这里。下载之后解压缩,双击其中 px-submission-tool-2.5.4.jar 打开工具。

这里,我第一次安装的时候遇到了问题,进入工具之后发现不能注册账号,并显示报错 “ file checksum error”,在网上搜索了一下,重新调整电脑的时间、日期,重启电脑之后,工具恢复正常

2、注册账号

点击 Register New User 注册账号,注册成功后登录。

3、提交数据

step1 选择提交方式:

这里选择数据的上传方式,一般来说选 Partial Submissions

  • Complete Submissions,完整的提交确保处理后的结果和相应的质谱可以被 PRIDE 解析、整合和可视化,将识别数据连接到相应的质谱。为此,需要以 PSI 开放标准格式(mzIdentML 或 mzTab)提供处理后的识别结果。
  • Partial Submissions,在这种情况下,处理后的识别结果以其他数据格式提供,而不是上述完整提交的数据格式。这种方式允许将从不能导出为支持的格式的软件或从不太成熟/新颖的蛋白组学实验方法生成的数据存储在 PRIDE 中。

接下来,确认自己手中已有这些数据。

  1. 质谱输出文件(RAW):是两种提交所必须的。每个 RAW 文件需要与至少一个 SEARCH 文件相关联。包含以下类型的数据。
  1. 肽、蛋白质识别文件(SEARCH):是部分提交所必须的。这些是用于执行数据分析的软件输出的文件,每个 SEARCH 文件需要与至少一个 RAW 文件相关联。包含以下类型。
  1. 峰列表文件(PEAK):是部分提交推荐上传的,不强制。如果提供了 mzTab 或 mzIdentML,则必须提供相应的峰列表文件,对应于可用于验证相应肽段鉴定的 MS/MS 文件。
  1. mzTab 或 mzIdentML 结果文件(RESULT):是完整提交所必须的,mzTab 和 mzIdentML 是大多数分析软件工具提供的标准文件格式,mzIdentML 文件仅包含标识信息,而 mzTab 文件可以包含标识和量化结果。这些文件需要与至少一个“PEAK”(峰值列表)文件相关联。

step2 填写实验细节:

包含项目的标题、关键词、项目描述、样品准备方法、数据处理方法和质谱实验类型(注意字数限制)。

step3 添加本地文件:

包含我们之前提到过的 RAW、SEARCH 文件。RAW 文件可以自动识别出文件类型,SEARCH 文件需要我们选择一下。

step4 系统校验文件:

这一步之前要求文件里有 checksum.txt 文件,一般在下载提交工具 px-submission-tool 的文件夹里。

检验成功后如下图。

step5 添加文件关联:

此处需要添加 SEARCH 文件和 RAW 文件之间的关联,点击 Relation 后勾选添加。

step6 添加实验细节:

填入一些必要的样品和仪器信息,比如物种、组织类型、所用质谱仪型号。

如果我们的某个类型在已给的选项中没有找到,那么可以自己添加。在选项的最后一行选择“other”,之后在 Term Name 中搜索,找到后选择,点击 Use Selected Term。

step7 填写负责人信息:

包括姓名、邮箱地址、所在机构。

step8 额外的信息填写:

如果上传的数据属于某个大项目,则填写,如果没有,则跳过。

step9 核对上传的数据:

确认好了之后,勾选最下方的 license,点击提交,会自动弹出 submission.px,为所填写的上传信息,以便保存与修改。

然后等待数据上传完成,完成后得到的编号不是最终的序列号,数据经过审核后,会将最终序列号发到登录的邮箱账号中。

补充

默认情况下,数据集会在稿件被接受后或者在 PX 官网收到指示后公开。PX 官方网站一般会在文章被接受后收到期刊的接受通知,但最好我们也提醒 PX 官网。

方法 1.登录 PRIDE 网站,点击右边的发布按钮。


方法 2.如果不是数据提交者,如果文章已发布,可以进入网址进行发布 https://www.ebi.ac.uk/pride/archive/projects/PXDxxxxxx/publish


方法 3.项目公开后,项目页面将在 PRIDE 中发布,也可在 ProteomeCentral 上找到。

3结语

整个数据上传过程还是非常方便的,只要提前准备好数据以及数据描述文件,过程很快。数据提交上去之后,官方网站需要 5 个工作日以上来对数据进行审核,但实际上,两天左右就审核完毕并回复了序列号。此外,可以补充提交数据,但分两种情况,一种情况是提交 csv、纯文本文件、电子表格、脚本,另一种情况是提交 RAW 文件和 RESULT 或 SEARCH 文件,我目前还没有经验。




  老俊俊生信交流群 ,QQ,


老俊俊微信:


知识星球:



欢迎小伙伴留言评论!

今天的分享就到这里了,敬请期待下一篇!

最后欢迎大家分享转发,您的点赞是对我的鼓励肯定

如果觉得对您帮助很大,赏杯快乐水喝喝吧!



  




epistack 优雅的可视化你的基因区域

python 学习之 pandas 读取文本数据

python 学习之 pandas 的基本功能-下

ribotish 质控结果复现及重新绘制

python 学习之 pandas 的基本功能-上

ggplot 绘制 CNS 级别漂亮峰图

RNA-seq 组合拳-diff analysis-vocalno plot-basemean plot

Ribo-seq 数据质控研究-下

Ribo-seq 数据质控研究-中

Ribo-seq 数据质控研究-上

◀...

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存