GSA，一个强烈推荐的数据存储平台 ——附详细的转录组、微生物等上传教程

Original 潇潇、十二基迪奥生物 2022-11-21

收录于合集

当我们还在为如何将测序数据上传到NCBI而发愁时，发现大佬们早已转移阵地，找到了更加简便安全的公共数据存储方式---Genome Sequence Archive（GSA）https://ngdc.cncb.ac.cn/gsa/。

GSA为中国生物信息中心（CNCB）开发的组学原始数据存储归档库。自上线以来，已接收近440TB的数据递交，是国内首个被国际期刊认可的组学数据发布平台。GSA立足于中国，极大方便了中国科学家的数据递交，同时遵循INSDC联盟数据标准，立心于服务全球，为全世界的科研领域共享贡献数据。

上传GSA数据库的几大理由：
1.符合数据战略安全要求；2.是国内首个被国际期刊认可的组学数据发布平台；3.界面可切换为中文，契合大家阅读习惯；4.人性化设置，例如公布日期可随时修改，数据未公开前可一键分享给审稿人查看，数据上传信息修改、增添方便等等；5.多途径协助数据上传（qq群全天候解答疑问，优盘寄送或工作人员上门拷贝等绿色上传通道）。

看到这不禁惊叹，GSA如此方便快捷，那我也要上传！！！基于此，小编今天给大家精心整理一套组学（微生物、转录组等）原始数据上传的操作指南，内含贴心提示，助力各位科研工作者减少报错，更快更省心的完成数据上传。

#GSA数据模式#

GSA元数据类别主要包括项目信息（BioProject，归档于生物项目数据库）、样本信息（BioSample，归档于生物样本数据库）、实验信息（Experiment）、以及测序反应（Run）信息。各类数据之间采用线性、一对多的模式进行关联，从而形成“金字塔”式的信息组织与管理模式。

图1 GSA数据模式（摘自GSA官网）

#文章使用示例#

在数据上传完成后，可在发文时提供GSA accession number（序列检索号）。如下（图2），在转录组或微生物文章的材料与方法中，指明将原始测序数据（raw sequencing data）上传到GSA中，方便后续有需要的科研工作者对数据进行查看，直接检索ID（CRA#）就能锁定目标数据。

图2 文章数据上传描述[1]

#数据上传#

重要提示：在数据上传过程中或者数据归档后，有任何问题都可以加GSA的官方qq群（548170081）进行咨询，可全程中文沟通，工作人员会及时回复（强烈推荐）；或者发送邮件（gsa@big.ac.cn）表明诉求，比qq回复慢，但依然比飘洋过海的NCBI效率高上不少。

数据上传地址：http://bigd.big.ac.cn/gsub/进入生物数据递交系统BIG Sub（图3）注册账号登录后，即可创建上传任务，总体有3个步骤（图4）。

主要包括：
①创建项目（BioProject）：研究课题的描述，同一个项目（BioProject）的数据应归档到同一个GSA数据集下；②创建样本（BioSample）：样本信息描述，如样本类型、采样信息等；③创建GSA数据集：完成GSA数据集创建，完善相应Experiment（文库构建方式、测序类型等）和Run（测序文件和对应的校验信息）信息录入，实现与BioProject、BioSample以及上传数据文件的相互关联。

图3生物数据递交界面

图4生物数据递交步骤

Tips

建议使用实验室公共邮箱或单位邮箱注册，谨防qq、网易等拒收GSA邮件，账号注册申请后需在24小时内进入邮箱验证激活，否则无法进行登录操作！

一、创建BioProject

在生物数据统一汇交入口点击BioProject，进入项目创建界面（图5）

图5 Bioproject申请入口

点击“新建BioProjec”选项，跳转到相应的项目信息填写步骤，需要完成五部分内容（图6），成功后会获得BioProject Accession（项目编号）。

图6 Bioproject项目信息填写步骤

Tips

未完成的创建任务，BioProject会保存已填写的结果，支持断点上传。下次进入，可在图5界面，点击提交编号，完成剩余部分。

1.1 填写提交者信息（图7）

此界面可自动填充注册账号的信息，一般可不作修改，点击保存进入下一步。

图7 BioProject中填写提交者个人信息

1.2 填写数据基本信息（图8）

数据释放时间和星号“*”为必填项，包括项目标题、项目说明、项目资金来源等，方便查询数据的人了解课题研究相关背景，项目说明可引用文章摘要。其它为选填项。

图8 BioProject中填写数据基本信息

Tips

关于数据释放时间，GSA和NCBI一样提供了两个选择：

（1）审核通过后即可发布；

（2）指定日期发布，可指定从创建数据集开始未来2年内的任何时间。在完成上传后，表示数据已存放至GSA平台，但别人在释放日期之前无法检索到上传的数据；完成发布，即Release，检索ID后才可查到该数据。由于大多数情况在文章未成功发表时审稿人就要求数据上传，为保证数据保密性，建议自定义发布时间，若想提前释放，可联系GSA工作人员。

1.3 填写项目类型（图9）

主要进行项目数据类型和样本范围的勾选。项目数据根据测序类型进行选择，比如转录组可选择“Transcriptome of Gene expression”，宏基因组可选“Metagenome”，扩增子可选“Raw sequence reads”等。另外样本范围可根据“？”下方的中文提示进行合理选择。

Tips

项目数据类型支持多选，若在列表中不包括的测序类型，还可以选择others并在 Project Data type description中自行添加。

图9 BioProject中项目类型填写

1.4 填写出版信息（图10）

如果文章已成功发表，填写PubMed ID或DOI号；若没有可不填，直接保存并进入下一项。

图10 BioProject中出版信息填写

1.5 概览&提交（图11）

对以上四部分所填信息再次检查，若发现某一内容填错，可直接点击该信息所属模块，页面会自动跳转相应界面，进行更正。

图11 BioProject信息核对

Tips

完成BioProject创建后，提交状态为Finish; Cofidential，系统将自动为用户分配11位的项目编号（形如PRJCA#）。在管理员审核通过之前，若发现错误，可随时修改和删除所创建的BioProject。管理员审核通过后，提交状态会变为Checked OK; Cofidential，若到达设定的发布日期后，会变成Checked OK；Public（图12）。

图12 BioProject创建状态

二、BioSample批量申请，创建样本

BioSample样本创建（图13），与BioProject一样也是分为五个部分。

图13 Biosample申请入口

2.1 再次确认提交者的基本信息，与BioProject一致，直接保存进入下一项。

2.2 填写数据基本信息（图14）

用于收集有关BioSample(s)的描述信息，包括发布日期（Release date）、提交类型（Submission type）、项目编号（Project accession）。释放日期选择和BioProjec同一释放时间即可；如果有多个样本则选择批量样本提交；填写BioProject项目编号（PRJCA#）建立关联。

图14 BioSample基本信息填写

2.3 选择样本类型（图15）

BioSample与NCBI类似也提供了不同组学的样本类型选择，比如转录组测序可能对应“Microbe”（单菌株）、 “Human”（人）、“Plant”（植物）等；对于扩增子、宏基因组等，可能对应 “Metagenome/Environmental Sample （GSC MIMS unsupported）”或者“Metagenome/Environmental Sample（GSC MIMS compliant）”。

图15 BioSample选择相关样本类型

Tips

若BioProject包含不同类型样本类型（Sample type），需要进行多次创建。

2.4 填写样本属性信息（图16、17、18）

单个样本时，样本属性支持网页端填写；样本数大于1，提供Excel模板导出本地填写。根据上一步选择的样本类型，会提供对应的样本属性表格，下载该表格后可进行批量填写（图16）。若在填写中遇到疑惑，也可下载示例帮助。

图16 批量提交模板文件下载

以“Metagenome/Environmental Sample（GSC MIMS unsupported）”类型的本地excel为例（图17），表头中绿色为必填列，蓝色为至少填其中一列，黄色有下拉区域可进行选择（必选）。一个样本对应一行，可按照表头的要求以及示例文件规范填写，如geographic_location（采样地点）必须以冒号分隔，（形如China: guangzhou）；latitude_longitude（经纬度）形如：31.12N 78.12W。

图17 填写样本属性表格

Tips

（1）除了样本名/标题，行与行之间的描述信息（其他列）不能完全一样，否则会出现样本属性不唯一性（即同一行属性能够检索到多个样本），产生报错，无法跳转下一步；

（2）属性表格中的必填项是由上一步所选样本类型决定，如果属性类别不符合样本特征，比如你本来是环境样本，遇到有宿主信息必填，说明样本类型不合适，可回到上一步样本类型重新选择。

填写完成后，上传该文档，并点击“校验”进行批量表格在线审核，文件审核成功后才可进入下一项（图18）。

图18 属性表格上传并校检

2.5 概览&提交（图19）

再次核对样本及其属性信息是否填写正确。

图19 概况信息预览

随后系统也会分配一个形如sub#的编号（图20），通常状况下，数据信息审核时间为1-2天，BioSample审核状态不影响后续填写。

图20 BioSample上传记录

三、GSA数据库上传

完成BioProject和BioSample申请后，可开始上传GSA数据库。准备好原始数据，一般以.gz或者.bz2为后缀。打开GSA数据库网站（https://bigd.big.ac.cn/gsub/submit/gsa/list），新建GSA上传任务。

3.1 填写提交者基本信息，与BioProject申请一样为自动填充信息，一般不作修改，保存并进入下一项。

3.2 填写数据基本信息（图21）

用于收集GSA数据集的描述信息，包括数据释放时间（Release date）、标题和描述信息（Description）、项目信息（BioProject accession）、样本信息（Sample information）。数据释放时间可与BioProject一致，描述信息内容必须少于500个字符，可填写文章摘要信息，详略都可，方便查询数据的人了解研究项目相关背景。

图21 填写GSA数据集的描述信息

Tips

若之前未提前创建好BioSample信息，选择“未创建GSA相关的BioSample信息”，在本次提交流程中创建BioSample(s)。若选择已经创建好GSA相关的BioSample信息，选择“已经创建GSA相关的BioSample信息”，并继续依次完成下文中“元数据信息”和“文件上传”步骤。

3.3 填写元数据信息（图22、 23、24）

下载模板文件（图22），GSA_Template.cn.xlsx（中文版），可参照GSA批量提交示例表格，填写信息并上传核验。这里需要填写两个表格：Experiment表格和Run表格。

图22 GSA元数据信息下载

填写Experiment中实验描述、测序类型等（图23），第一列ID必须是以E字母开头的，例如E1、E2、E3......；“*Biosample name”必须与申请Biosample的样本名称一致；16S等扩增子测序，“strategy”选择“AMPLICON”，“source”选择“METAGENOMIC”，“selection”选择“PCR”；若为宏基因组测序，则依次选 “WGS”、“METAGENOMIC”、“RANDOM”，其他列则根据测序平台对应选择。

图23 群落微生物Experiment表格信息示例

然后填写run中测序文件和MD5码信息录入（图24），Illumina平台测序数据格式一般都为fastq文件（fastq仅接受gzip和bzip2压缩格式）。其余与Experiment填写情况类似不再赘述。

图24 群落微生物Run表格示例

Tips

（1）一个样本的测序数据放对应的一行。如双端测序，若有两个压缩文件，置于同一行File name1和File name2中。

（2）Run表格中MD5是文件的校验码。Mac和Linux系统的用户，可在本地运行命令行md5sum"（Linux）或"md5"（Mac OX）便可生成MD5码。Windows用户必须下载第三方程序才能生产MD5码，如winmd5free等软件（图25）；也可以用QQ群（516418530）文件的“好压”压缩软件，既可以压缩也可以计算MD5码。

（3）若在填写时遇到困难，鼠标放在每一列的表头均有详细说明。在填写之前也可先阅读Please Read First！表格中信息，查看要填写的内容。

图25 WinMD5Free软件生成MD5码

提交文件并校验无误后可保存并进入下一项（图26）。

图26 批量表格在线审核

3.4 数据上传

文件上传方式有三种，即通过FTP站点上传、Aspera命令行上传（首推）以及通过网页端Aspera插件上传。

今天的数据上传内容就介绍到这里，第4步原始测序数据上传将在下一期继续分享。

下一期我们将详细介绍如何使用Aspera和FTP快速上传数据的实操步骤，以及怎样对GSA数据集进行修改、删除和追加，想要提前发布与分享GSA数据集的攻略等等。下期不见不散！

实用工具操作教程分享

前沿组学文章实时解读

实验技术分析方法探讨

独家生信视频教程推荐

基迪奥 | 专业定制测序服务

客服：020-39341079

刑讯逼供、管辖异议，唐山杨立国涉黑案争议

大瓜！找工作太难了：私募大佬白嫖95后小姐姐事件刷屏！

深度 |台积电断供大陆芯片，任正非罕见感谢特朗普，美霸权摇摇欲坠

福建一地公示！1989年出生的她，拟提任正处

马斯克：不新生毋宁死！

GSA，一个强烈推荐的数据存储平台 ——附详细的转录组、微生物等上传教程

您可能也对以下帖子感兴趣

刑讯逼供、管辖异议，唐山杨立国涉黑案争议

大瓜！找工作太难了：私募大佬白嫖95后小姐姐事件刷屏！

深度 |台积电断供大陆芯片，任正非罕见感谢特朗普，美霸权摇摇欲坠

福建一地公示！1989年出生的她，拟提任正处

马斯克：不新生毋宁死！

生成图片，分享到微信朋友圈

GSA，一个强烈推荐的数据存储平台 ——附详细的转录组、微生物等上传教程

您可能也对以下帖子感兴趣