当我们还在为如何将测序数据上传到NCBI而发愁时,发现大佬们早已转移阵地,找到了更加简便安全的公共数据存储方式---Genome Sequence Archive(GSA)https://ngdc.cncb.ac.cn/gsa/。GSA为中国生物信息中心(CNCB)开发的组学原始数据存储归档库。自上线以来,已接收近440TB的数据递交,是国内首个被国际期刊认可的组学数据发布平台。GSA立足于中国,极大方便了中国科学家的数据递交,同时遵循INSDC联盟数据标准,立心于服务全球,为全世界的科研领域共享贡献数据。上传GSA数据库的几大理由:
1.符合数据战略安全要求;2.是国内首个被国际期刊认可的组学数据发布平台;3.界面可切换为中文,契合大家阅读习惯;4.人性化设置,例如公布日期可随时修改,数据未公开前可一键分享给审稿人查看,数据上传信息修改、增添方便等等;5.多途径协助数据上传(qq群全天候解答疑问,优盘寄送或工作人员上门拷贝等绿色上传通道)。看到这不禁惊叹,GSA如此方便快捷,那我也要上传!!!基于此,小编今天给大家精心整理一套组学(微生物、转录组等)原始数据上传的操作指南,内含贴心提示,助力各位科研工作者减少报错,更快更省心的完成数据上传。GSA元数据类别主要包括项目信息(BioProject,归档于生物项目数据库)、样本信息(BioSample,归档于生物样本数据库)、实验信息(Experiment)、以及测序反应(Run)信息。各类数据之间采用线性、一对多的模式进行关联,从而形成“金字塔”式的信息组织与管理模式。在数据上传完成后,可在发文时提供GSA accession number(序列检索号)。如下(图2),在转录组或微生物文章的材料与方法中,指明将原始测序数据(raw sequencing data)上传到GSA中,方便后续有需要的科研工作者对数据进行查看,直接检索ID(CRA#)就能锁定目标数据。重要提示:在数据上传过程中或者数据归档后,有任何问题都可以加GSA的官方qq群(548170081)进行咨询,可全程中文沟通,工作人员会及时回复(强烈推荐);或者发送邮件(gsa@big.ac.cn)表明诉求,比qq回复慢,但依然比飘洋过海的NCBI效率高上不少。数据上传地址:http://bigd.big.ac.cn/gsub/进入生物数据递交系统BIG Sub(图3)注册账号登录后,即可创建上传任务,总体有3个步骤(图4)。主要包括:
①创建项目(BioProject):研究课题的描述,同一个项目(BioProject)的数据应归档到同一个GSA数据集下;②创建样本(BioSample):样本信息描述,如样本类型、采样信息等;③创建GSA数据集:完成GSA数据集创建,完善相应Experiment(文库构建方式、测序类型等)和Run(测序文件和对应的校验信息)信息录入,实现与BioProject、BioSample以及上传数据文件的相互关联。
Tips建议使用实验室公共邮箱或单位邮箱注册,谨防qq、网易等拒收GSA邮件,账号注册申请后需在24小时内进入邮箱验证激活,否则无法进行登录操作!
在生物数据统一汇交入口点击BioProject,进入项目创建界面(图5)点击“新建BioProjec”选项,跳转到相应的项目信息填写步骤,需要完成五部分内容(图6),成功后会获得BioProject Accession(项目编号)。未完成的创建任务,BioProject会保存已填写的结果,支持断点上传。下次进入,可在图5界面,点击提交编号,完成剩余部分。
此界面可自动填充注册账号的信息,一般可不作修改,点击保存进入下一步。数据释放时间和星号“*”为必填项,包括项目标题、项目说明、项目资金来源等,方便查询数据的人了解课题研究相关背景,项目说明可引用文章摘要。其它为选填项。关于数据释放时间,GSA和NCBI一样提供了两个选择:
(2) 指定日期发布,可指定从创建数据集开始未来2年内的任何时间。在完成上传后,表示数据已存放至GSA平台,但别人在释放日期之前无法检索到上传的数据;完成发布,即Release,检索ID后才可查到该数据。由于大多数情况在文章未成功发表时审稿人就要求数据上传,为保证数据保密性,建议自定义发布时间,若想提前释放,可联系GSA工作人员。主要进行项目数据类型和样本范围的勾选。项目数据根据测序类型进行选择,比如转录组可选择“Transcriptome of Gene expression”,宏基因组可选“Metagenome”,扩增子可选“Raw sequence reads”等。另外样本范围可根据“?”下方的中文提示进行合理选择。项目数据类型支持多选,若在列表中不包括的测序类型,还可以选择others并在 Project Data type description中自行添加。
如果文章已成功发表,填写PubMed ID或DOI号;若没有可不填,直接保存并进入下一项。对以上四部分所填信息再次检查,若发现某一内容填错,可直接点击该信息所属模块,页面会自动跳转相应界面,进行更正。完成BioProject创建后,提交状态为Finish; Cofidential,系统将自动为用户分配11位的项目编号(形如PRJCA#)。在管理员审核通过之前,若发现错误,可随时修改和删除所创建的BioProject。管理员审核通过后,提交状态会变为Checked OK; Cofidential,若到达设定的发布日期后,会变成Checked OK;Public(图12)。
BioSample样本创建(图13),与BioProject一样也是分为五个部分。2.1 再次确认提交者的基本信息,与BioProject一致,直接保存进入下一项。用于收集有关BioSample(s)的描述信息,包括发布日期(Release date)、提交类型(Submission type)、项目编号(Project accession)。释放日期选择和BioProjec同一释放时间即可;如果有多个样本则选择批量样本提交;填写BioProject项目编号(PRJCA#)建立关联。BioSample与NCBI类似也提供了不同组学的样本类型选择,比如转录组测序可能对应“Microbe”(单菌株)、 “Human”(人)、“Plant”(植物)等;对于扩增子、宏基因组等,可能对应 “Metagenome/Environmental Sample (GSC MIMS unsupported)”或者“Metagenome/Environmental Sample(GSC MIMS compliant)”。若BioProject包含不同类型样本类型(Sample type),需要进行多次创建。
单个样本时,样本属性支持网页端填写;样本数大于1,提供Excel模板导出本地填写。根据上一步选择的样本类型,会提供对应的样本属性表格,下载该表格后可进行批量填写(图16)。若在填写中遇到疑惑,也可下载示例帮助。以“Metagenome/Environmental Sample(GSC MIMS unsupported)”类型的本地excel为例(图17),表头中绿色为必填列,蓝色为至少填其中一列,黄色有下拉区域可进行选择(必选)。一个样本对应一行,可按照表头的要求以及示例文件规范填写,如geographic_location(采样地点)必须以冒号分隔,(形如China: guangzhou);latitude_longitude(经纬度)形如:31.12N 78.12W。 (1)除了样本名/标题,行与行之间的描述信息(其他列)不能完全一样,否则会出现样本属性不唯一性(即同一行属性能够检索到多个样本),产生报错,无法跳转下一步;
(2)属性表格中的必填项是由上一步所选样本类型决定,如果属性类别不符合样本特征,比如你本来是环境样本,遇到有宿主信息必填,说明样本类型不合适,可回到上一步样本类型重新选择。填写完成后,上传该文档,并点击“校验”进行批量表格在线审核,文件审核成功后才可进入下一项(图18)。随后系统也会分配一个形如sub#的编号(图20),通常状况下,数据信息审核时间为1-2天,BioSample审核状态不影响后续填写。完成BioProject和BioSample申请后,可开始上传GSA数据库。准备好原始数据,一般以.gz或者.bz2为后缀。打开GSA数据库网站(https://bigd.big.ac.cn/gsub/submit/gsa/list),新建GSA上传任务。3.1 填写提交者基本信息,与BioProject申请一样为自动填充信息,一般不作修改,保存并进入下一项。用于收集GSA数据集的描述信息,包括数据释放时间(Release date)、标题和描述信息(Description)、项目信息(BioProject accession)、样本信息(Sample information)。数据释放时间可与BioProject一致,描述信息内容必须少于500个字符,可填写文章摘要信息,详略都可,方便查询数据的人了解研究项目相关背景。若之前未提前创建好BioSample信息,选择“未创建GSA相关的BioSample信息”,在本次提交流程中创建BioSample(s)。若选择已经创建好GSA相关的BioSample信息,选择“已经创建GSA相关的BioSample信息”,并继续依次完成下文中“元数据信息”和“文件上传”步骤。
下载模板文件(图22),GSA_Template.cn.xlsx(中文版),可参照GSA批量提交示例表格,填写信息并上传核验。这里需要填写两个表格:Experiment表格和Run表格。填写Experiment中实验描述、测序类型等(图23),第一列ID必须是以E字母开头的,例如E1、E2、E3......;“*Biosample name”必须与申请Biosample的样本名称一致;16S等扩增子测序,“strategy”选择“AMPLICON”,“source”选择“METAGENOMIC”,“selection”选择“PCR”;若为宏基因组测序,则依次选 “WGS”、“METAGENOMIC”、“RANDOM”,其他列则根据测序平台对应选择。图23 群落微生物Experiment表格信息示例然后填写run中测序文件和MD5码信息录入(图24),Illumina平台测序数据格式一般都为fastq文件(fastq仅接受gzip和bzip2压缩格式)。其余与Experiment填写情况类似不再赘述。 (1)一个样本的测序数据放对应的一行。如双端测序,若有两个压缩文件,置于同一行File name1和File name2中。
(2)Run表格中MD5是文件的校验码。Mac和Linux系统的用户,可在本地运行命令行md5sum"(Linux)或"md5"(Mac OX)便可生成MD5码。Windows用户必须下载第三方程序才能生产MD5码,如winmd5free等软件(图25);也可以用QQ群(516418530)文件的“好压”压缩软件,既可以压缩也可以计算MD5码。 (3)若在填写时遇到困难,鼠标放在每一列的表头均有详细说明。在填写之前也可先阅读Please Read First!表格中信息,查看要填写的内容。提交文件并校验无误后可保存并进入下一项(图26)。文件上传方式有三种,即通过FTP站点上传、Aspera命令行上传(首推)以及通过网页端Aspera插件上传。今天的数据上传内容就介绍到这里,第4步原始测序数据上传将在下一期继续分享。下一期我们将详细介绍如何使用Aspera和FTP快速上传数据的实操步骤,以及怎样对GSA数据集进行修改、删除和追加,想要提前发布与分享GSA数据集的攻略等等。下期不见不散!
实用工具操作教程分享
前沿组学文章实时解读
实验技术分析方法探讨
独家生信视频教程推荐
基迪奥 | 专业定制测序服务
客服:020-39341079