查看原文
其他

除了SRA,数据上传国内的GSA也是极好的(详尽版操作指南)

运营部-SWJ 联川生物 2024-03-27



面我们发表了关于NCBI的SRA数据库的上传指南,一步一图详解最新的SRA数据上传方法(内含常见报错解决方法) | 微生物专题


但相较于SRA,GSA更加安全便捷。GSA系统遵循国际核苷酸序列数据联盟相关数据库建设标准,有效缓解了我国生命组学数据汇交、存储与共享困难的问题,为我国国家生物信息中心的建设奠定了坚实的基础。

https://ngdc.cncb.ac.cn/gsa/)。

下面我们就通过实操,介绍一下将数据上传至GSA数据库的注意事项,以飨读者。



在上传数据之前,首先要找到原始序列数据,以联川生物的数据为例,文件名称一般为Data的压缩包,里面是某项目中所有的样本的原始数据的序列文件,需要先把Data文件夹解压,每个样本有一个独立的文件夹,文件夹里面是需要上传的原始数据,文件夹里的文件不需要再解压,可以直接上传。


1. 注册 GSA 账号


首先,打开GSA注册链接

https://ngdc.cncb.ac.cn/account/register?service=https://ngdc.cncb.ac.cn/gsa/login(如果已有账号跳过该步骤)。

注意:注册完成后,GSA 会往填写的邮箱发激活邮件,注意查收并在24小时内点击邮件中的网址进行激活。



2. 打开 GSA 上传路径,新建上传目录


点击链接

https://ngdc.cncb.ac.cn/gsub/submit/gsa/list 

或点击提交上传数据;



3. 新建BioProject


点击BioProject提交入口



点击新建BioProject



4. 提交者信息填写


上述步骤为准备工作,此为上传数据第一步--提交者信息,完成后点【保存并进入下一项】 完成该步骤;

 


注意事项:标*为必填项(注册信息填写的比较详细时,此步骤系统会自动填充);


5. 数据释放设置


确认数据释放时间,并填写项目标题、项目说明ing信息,完成后点【保存并进入下一项】 完成该步骤;



 

注意事项:标*为必填项,每个条目均有注释信息,可以根据注释信息填写,无项目批准号的可以填写N/A


6. 项目类型的选择


按照您的样本类型进行勾选,完成后点【保存并进入下一项】 完成该步骤;

Tips:微生物项目数据类型一般选择Metagenome(此处的宏基因组不是特指宏基因组项目,是指宏观的,不是单独培养的),样本范围选择环境,原因是混合的物种,非单独培养;


 

7.填写出版信息


若文章已经发表,可以填写Pubmed ID或DOI号,但大部分情况下都是在文章发表前上传的原始数据,所以此步骤可以直接跳过;



8. 核对和提交


核对信息无误后点击提交,特别是释放日期等信息;



9. 新建BioSample


上面的步骤是填写BioProject信息,接下来是BioSample的填写;





10.样本信息填写


这一步与BioProject类似;




11. 基本信息填写


需要填写前面新建的BioProject编号;



Tips:点击项目编号可以自动识别已创建的BioProject编号。


12. 选择样本类型



根据实际情况选择类型,微生物项目一般选择“Metagenome/Environmental Sample”,根据实际样本选择具体条目;


13. 填写样本信息


下载模板填写完成后上传,有示例文件可以参考;



注意:“绿色标题列”为必填项,“蓝色标题列”为至少选填其中一项,“灰色标题列”为选填项,如果无法提供,可以为空。



上传后需点击校验,通过后,完成后点【保存并进入下一项】 完成该步骤;


14. 核对提交得样本信息


核对提交的信息是否有误,完成后点【保存并进入下一项】 完成该步骤;

 


重点核查内容:项目编号,发布日期及样本名称等信息。


15. 上传原始数据


选择GSA数据库上传我们的微生物数据;

 


已创建BioProject和BioSample,新建GSA即可;

 


提交者信息与上面的步骤一致,不过多赘述


16. 填写基本信息


填写标题、描述信息及BioProject,已新建BioSample;



完成后点【保存并进入下一项】 完成该步骤;


17. 填写原始数据信息


GSA批量表格由两部分组成Experiment和Run表,同样有示例文件,需要注意的是微生物项目的测序平台等信息,Experiment sheet具体信息如下:

表格中的信息根据具体项目情况填写,此为扩增子项目的参数,宏基因组的测序技术选择“WGS”,建库方式为“RANDOM”,读长为150bp;



 

注意:ID列需为类型的首字母开头,下载的模板中包含第一个ID号,下拉填充和即可。

Run sheet中需要注意的是需要填写Experiment sheet中的ID号,文件名称要与手机压缩包名称一致,需要填写md5值;



注意:上传双端文件时,需在*File name 2处填写R2端结果。

 


完成后点【保存并进入下一项】 完成该步骤;


18. 上传数据


(1)选择FTP上传

推荐使用FTP上传,传输过程中较为稳定。下载FileZilla软件(可点击百度网盘链接获取安装包,链接:

https://pan.baidu.com/s/1-G9d706FAvcdF1LLPSnObA?pwd=n0lu 

提取码:n0lu),登录名、账号和密码见上图,端口写21即可。



Tips:此处的账号、密码与登录GSA的一致。

主机填写Address,若读取目录列表失败,可以在远程站点处手动输入路径。


 

(2)使用 Aspera 命令行进行上传

需要注意的是获取 key file,放置绝对路径,以及在相应文件夹上传所有样本的原始数据,然后运行 Aspera 命令行进行数据上传;


(3)使用Aspera Connect浏览器插件上传文件

网址均含有详细说明,可根据说明操作实现数据上传;

上传完成后点击【保存并进入下一项】 完成该步骤;


19. 核对与提交


核对提交的原始数据是否正确,若有问题可以修改,若没有问题可以点击提交;

提交后可以看到项目信息及状态:




20. 关于GSA编号


根据官方声明,数据信息与文件审核归档约需要 1-2 天(数据量越大相应所需时间越长,微生物项目的数据一般不是特别大,时间上不会特别久),归档成功后注册的邮箱会收到一封通知邮件,若有问题也将在邮件中告知,请及时关注邮箱;

在归档完成前若需修改、补充或删除,可以通过查找编号进入修改页面;



若归档完成之后修改和补充,需要想GSA 官方邮箱(gsa@big.ac.cn )联系。


21.常见问题


以下是在售后过程中常见的一些问题,您在上传原始数据时若遇到报错,可以重点排查以下内容:

1.上传的两个文件中分析名称对应不上
在Excel填写时,经常使用下拉填充,就会导致两个文件中的内容不一致,除了分析名称还有其他的内容也要注意这个问题。


2.GSA_Template.cn.xlsx文件的问题
常见的是只填写了一个sheet,或者Run sheet中的ID号与Experiment sheet中的对应不上,上传时若出现某行缺元素,某些是必填之类的的提示,很有可能是少写了一个sheet;
若出现某元素找不到,大概率是ID号没对应上。


3.MD5值问题
Run sheet中MD5值与实际文件的MD5值不符,此问题多为上传完成后,通过邮件告知,会提示哪些样本的MD5值不匹配。


Tips:所有的报错均有相关提示,且有示例文件,上传过程中需仔细核对上传的表格及实际的文件名称。


我们云平台有关于MD5值的校验指南:https://www.omicstudio.cn/doc/1142如有需要可以参考。

相关阅读


一步一图详解最新的SRA数据上传方法(内含常见报错解决方法) | 微生物专题

多个组学数据筛选利器:Venn与Upset图 | 转录调控专题

基因组重测序文库建库知识汇总(内含常见问题)|实验技术专题


点击下方图片进入云平台资料汇总:

所见即所得,绘图高规格联川云平台,让科研更自由


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存