数据要牢牢掌握在自己手里!中国的“NCBI”介绍与数据上传
当前国际形势云诡波谲,俄乌冲突还在继续。当柴可夫斯基的《天鹅湖》被禁演,甚至连俄罗斯的狗都被制裁了的时候,我们必须认识到,正像100多年前俄国诺贝尔生理学或医学奖获得者巴甫洛夫所言,也许科学和艺术是没国界的,但是科学家和艺术家是有国界的!当然,生物信息学相关的研究者也不能例外。
为了加强数据规范保护和促进人类遗传资源合法利用,《中华人民共和国人类遗传资源管理条例》自2019年7月1日起施行,紧接着,《中华人民共和国数据安全法》也于2021年9月1日起正式施行。对于生物信息学相关的研究者来说,需要认识到生物数据安全的重要性,特别是将人类遗传资源信息对外提供或者开放使用的时候。
之前,大家发文章上传数据时可能主要考虑INSDC(International Nucleotide Sequence Database Collaboration)中的NCBI,但现在我推荐优先上传我们国家自己的“NCBI”——国家生物信息中心(China National Center for Bioinformation,简称CNCB)。
国家生物信息中心主页:
https://www.cncb.ac.cn/
而国家基因组科学数据中心(National Genomics Data Center,NGDC),作为国家生物信息中心(CNCB)的核心部分,是CNCB上传下载数据以及浏览各类信息库的主要入口。注意,点击数据资源版块跳转后的页面默认是英文,当然大家也可以改为中文,如下图。既然CNCB的目标是成为国际领先的基因组科学数据中心,这也可以理解。
类似于NCBI的SRA(Sequence Read Archive),我们上传组学原始数据的库是GSA(Genome Sequence Archive)。通过GSA我们可以提交和下载原始数据、浏览已公开的GSA信息、查看说明文档等。除了方便沟通,由于数据存放在国内,上传数据时网速自是不用担心,实在不行甚至可考虑直接把硬盘寄送过去。
近5年,GSA的数据量增长非常迅猛,截至2022年3月,存储的数据量已达到12.5PB。而且GSA是获得国际期刊认可的,Nature、Science、Cell等国际顶刊都不在话下,大家可以放心上传。
需要注意的是,如果是人类遗传资源材料(指含有人体基因组、基因等遗传物质的器官、组织、细胞等)产生的数据提交到GSA-Human数据库时要遵循《中华人民共和国人类遗传资源管理条例 》的规定。
在上传数据前我们需要先注册一个NGDC账号,注意确保邮箱能收到邮件,便于激活账号。
GSA的数据标准和数据结构与INSDC一致,大家可通过统一的汇交入口(BIG Submission, BIG Sub)上传数据。
点击Genome Sequence Archive进入BIG Sub页面,只需点击新建GSA按钮即可进行数据提交,当然在创建GSA数据集前需要点击BioProject和BioProject提交入口完成相关信息填写。
例如,进入BioProject新建页面之后,点击新建BioProject按钮即可创建相应的项目信息。接着需要填写提交者信息、基本信息、项目类型、出版信息等,总共五个步骤。
当然,在填写项目信息之前,建议返回BioProject新建页面,点击BioProject使用说明下载BioProject说明文档(PDF)。具体的生物项目数据库(BioProject)说明文档如下。
BioSample信息的填写也是一样的,之后,就可以继续创建GSA了。当然,除了BioProject说明文档,相应的也可以下载BioSample、GSA的使用指南。我这里推荐大家在国家基因组科学数据中心页面点击重点专项科学数据汇交选项,直接观看相关的数据库培训视频,如下图,相信这样会对GSA有更深的了解。
更详细的数据上传案例教程可扫码观看之前的微信推文:《GSA,一个强烈推荐的数据存储平台 附转录组 微生物上传教程》,本次的分享就先到这里!
联系方式:020-39341079;service@genedenovo.com