40+Pbase生物大数据,为你所用!(Part1入门篇)
不
负
青
春
献给正在奋斗的你
实验停止、分析数据不够、工作量不达标、计划节奏的乱套,让本就焦虑的研究生涯更添一层风霜。
疫情当下,可能在很长的一段时间都要维持现状,无论是自媒体人还是各行专家、公知大V,都在预判疫情影响下的世界之变化,大到经济体制全球格局,小到个人生活与需求管理。毫无例外,这场疫情,也会影响着科研的发展方向及研究策略。
科研,该何去何从?
随着测序技术的不断升级,测序成本直线下降,测序通量越来越高,高通量测序技术已广泛应用在科研、医疗、健康等各个研究领域。测序技术在生物学研究中的发展,从最早的Genome Center唱独角戏,再到基因科技服务公司的崛起,“pipeline”标准流程创建并广泛应用。但是,近年来,随着研究学者对数据理解的深入,思路大大开拓,加上大数据的积累,各种个性化的数据分析想法大量涌入脑海,开始形成更多独具特色的“personalized”模式。孤立的单个项目的数据分析形式越来越不能满足科研的需要,基因大数据的价值已经在很多方面超越了自己新测序项目的产出。
图1 测序技术的发展历程及趋势
随着基因大数据爆发式增长,收录测序数据的公共数据库规模开始呈现出指数级增长。以NCBI上的高通量测序数据库 SRA 数据库为例,截至目前,该数据库已收录超过 41 Pbase 的测序数据,其中包括263,804项研究的7,044,129个样本数据。虽然公共数据资源如此丰富,但目前国内研究者并不能高效的对这些公共数据进行有效整合利用。早在2016年,Nature reviews genetics便报道称,目前已发表的高通量测序数据利用率不足20%,很多有价值的信息被研究者所忽略。
A. SRA数据库数据量指数级增长
B. 热门研究物种数据量占比
C. 不同物种研究热度及项目情况统计
图2 SRA数据库基本统计信息
因此,基于公共数据,从数据中挖掘信息、分析利用,转变为应用价值,将大量的基因样本测序后的“数据大” , 变成真正的“大数据”,将成为科学研究发展的一个新趋势。
在数据利用方面,最有代表性的是人类癌症基因信息的数据库(Cancer Genome Atlas/TCGA),见图3。围绕TCGA已经有很多重量级文章出现,PubMed收录的利用其进行数据挖掘发表的文章已经超过8000篇。可以说,已经公开的高通量测序数据如同“金矿”一般,具有极高的学术价值。然而,大量的基因数据依然沉睡在那里,一方面由于研究学者不方便获取符合自己需求的数据,数据的整合、分类、下载耗费较多的精力;另一方面,缺少一个高效、易用的大数据分析平台,自主搭建投入的人力、财力及硬软件设施都是巨大的挑战。
图3 TCGA数据库收录数据情况
2016年,百迈客团队开始搭建BMKCloud共享数据库,数年打磨,其目的是让科研学者能更高效、更快速的利用公共数据,提高公共数据的利用效率。让大数据的挖掘不仅仅局限于癌症的研究,而能够在动物、植物、微生物等研究中都得到很好的利用。BMKCloud与NCBI的SRA、GEO等高通量测序数据库接轨,实时更新,为开展各个领域的研究提供准确、全面、最新的测序原始数据和相应文献的整合检索平台,并与各项可视化分析流程无缝对接。科研工作者可以根据物种、类型、研究性状、研究结果、测序方法等设置快速检索感兴趣的数据,所有数据均可一键导入平台中“我的数据”中保存,然后利用百迈客云提供的30+大数据分析平台和100+多款工具软件进行数据的可视化深度挖掘,高效、快速的挖掘基因大数据。
图4. 公共数据分析传统方案 vs BMKCloud解决方案
说到这里,想必大家都很好奇,如何利用公共数据进行挖掘,在下期稿件中,我们将围绕基于“公共数据+”的研究思路具体展开讨论,敬请期待~
如果您有何疑虑或建议,欢迎留言区留言,积极讨论哦~
文末小福利
BMKCloud 目前已上线200+项免费课程,涵盖重测序、转录组学、蛋白代谢、微生物等多个方向的技术介绍、报告解读、热点追踪和编程实操等模块,满足不同科研需求,并持续更新ing。
只需注册云平台(http://www.biocloud.net/),在“课堂”栏目即可观看,赶快行动吧!
文:梁若冰
排版:市场部