【金猿案例展】某国家级研究所——组学大数据分析平台建设
荣联科技集团案例
大数据产业创新服务媒体
——聚焦数据 · 改变商业
大数据时代下,科学大数据已经成为科技创新和社会经济发展的新动力。生物信息学经过近30年的发展,从最初的基因组数据的收集和存储,到利用数学建模和人工智能思想,挖掘数据背后的生物学意义、对样本数据进行合理分类、建立合理的二级和三级数据库,再到利用比较基因组学的方法,通过短读序列拼接、基因预测和功能注释,已有一定的能力用于处理庞大复杂的基因组数据。2019年,科技部、财政部对原有国家平台开展优化调整工作,通过部门推荐和专家咨询,经研究共形成20个国家科学数据中心,其中包括国家基因组科学数据中心、国家微生物科学数据中心、国家人口健康科学数据中心等。我国是生物数据生产大国,生命大数据是人口健康和国家安全的重要战略资源。然而我国生物数据面临因存储零散,缺乏系统监管而丢失和流失的问题,亟需建设我国自己的生命大数据保存和管理体系。
现阶段,科研院所、企业已经意识到数据的重要性,在不断地投入基础建设、硬件资源保存和管理数据,并逐步向应用层拓展,充分挖掘大数据的价值。某研究所为了应对庞大的数据量购置了众多的计算和存储资源,然而却没有专业的IT人员进行统一的管理和优化使用,另外,生物信息分析应用流程没有标准化管理,命令行调用的生物信息分析流程不能满足所有人的使用,需要将流程进行可视化封装。随着新购置高通量测序仪的投入使用,现阶段计算存储资源也已经不能满足需求,需要进一步扩容。
实施时间:
基于上述案例背景,某研究所采购组学大数据分析平台,与荣联达成合作,项目实施重要节点如下:
2020年5月,组学大数据分析平台平台采购项目竞争性磋商;
2020年5月,组学大数据分析平台平台采购项目投标;
2020年6月,中标成功,双方签订合同;
2020年6月,荣联备货、发货;
2020年7月,到货,荣联技术人员到场实施;
2020年7月,与原有计算存储资源进行统一协调;
2020年8月,生物信息分析流程进行迁移、定制化开发、标准化、可视化封装;
2020年8月,平台进行测试,联调以及试运行;
2020年9月,平台验收成功。
组学大数据分析平台是专注于二代、三代基因测序数据以及组学数据的存储、计算、管理和行业应用的一站式系统。系统包括Helicube计算调度引擎、生物信息学分析工具和流程、本地化各类数据库、Database.bio基因组浏览器以及可视化生物信息分析平台。应用范围涵盖精准医学、动植物、微生物、检验检疫、农业等各领域组学分析。适用于以高通量测序技术作为主要研究手段的企业、医院、科研院所机构。支持用户本地化部署和荣联生物云云端部署两种方式。
此次协助某研究所搭建的组学大数据分析平台主要应用于多组学的大数据分析挖掘平台,集成生物信息学分析平台(全基因组测序、全外显子测序、转录组测序、16s扩增子测序分析、宏基因组测序数据分析等),跨组学数据集成分析等技术平台,同时具有规模化、高通量、大数据研究及技术整合的特点。
此平台充分使用生物信息学分析方法,以基因测序和云计算平台为技术手段来分析生命遗传、变异等特性的研究平台,是针对高通量测序下机数据的存储、计算、管理、应用分析整体化的解决方案,平台包含多种组学数据分析流程、工具、数据库资源,可视化的操作界面,更加便于用户的使用。平台不仅包含全面的组学分析流程,同时要求具备较强的数据计算、管理能力以及极强的并发处理能力,可以弹性对接云计算资源。支持可视化分析,也可支持命令行分析,可以为众多科研任务同时提供分布式的计算、存储、数据管理以及可视化分析服务。
研究取得突破和发展是依靠对科技资源和数据的全面掌握与深入挖掘分析,如何快速、准确地处理庞大的数据,是目前面临的挑战。为此,某研究所多次进行平台建设以满足数据的增长需求,随之而来的是众多的计算和存储资源无法进行统一的管理,也没有实现资源最优的配置使用。数据的持续增长,平台需要进一步扩容,使得前期的各种问题暴露,因此研究所希望能对以往计算存储资源进行评估、扩容,最终进行统一管理,不仅如此,生物信息分析流程也需要标准化、可视化封装,方便科研人员的快捷使用。为了挖掘数据价值,平台设计管理访问权限,最终实现数据共享,分级管理。
面临的挑战总结如下:
1.多套存储环境和应用平台需要统一管理;
2.生物信息流程是命令行访问,需要一定的专业基础,不方便非生物信息专业的科研人员使用,需要进行标准化、可视化封装;
3.新购置高通量测序仪投入使用,包括二代测序仪和三代测序仪,目前存储单元不能满足新上测序仪的分析需求;
4.长远考虑,随着业务量的增长,平台需要可在线快速扩容;
5.需要对原有计算、存储资源充分利旧。
针对某研究所需求,配备专业的IT技术人员和生物信息技术人员一同评估,设计合理的存储、计算资源方案和生物信息分析流程的个性化开发部署。
存储资源:评估某研究所测序仪满负荷运行时一年产生的下机数据量,大约PB级;初步先按照30%负载进行存储设计规划存储空间。存储空间具备横向、纵向扩展性。原有的存储资源,可用作备份存储。分布式存储可以满足计算存储的需求,双控制器横向及纵向扩展模式,包括控制单元和存储单元。
计算平台:MGISEQ200以及MGISEQ2000等测序仪下机数据格式为fq,在云平台上进行数据质量控制以及后续的二次分析。需要新增计算资源纳入云平台,用于下机数据的生物信息学分析,统一使用云平台进行调度、管理。而原有的计算资源也要逐步迁移应用,纳入云平台。进行统一管理。原有的服务器在增加配件后也可纳入云平台。
SaaS云平台:需要丰富的生物信息分析工具和流程,可一键操作。支持多场景多元化数据分析,为生物数据挖掘赋能。
基于某研究所现存设备状况及需求,设计整体的平台数据架构。从基础建设到应用层流程部署。
平台数据中心架构:
一站式数据管理、生物信息分析、数据发布可视化云平台:
根据某研究所数据量部署分布式存储系统、分布式计算系统以及数据管理系统。
分布式存储系统:
随着分析算法和工具的不断丰富,不同分析阶段访问数据的模式也越来越多样化,对于存储的带宽、IOPS和延迟等性能指标都有不同的需求,所以无法通过单一的存储系统来解决生物信息分析所面对的所有问题。正确的做法是在理解生物信息分析应用的基础上,做极致的性能优化,集合多套存储系统,把他们有效的整合在一起,达到物尽其用的效果。通过与数据管理与计算系统的结合,使得数据不再僵化的存储在一个统一的大池子里面,而是能够智能的流动起来。为某研究所部署分布式存储系统。
分布式计算系统:
随着数据规模的不断膨胀,运算的规模和复杂度也会不断的增加,这就产生了很多问题:首先是规模问题,因为数据量大了,必然会遇到规模的瓶颈,突破规模瓶颈是“算”遇到的第一个问题;接下来需要对应用的感知,因为生物信息分析所用到的流程和程序越来越多样化,数据类型也越来越复杂,很难用传统的计算调度方式来满足。比如有些分析是浮点密集型的,而有些是多核并发的,对于前者需要用到高主频的CPU,而对于后者则应采用众核的系统。同样,不同的存储系统的特性也是不一样的,不可能用一套存储来满足各种类型数据的存储需要。所以对于算来说要能够驱动应用感知,随着计算的推演能够选择合适的计算和存储资源。
数据管理MetaHunter:
实际上存储系统只是解决了数据空间的问题,除此之外,还需要对数据进行管理。数据管理的对象是数据的描述信息,即元数据,以及用户定义的生物信息相关数据,如:物种信息,项目信息,SNP 变异注视等等。需要具备的能力是对预定义的和实时根据策略提取的元数据通过建立的各种高级索引组织在一起,形成结构化/半结构化的数据,以供快速的根据特征发现数据、动态组织数据集、多维度的对数据进行排序、挖掘,根据结果数据溯源分析流程及流程每一阶段的工具版本。
元数据管理 —— 真正大数据感知,构建数据处理与业务创新的桥梁:
• 秒级数据发现:不再依赖数据存储路径,通过数据特征(标签)快速准确找到数据。
• 多维度数据观察: 根据任意(工业或行业)属性发现数据,使空间分配和调配更合理。
• 动态构建数据层次视图:根据用户需求可以瞬间生成全新的数据层级组织关系。
SaaS云平台——可视化生物信息分析平台:
为了更好的帮助客户搭建流程,荣联派出生物信息技术人员到某研究所驻场工作,完成生物信息分析流程的开发、迁移、优化,整合大量生物信息学流程和软件。所有生物信息学流程部署在云平台上并进行可视化封装,分析流程采用拖拽式即可完成部署,简便易操作。助力某研究所高效获取、挖掘和转化生命科学领域数据价值。
云平台简单易用,可以按需部署常用工具集和分析流程,也支持用户自己对分析流程编辑,零代码基础要求,拖拽式操作。作业状态提醒支持系统消息和邮件提醒。
平台中以项目为管理单元,项目可分享协作。项目创建者可以加入项目成员并可控制权限。
同一个项目内可以共享文件、流程和分析结果,实现多人团队协作。方便团队间多级权限管理,使项目分配更加合理。
平台在使用过程中计算资源支持弹性拓展,分析过程中需求用到多少资源,平台能快速调配计算资源,并采用最优配置。
多层次安全防护,数据信息全面安全保障:
• 数据加密传输,采用业界通用标准的安全传输协议;
• 云端加密存储,AES-256加密算法;
• 严格的用户权限控制、多租户数据严格隔离,完善的审计日志;
• 符合HIPAA法案等多种监管条例;
• 为保障数据的完整性,对数据进行多重备份。
项目实施完毕后,可视化生物信息云平台能够充分利用计算和存储资源;内嵌的计算分析软件无需担忧兼容性和版本冲突;摆脱繁琐的命令行管理方式,通过全中文图形化界面,让生物数据的研究变得更加简单、高效;此外,当可视化生物信息云平台在研究所本地的计算资源不足时,可以弹性在荣联IDC的可视化云平台上完成生物信息学的分析。
商业价值:
1.使用云计算、大数据、高性能计算、人工智能、区块链、5G、安全防护等技术,在算法、算力上实现突破,确保数据安全可靠的同时推动生物数据的深入挖掘和数据共享;
2.在一套硬件资源基础上即可动态构建云计算、大数据、人工智能、高性能计算等计算平台,实现多种计算框架的融合、资源的统一管理和调度;
3.生物数据的敏感性、多样性、应用的复杂性,可以通过IT平台实现标准化数据安全及分级体系,自动实现数据分析的可视化、以及数据管理的标准化;
客户价值:
1.从传统分析平台迁移到荣联分析平台上以后,客户的CPU资源扩充了2倍,但是数据分析交付能力达到了以往的6倍;
2.客户的集群系统日常CPU利用率接近100%; 所有磁盘的使用率也超过了95%,将硬件的性能极限完全发挥了出来,基本上打满物理网络带宽和磁盘带宽;
3.在分布式计算引擎的协助下,客户一个作业的特殊阶段轻松的被分解为4000路并行,每天有超过20000+ 任务运行在高度并行的计算集群里;
4.利用强大的分布式执行引擎和流程编排引擎, 2个生物信息分析工程师在1个月内,用200个工具开发了100+复杂的分析流程。
关于案例提交企业·荣联科技集团:
荣联科技集团股份有限公司(简称荣联科技集团),是专业的数字化服务提供商,中国企业数字化服务的领导者。公司具有二十多年行业信息化建设的丰富经验,以云服务、数据服务、自有产品和服务、数据中心建设四大板块业务为主体,积极布局物联网、大数据、5G+边缘计算、人工智能等技术领域,为客户提供IT+DT+OT全生命周期的数字化建设、生产、运营及服务。荣联科技集团于2001年正式成立,2011年在深圳证券交易所挂牌上市,股票代码002642.sz。
荣联科技集团生命科学事业部深耕生命科学领域,尤其生物信息和精准医疗十五年,为基因数据研究、临床应用研发了拥有自主知识产权的智能数据操作系统(分布式存储系统、数据管理系统、计算系统),快速变异检测等生物信息分析工具、流程和数据库等,核心产品包括:NGS基因数据分析一体化解决方案、临床辅助决策支持系统、组学大数据平台、数据中心建设和SaaS云服务,实现生物医疗与信息技术的深度融合和创新应用。
—— / END / ——
以下内容更精彩︾2020年度产业图谱: ●2020中国数据智能产业图谱1.0版 ●从产业图谱看中国2020年数据智能行业的发展态势2020数据猿《#榜样的力量#寻找新冠战“疫”,中国数据智能产业先锋力量》大型公益主题策划活动:
●《看过大佬们发的朋友圈之后,我相信:明天会更好,明年定会春暖花开》条漫
2019数据猿年度金猿榜: