基因产业3.0的必经之路:基因大数据+云计算
帮您先一步看见未来基因慧
关键词/ 基因云 云计算
文/基因慧
图:云计算(来源/网络)
公元874年,维京人殷格·亚纳逊一行人永久定居冰岛,1944年冰岛共和国成立。冰岛是欧洲最西部的国家,紧贴北极圈的地理位置使整个国家与外界交流非常少,历史上近亲结婚比例高。现代为了减少近亲结婚,冰岛除了研发家谱APP之外,早在1999年开始推行全国约30万人的全基因组测序,从遗传数据角度进行干预。
30万人基因测序和数据分析成就了曾经盛名的基因公司deCODE(NASDAQ:DCGN),后来后者因为经营不善,在2012年底以4.15亿美金出售给药企Amgen,其中的数据库和平台公司NextCODE Health以6500万美金被药明康德收购,与旗下基因组中心合并成明码生物科技(WuXi NextCODE),后者公布融资金额总计5.3亿美元,是冰岛国内融资金额最大的基因公司。
当然,冰岛的故事并非个例,而在人口级大规模基因组测序方面,包括加拿大、美国、法国、英国、韩国、澳大利亚等曾启动数以万计、投入超过上亿美元的人群进行基因组测序。
我国科技部等部委自2016年启动的“精准医学研究”国家重点专项,涵盖超过65万的队列研究,包括华北、京津冀等地理维度的人群队列,也包括心脑血管、代谢疾病、单癌种等疾病队列,预计2020年完成。
众所周知,基因产业成为全民健康趋势下的我国的战略性新兴产业之一,无论是《河北雄安新区规划纲要》《粤港澳大湾区发展规划纲要》《长三角一体化发展规划纲要》还是《健康中国行动(2019—2030年)》以及即将发布的《国家生物技术发展战略纲要》,都直接或间接依托基因产业为精准医疗、出生缺陷防控、肿瘤预防等全生命周期管理等提供技术平台。
而跨越了数字PCR和基因芯片的周期后,面对大规模人口级数据和未知病原等物种测序,测序技术和测序数据已成为基因产业的核心基石(当然,部分场景也需要数字PCR、基因芯片、串联质谱等具备差异化优势的平台)。
基因测序成本超摩尔定律下降,即意味着,基因产业将比半导体为引领的计算机产业更快速发展,当百万甚至未来千万级人口级别的基因数据全部测序完成,测序成本逐渐趋近于忽略不计,数据规模效应显现。
同时,我们还观察到产业链平台化,例如华大旗下华大智造和十家上游企业合作形成生态,以及服务规模化及区域中心集群化,例如各地产业园纷纷升级拓展到基因等数字生命健康新兴产业领域等。反映到数据层面,基因产业从1.0阶段的生物信息驱动的科技服务,2.0阶段的科研驱动的产业化,到3.0阶段人口级数据驱动的区域集群化。
1)高质量本地软件的需求
数据分析的价值更加凸显,需要大量的高质量本地软件,比如长读长测序数据分析、传感染病原生物信息快速分析。2)数据挖掘和机器学习的需求
对于具有区域差异性的人口级基因大数据,除了按照常规的比对、变异分析、功能注释外,对于人群基因频率,通过机器学习的无监督聚类本身会产生数据挖掘层面的更多成果发现。3)数据管理、运算本身的硬件架构需求
传统的个人计算机、一体机以及小型的服务器都无法支撑大规模数据库建设、数据传输和计算等。4)系统解决方案的需求从基因测序、精准医疗到数字生命健康的长路径信息传递。从基因数据采集、生物信息分析、数据验证、方案制定、医疗服务、支付和保险、数据库积累等众多环节,如何实现从冰冷的数据到有温度的临床、科研和民生服务,系统集成成为痛点。打磨已久的利剑出鞘,将成为克服大数据痛点的尚方宝剑——基因云。
那何为基因云呢?
首先,我们看看美国国家标准与技术研究院(NIST)对云(云计算,Cloud Computing,简称“云”)的定义。
“云是一种便捷的、按需、按量收费的网络访问模式,通过网络(无时间和空间限制),使用可配置的共享计算资源,包括网络,服务器,存储,应用软件,服务等。”
图:云计算的弹性计算模式类似自来水厂(来源/基因慧)
通俗地讲,云是一种通过网络获取和管理计算资源的模式,是对传统IT资源的结构性升级,同时赋能其他产业,是产业互联网的核心组成部分。
云落地到实际应用,除了分析模块化、流程可编辑、可视化分析外,最大的特色是弹性计算。用户按需用多少资源来计算(或存储),即按实际多少资源付费。用完归还到云端。不仅便宜,不浪费资源,而且减少额外的IT人员管理成本。
云这种弹性计算的能力和按需计费的方式,和现代居民才使用的自来水很类似,终将取代每家每户自己挖井的模式。
早在2014年,谷歌就推出Google Genomics,一年花费25美元即可存放100G基因数据在云端。随后亚马逊、微软、英特尔等IT巨头发力基因云。国内包括BAT均纷纷布局基因云。
但最受人瞩目的是类似通讯和手机领域的黑马,在“不独大”的战略和“安全”的技术规范下,华为推出的华为云占领上风。在“华为云中国行2018”中特设“云·基因”板块,包括华大基因、海普洛斯等知名基因企业代表参与。
“基因数据和医学影像一样,是生命健康领域最复杂也最庞大的数据,但相对结构化。基因测序技术的成熟带来基因数据爆发增长和应用的普及”,对于华为云相关负责人的这段描述,基因慧非常赞同。
那么具体地,云技术在基因行业中扮演什么样的角色呢?
图:云技术在基因行业中扮演的角色(来源/华为云官网)
华为云负责人告诉基因慧,在基因测序的流程中,需要庞大的算力支持。
往大了说,生命科学的研究竞赛,很多时候已经变成了一场算力的比拼,好的科研成果通常是基于庞大的计算数据。
往小了说,现在的产前检测,肿瘤检测等医疗检测也会消耗大量的算力。
但是以上这些基因测序对算力的需求都是波动的,往往Q4的消耗最大而Q1最少,同时对于不同生物的基因组,需要的算力也不同,这就会牵扯到计算集群的扩缩容,但传统的线下计算集群是做不到快速的扩缩容的,这就是使用云计算的便利性。至于具体会涉及到哪些流程,可以参考上图。
我们以一个真实故事来和读者分享基因云的逻辑。一方是国内基因科技的龙头企业华大基因,一方是知名的基因云平台之一华为云。
过去,华大基因计算资源比较紧张,在使用峰值时,任务经常需要排队等候;同时华大科技服务有很多复杂基因组,客户需要借助不同规格的计算资源,所以云计算提供的灵活性是最好的选择。
其次,线下集群架构不支持高通量的计算(多任务并行),华为云的胡博强博士利用容器技术,对客户常用的软件针对华为云进行了优化。
华为云的GCS-SGE方案目前已和华大科技一起完成超过300万核时计算,平稳运行超过100天。并带来以下改变:
2)基于业务按需使用,节约30%成本;
3)提供生物信息流设计器、图形界面、兼容SGE命令行三种灵活的操作方式;
4)对于特定的客户,提供私有云版本,线下实现全部线上功能。
除了以上几点特色外,当我们采访华大基因负责人为何选择华为云时,他补充了几点华为云的价值:
■ 大数据
通过计算存储分离、内存及分布式缓存、 智能调度,大数据性能提升40%,成本降低50%。
■ 人工智能
通过作业群组管理、拓扑感知的亲和性调度,GPU线性加速比提升35%,降低人工智能 50%训练时间。
■ 鲲鹏算力
整型计算+多核契合测序分析,Minimap2 软件在鲲鹏920下性价比领先同代X86 20%。
图:一站式帮助基因企业拓展高附加值业务(来源/华为云官网)
从测序数据收集、数据分析、数据交付以及报告解读四个层面,华为云的一站式平台帮助基因企业拓展高附加值业务。
在数据收集层面,提供多通道完成本地-云和云-云间的数据交互。包括S提供标准、低频和归档三种类型的OBS,同时提供OBS-Browser、obsutil和SDK等多种配套工具,适配Windows/Linux操作系统。
在测序分析层面,公有云HPC可无缝移植本地IDC架构,全国独家提供96核2T裸金属服务器,同时通过SFS支持一键挂载、OBS提供POSIX接口等简化存储流程。更重要的是,GCS(基因容器服务)提供一键式生信分析平台,简单易用。
在数据交付层面, OBS提供快速交付通道。
人人基因组的时代即将到来,通过高通量测序技术的发展,基因数据的生产成本将快速降低,而基于类似华为云的云平台进行的数据分析和数据挖掘,将使得大规模冰冷的数据发挥温热的价值,普惠民生,服务医疗健康、数字农业和智慧工业。
未来,基因大数据将成为基因企业的核心资产。在数据确权下,借助基因云平台实现从数据到价值的转化,同时降低目前行业“老大难”问题——运营成本,将BT和IT融合,实现数据管理结构性升级,在行业洗牌周期中快速上岸,活得更久。
安全、赋能、高效,期待未来更多类似华为云的平台型企业,和基因企业站在一起,用基因科技服务大众,用数字化技术让数据发光发热。
关于华为云
华为云是华为的云服务品牌,用在线的方式将华为30多年在ICT基础设施领域的技术积累和产品解决方案开放给客户,致力于提供稳定可靠、安全可信、可持续创新的云服务,做智能世界的“黑土地”,推进实现“用得起、用得好、用得放心”的普惠AI。华为云作为底座,为华为全栈全场景AI战略提供强大的算力平台和更易用的开发平台。
(封面图来源/网络)
声明:以上文章,仅代表个人观点,仅供研究参考,不作为投融资及医疗等决策依据;知识版权属于基因慧,公众号以及机构转载请征得基因慧书面同意后,在正文前注明首发出处及作者姓名。
拓展阅读
▼ 《2020基因行业报告》纸质版即将发售
基因慧研究院诚意出品
详情请关注“基因慧”微信公众号
▼ 往年基因慧年度重磅报告一览
图:基因慧研究院出品系列行业报告,依次为:《2019年基因行业报告》、《2018-2019年中基因行业报告》、《2018年基因行业创投报告》
▼ 点击“阅读原文”,进入华为云官网。