查看原文
其他

林河山:阿里云基因计算实践之路 | 大咖论健第48期

2017-07-27 基因慧 基因慧Pro


关键词阿里云   基因云计算

MaxCompute 产品   飞天操作系统

共计2473字,建议用时5分


【大咖论健】云计算作为一种通过网络获取计算资源的模式,给供给侧和用户端都极大提高了资源利用率和用户体验。据基因慧统计,继亚马逊、谷歌、IBM等云计算服务商进军基因行业(生物云),全球共计近50家从IaaS到PaaS端生物云服务企业,国内逾10家。在基因数据超过EB级产生后,数据存储管理和信息挖掘成为瓶颈,因此,基因慧相继对国内主要生物云服务商进行专访,促进BT和IT的连接,共享共建。感谢GCTA大会对本次专访的支持。



往期专访


明码生物CTO-孙洪业 |  荣之联董事长-王东辉   | 华大基因-金鑫  |  京东云-王直

华大基因、明码生物、聚道首次同台谈生物云


本期内容




Part 1. 

基因慧

您在GCTA大会的演讲《为了无法计算的价值——基因云计算的实践之路》非常精彩,能再为我们讲讲阿里云计算解决方案在传输、存储、计算方面的最新成果吗?


【阿里云:林河山】基因测序是我们今年重点支持的一个行业,最近我们针对基因计算场景推出了几个的全新的产品方案。传输方面,我们发布了闪电立方,通过安全可靠的离线迁移存储设备,解决了用户数据中心大规模数据传输上云的迁移周期长,网络专线费用昂贵的痛点。通过“闪电立方”,最快可以在一周内把PB级的数据迁移上云,并且节省90%的数据迁移成本。


存储方面,我们推出了OSS归档存储类型,允许用户通过统一的接口访问冷热两种数据,同时支持通过生命周期的规则配置自动完成热数据到冷数据的转换。为了帮助行业用户应对海量基因数据的存储挑战,我们将OSS归档存储的价格从6分/GB/月降到了3.3分/GB/月,降幅高达45%。


计算方面,我们的合作伙伴BGI Online和GeneDock在阿里云上构建出了一百元人民币以内的全基因组分析服务。最近,我们在批量计算的产品上推出了竞价实例的服务,可以进一步降低用户的计算成本,阿里云也是国内首家推出竞价实例的云厂商。除了提供稳定和低成本的大规模计算能力,我们也在和Broad研究所合作,准备在阿里云上推出Cromwell工作流引擎和GATK的工作流支持,让用户更加方便的进行基因数据分析。



Part 2. 


基因慧

在GCTA大会上的重大成果“基因测序-分析“指数发布,能解释这个指数发布的意义吗?全基因组测序未来将在24小时内完成,您认为在达成这个目标过程中,云计算在哪些具体方面有加速生命科学大数据的分析和计算成本的降低?


【阿里云:林河山】这个指数的目的是提供一个衡量基因组分析的计算成本的量化指标。大家知道近年来基因的测序成本在飞速下降,现在的全基因组测序成本已经降到1000美元以内,未来几年内极有可能会降到100美元。随着测序成本的进一步下降,计算分析的成本在整个测序分析的过程中所占的比重就会凸显出来。“基因测序-分析”指数可以让我们了解计算分析成本与测序成本的相关变化趋势。我们希望通过云计算的技术,使得样本的分析成本能随着测序成本同步下降,让基因测序早日成为普惠大众的技术。24小时内完成全基因组的测序与分析是一个非常重要的目标和里程碑。


云计算主要可以在两个方面帮助加速整个流程。一个方面是云上的海量弹性资源可以极大加速样本的处理速度。另一个方面,云平台可以实现快速的数据与结果交付,这个也是非常重要的环节。举例来讲,目前测序中心通常使用硬盘来交付数据,周期比较长,数据的安全性和可靠性也比较难保障。安诺优达在阿里云上搭建的云平台每天能交付19TB的数据,极大提升了数据交付的速度。另外,云计算的规模红利会进一步降低云上基因数据分析的成本,我们最近推出的竞价实例就是利用规模降低计算成本的一种产品形态。



Part 3. 


基因慧

阿里云是众多云计算中最早且相对深入地涉及基因行业的服务商之一,也和众多基因企业有深入的合作。为什么阿里云会投入如此多的资源在生命科学领域?生命科学领域在未来阿里云战略中的意义是什么?


【阿里云:林河山】阿里云的“slogan”是为了无法计算的价值。生命科学技术的突破对我们医疗和健康所带来的价值是无法估量的。近年来随着测序技术的飞速发展,以基因组学为核心的精准医疗技术展示出了巨大的潜力。除了基因组数据,精准医疗还涉及到其他的组学数据、各种健康监测数据,以及环境和生活习惯数据等。可以看到,精准医疗天然是一个大数据问题。我们相信计算将会成为推动这个学科发展的核心能力,所以阿里云很早就开始在这个领域进行了布局。我们希望云计算技术和BT技术的深度融合能够加速这个领域的发展,让大家可以早日享受到精准医疗技术带来的福音。


Part 4. 


基因慧

2016杭州云栖大会的大数据专场中,阿里云的MaxCompute产品惊艳亮相,您能讲讲阿里云MaxCompute具体从哪些方面提升基因大数据处理速率吗?


【阿里云:林河山】MaxCompute是阿里云自主研发的完全托管的大数据计算平台,主要面向于结构化数据的存储和计算,提供了SQL、MapReduce以及图计算等丰富的计算框架。去年我们跟华大基因合作,借助于MaxCompute高效的MapReduce框架,将52X的人类全基因分析流程加速到了3个小时。随着基因数据的不断积累,基因数据的分析会更多的跟传统大数据分析技术结合,MaxCompute将有更大的施展空间。


Part 5. 


基因慧

国家基因库和阿里云达成战略合作,基于阿里云飞天操作系统构建了基因检测大数据分析平台,搭建生命健康数据领域的谷歌,其中有哪些技术是国内自主的知识产权?以及和国外的HIPAAA相比如何保证此类生命科学数据的信息安全?


【阿里云:林河山】阿里云的整个飞天操作系统,包括存储、资源管理和调度、安全机制等等都是国内自主的知识产权。阿里云的产品体系已经通过了多个国内外的安全标准认证,不少客户基于我们平台已经搭建出了符合HIPAA要求的基因数据管理分析平台。除此之外,阿里云的安全产品技术是阿里巴巴集团多年来研究积累的成果,在世界范围内都具有领先的地位。通过使用阿里云的安全产品,基因数据分析平台可以具备与淘宝和天猫同等级别的安全防护能力,有效保障生命科学数据的信息安全。


Part 6. 


基因慧

阿里云和众多基因公司都有合作,那么从阿里云以及您个人的角度,谈谈基因大数据未来更大价值的挖掘,以及和其他数据的整合,这两方面的趋势怎么看?


【阿里云:林河山】基因数据要发挥更大的价值,必须要跟更多的表征和医疗数据结合,这也是推动精准医疗发展的一个重要条件。从计算平台的角度看,这个方向有两个可能的趋势。一个是基因数据的存储形式会从文件转变为领域专用的分布式结构化系统。这是因为当基因的数据积累到几十万到上百万样本的时候,如果用传统的文件形式存储,数据的检索和存取会成为很大的瓶颈。使用专用的结构化存储加上分布式的分析工具,可以极大提高大规模基因数据的访问和分析效率。在这个方向上,国际上的一些标准化的组织,如GA4GH等已经开始了一些前沿的尝试。


第二个趋势是数据的采集和整合会从离线模式向在线模式演变。随着IoT技术的发展,越来越多的个人健康数据会从可穿戴式的医疗设备上收集上来,这些数据跟基因数据还有其他医疗数据的融合,甚至形成对个人健康的实时性指导有很大的想象空间。云平台可以给这种在线的数据采集和分析模式提供非常好的支撑。




您可能还会感兴趣的


☆ 基因慧在NGS创新开发者大会上报告

☆ 基因行业36位CEO2017年中总结

☆ 基因慧在人体微生物创新未来者大会上报告

☆ 盘点24家基因相关上市企业

☆ 基因慧在第十届遗传病诊断与产前诊断大会上报告

☆ 肿瘤精准医疗技术调研报告

☆ 科学认识罕见病(70页PPT)

 点跨界进入基因行业的企业

☆ 基因慧为牛津大学《基因组革命》作序

☆ 9个真实故事讲基因检测的科普



首个基因行业信息数据库




行业分析师/互联网产品运营/商务拓展 (深圳)

info@genonet.cn



点击“阅读原文",查看更多行业资讯。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存