大咖论健 | 华大基因金鑫:云计算+基因大数据 | 第44期
(图1:华大基因金鑫,经作者授权发布)
【大咖论健】2017年6月29-30日,由华大基因、中国生物信息云计算产业联盟发起,华大基因、英特尔、阿里云、京东云、微基因、贝壳社、聚道科技、荣之联、基云惠康等单位联合主办的第二届基因组云计算技术开发者大会(GCTA)在深圳举办,就基因组云计算的行业现状、重大突破以及发展趋势等问题进行了深入交流和合作。基因慧受邀作为大会首席媒体支持单位,对部分演讲嘉宾进行了专访。
本期精彩内容
云计算+基因大数据
关键词:云计算 基因大数据
BGI Online 人工智能
1. 基因慧:在2017年6月29日GCTA大会上,您代表华大基因,和阿里云、GeneDock共同发布了“基因测序-分析”指数(SA Index, Sequencing Analysis Index),您能谈谈其中的意义吗?
金鑫 :在整个基因行业里,大家都非常关注基因测序成本的降低。我们也确实看到基因的测序成本以超摩尔速率下降,直到今天已经降低到几百美金的水平。与此同时,当今天基因测序成本降低的时候,基因数据分析的成本在整个成本中占有不可忽视的比例,如果不进行优化的话,将会变成整个精准医学等各方面研究的瓶颈。同时,这两年通过云计算技术、硬件加速技术等能够大幅地提高基因数据分析效率、降低分析成本。今天发布的“基因测序-分析指数”在2017年有大幅度下降,原因是华大基因、阿里云、聚道科技的合作以及同行各方的努力,使得基因数据分析个人基因组的成本降到百元人民币以内。基因分析部分,希望有更多的人关注、有更多的投入和突破。
2. 基因慧:在华大招股说明书里,BGI Online 也作为未来投入的重点板块,您作为BGI Online负责人,能谈谈它在未来3-5年内的发展方向吗?
金鑫 :首先感谢大家对于BGI Online 这个平台的关注。回过头看的话,华大在很早之前已经关注使用云计算技术、硬件加速技术等来解决在基因计算方面遇到的瓶颈。今天在大会上也有很多大咖提到了基因行业具有数据密集型和计算密集型的特点。传统的数据中心的模式在我们看来也是非常有必要的,但是接下来基因测序的成本继续降低,应用场景进一步丰富,实际上相对于基因测序产生的数量级,现有的硬件设施和基础设施是根本跟不上的,数据全部堵在那里,原来的全基因组测序3-5天,数据分析需要3-5天,严重滞后了整个过程。
我们在做BGI Online 的时候有个初心,做好国产的基础设施。基因测序仪是上游非常重要的基础设施,华大基因2012年收购了Complete Genomics,尽全力去推出国产测序仪。实际上我们在做BGI Online 的基因数据分析的云平台也是一样的道理,也是希望通过和云计算领域最好的伙伴合作,做出最好的基础设施。我们现在很多的全基因组测序的业务是在BGI Online 上完成,分析时间大概5-10个小时,分析成本约为百元人民币量级,使得我们测出来的全基因组有了更大的市场空间。让真正使用到测序数据的人受惠,不仅时间缩短,而且成本降低,也非常的方便。同时也希望行业内更多的合作伙伴和友商能够使用BGI Online的技术平台,推动中国的基因测序基础设施的成本下沉,希望通过我们的努力,让更多的基础设施惠及到整个行业。
(图2:金鑫接受基因慧记者采访,经作者授权发布)
3. 基因慧:目前人工智能的机器学习等技术在基因大数据领域中越来越多的被提到,您认为目前基因大数据离人工智能真正应用还有多远?有哪些核心要点需要突破昵?
金鑫 :人工智能现在所使用的算法、方法、理论和框架并不是最近两年才出现的,其实已经出现了相当长的时间了,但是为什么最近两年有这么大的突破?除了算法上持续的改进,也有非常重要的一点是数据的体量和十年前相比远远不同了,因为我们有了互联网,有了更多的数字化的途径,使得数据的积累大大的加快,就像当年的Google异军突起在语音识别的领域超越了所有的研究者,就因为Google有更好的训练数据,能够让人工智能更好地从中间去学习。像马云讲的,未来的新资源就是数据,数据的资源是我们越用越多的资源,但同时在基因和生命科学领域是否达到了像人工智能的基础可以大爆发的时代?取决于几个先决条件:第一,数据积累的速度是否足够快?第二,数据能够大量的低成本产生之后是否有更好的共享途径?第三,采集数据的过程中是否除了基因数据还能有其他维度的数据?
有一个特别有意思的例子,是基因科学狂人Craig Venter创办的 Human Longevity 公司做的,通过人的基因数据预测实际长相,有非常好的契合度。虽然目前样本量有限(可能在万份的数量级),但是类似这样的事情有很大想象空间。我感觉基因和生命科学处在爆发的前夜。实际上像人工智能技术在科技巨头里都有大量的投入,也有很多专门的人才,但更多的还是在技术开发的本身,还是在前期的准备工作,相信在未来技术的应用和技术开发本身能够并行,起到互相促进的作用。
4. 基因慧:最近中国移动携手多家央企筹组健康医疗大数据国家队,也是创新“互联网+健康医疗”服务模式的探索,这对于基因健康行业的影响,以及国家队和企业大数据平台之间的协同发展您怎么看?
金鑫 :我从两个方面解读这件事情,首先国家队入场,对行业来说是个好事情,因为我们知道中国医疗行业的特殊性,优质资源集中。这种情况下,如果没有国家力量的推动,数据的整合和共享都是有困难的,国家队入场开了这个头,我觉得实质上是对整个行业的利好。
其次,在和国家队以及像华大、阿里云、英特尔等有各自专长的机构和公司接触时,怎么样有更好的形式合作和共享,是我们接下来需要思考和沟通的地方。就像今天的中国经济一样,国家队是处在整个核心经济领域的上游,但是整个经济要有活力,需要依赖整个中下游以及民营企业,包括国有背景企业,所以我们非常乐于见到整个行业的链条越来越通顺,上游数据能够得到很好的汇集。
5. 基因慧:基因数据作为医疗大健康数据的一部分,未来极有可能和健康体检数据、临床数据、移动设备采集数据结合。这是一个趋势,也存在一些难点,您怎么看待这两个问题?
金鑫 :除了通常意义上我们所理解的数据整合的难点,基因数据本身有其特殊之处,我们对基因的理解还在很浅的层面,还有大量的未解之谜,这些都需要更多维度数据之间的连接来回答,数据的结合是大势所趋。要让各个维度的数据更方便的产生连接,需要两个强力的推动因素,一个是“强应用”,另一个是“在线”。强应用是原因,在线是理想,基因和云计算技术是载体。只有大量数据在强应用的助推下产生,并在基因和云计算技术的支持下在线,各个层面数据的结合才会成为可能,才会爆发出巨大的生命力。
6. 基因慧:BT和IT的结合是一个大的趋势,能够极大的推动基因行业的发展,但同时也会遇到很多挑战,您能为我们讲讲目前阶段BT和IT的结合困难点有哪些?未来在合作上还有那些方面需要突破?
金鑫 :困难很明显,就是BT和IT间的语言体系不同,互相理解对方的成本比较高。从根本上讲,是跨两个领域拥有交叉背景的人才不足。人才需要时间来成长,而人才成长的速度将成为最大的瓶颈。另外,生命科学领域对于顶尖IT人才的吸引力相比互联网、金融等还不足,生命经济的产业化进程也将对吸引人才起到至关重要的作用。
欢迎产、学、研、资、政相关代表参与《大咖论健》(info@genonet.cn)
您可能还会感兴趣的:
识别下面二维码进入“优脉通” ↓↓↓
We Need You
媒体编辑/行业分析师/互联网产品运营/BD
基因慧等你来 info@genonet.cn
点击“阅读原文”,更多分享。