查看原文
其他

基因+云计算,看诺禾致源/海普洛斯/希望组高管在云栖大会上谈了什么 | 大咖论健57期

2017-10-17 基因慧 基因慧Pro



关键字:云栖大会  诺禾致源  希望组  

海普洛斯  大数据  BT  AI  三代测序  肿瘤

用时:约10分钟



作者:田仕林、汪德鹏、陈实富   |  编者:尘灰、亦蚕   |  校对:Cindy

【大咖论健】10月14日,为期4天的云栖大会正式在杭州闭幕。阿里巴巴除了建立了“达摩院”——三年投入1000亿元、支撑第五大经济体、服务世界经济,在基因云计算、智慧医疗等专场也披露了大量的前沿进展以及重大发布。在10月11日下午,“基因计算”作为云栖大会专场之一,阿里云邀请了基因和计算行业8家企业高管,分享了三代测序的计算校正基因组深度数据挖掘肿瘤突变分析的敏感度以及华大基因和阿里云合作的十万人基因组等。基因慧作为受邀媒体,特别采访了此次大会的三位嘉宾,与读者分享他们在基因+云计算方面的心得。





 田仕林(诺禾致源 CTO)


Part 1. 

【基因慧】田总您好,身为诺禾致源最早的创始团队一员,您可否向基因慧读者分享一下当初是什么契机促使您投身创业并一路走来呢?


【田仕林】当时正值高通量测序和基因组学的高速发展时期,并已经在科学研究、健康医疗、农业育种等领域中呈现出广泛的应用。在这样的时代背景下如果错过了将会是令人非常遗憾的事情;


诺禾致源的创业团队在科研能力上,实力是非常雄厚的。公司董事长李瑞强先生也是以科研著长,尤其是他在基因组领域的国际影响力,也促进我们更好的进入这一领域;2013年,诺禾致源通过与四川农业大学的合作共同发表了题为《比较基因组学鉴定藏猪和家猪的自然和人工选择》的论文,并最终刊登在了国际著名学术杂志《自然》的子刊《自然-遗传》上。这也进一步推进了诺禾致源在科研服务领域的拓展。



Part 2. 


【基因慧】诺禾致源在中国科研测序领域一直表现优异,并逐步拓展肿瘤基因检测和遗传病检测。请问在目前这个行业整合并购期,您能否向读者介绍一下诺禾致源从科研服务到临床和C 端基因检测转型的思考,以及未来的重点方向吗?


【田仕林】首先不管是科研服务、肿瘤检测还是遗传病检测,其主题词和出发点都是基因技术。基因技术能够应用在很多领域,包括肿瘤基因检测和遗传病检测等。我们聚焦于基因领域,加强我们基因技术的研发储备,不会把技术和平台拓展太宽。


国内科技服务市场,我们已经做到了最好。但是从长远来看,国内科技服务的发展会有天花板,商业空间是有限的,现在我们正在拓展海外科技服务业务。从科技服务往外延伸却是很有意义的,因为基因行业不仅仅需要有好的测序仪和技术,还需要回到基因与疾病关系这个科学问题上,能让基因技术真正的面向个人。


肿瘤基因检测是非常广阔的市场,2012年全球有1.41千万新发癌症病例,820万患者死于癌症。肿瘤是基因病,根本原因是因为细胞中的基因突变,并变化为癌细胞。所以肿瘤是可以得到早期诊断和治疗的,通过积极治疗,仍可能延长生存时间,提高生活质量。以后的治疗肯定都要从基因的层面进行,而肿瘤本身也因为其复杂性和种类多样性,不是短期内就能够解决的。总的来说,这是一个巨大的市场。


对于C端基因检测,在政策允许的情况下。我们需要借助云端思维,建设一个链接检测机构,健康管理机构以及针对个人大的生态平台,让基因检测服务更好、更便捷的惠及个人。


诺禾致源未来在战略上会在科学研究、临床服务、健康预防三方面协同驱动发展,持续加强在研发能力、测序平台、计算平台的建设拓建。我们会从基因测序领域,转向更为全面的多组学领域,更好地为中国客户提供全方位服务,提升科学研究、精准医疗等领域的质量和水平;基因云平台的建设也会是我们的重点发展方向,通过基因云平台的运维体系,优化我们现有的平台,提高计算平台的使用效率,降低基础设施的投入成本。



Part 3. 


【基因慧】关于此次云栖大会中您提到的NGS 崛起带来的大数据挑战,您认为目前哪些是可以解决的,能否谈谈您的思考?


【田仕林】基因行业具有数据密集型和计算密集型的特点,NGS 崛起带来测序成本呈量级的下降,新技术能够让我们比以前更快地产生更多数据(1台Illumina Novaseq的通量每年能达到1.08PB)。然而围绕着生物信息数据规模复杂度越来越高,如何有效低成本的存储大规模生物数据;如何快速处理大规模的生物数据计算;如何根据多样化的生物数据特征从海量数据中发现和组织数据集;都是我们现在面临的挑战。


在现有的HPC架构平台下,大量的生物数据的分析经常会导致计算IO拥堵,从而导致分析时间成倍增加。此外,数据处理算法的不合理也会导致对计算平台的资源浪费。对此,诺禾致源已经在着手优化生物信息流程,并与Intel等公司合作共同研发通过算法流程或硬件来加速我们现有的分析流程,并已经取得了不错的成果。现在我们从测序到数据交付已经能做到3.5天的极致周期。


计算云是为基因测序提供了一个平台,他的计算弹性的特性为基因测序服务公司带来了可观的成本效益。透过云计算,无需先期巨资投入硬件,再花大量时间来维护和管理这些硬件。与此相反,可以精准配置所需的适当类型和规模的计算资源,能更加高效的帮助运行海量数据的处理。当然,我们也不能忽略它现存的问题,网络的传输速度、稳定性以及成本投入已经成为了重要的瓶颈,此外,数据安全性也是一个重要的挑战。


未来的新资源就是数据,但是如何有效的提取数据中有用的数据信息是一个难题,尤其在生命科学领域,基因数据复杂度也来越高,其衡量的维度也越来越多,维度之间的联系还在摸索中,AI思维会是一个重要的突破口。要使基因测序数据真正应用于横向领域,必然是一个很长的路途。



Part 4. 


【基因慧】2016 年诺禾致源购入了第二套Illumina HiSeq X Ten,以及众多的各类测序平台,诺禾的产能扩展的非常迅猛,请问诺禾云的发布是不是也和这些产能有关呢?您如何看待诺禾云在未来几年的发展方向?


【田仕林】诺禾云的发布是诺禾致源发展的一个必然,现在诺禾是国际最大的测序服务商,是最大的基因测序数据产出基地,诺禾致源也建设了国际领先的HPC平台,诺禾云借助自身的优势,希望能整合计算云平台供应商、计算基础设施供应商、平台应用开发商等资源,为生命科学领域的终端用户如科研院所、医院、药企甚至个人提供一个高效的生物云平台解决方案。云平台的高效的计算能力和弹性特征必然会降低我们的基因测序业务成本。


未来,诺禾云会持续加强与Intel、计算云服务商、开发商的合作,完善平台,在提高计算效率的前提下,充分与基因测序业务特征结合,做好诺禾云产品的细分,为不同领域不同需求的终端用户提供定制化的服务。



Part 5. 


【基因慧】BT 和IT 的结合是一个大的趋势,能够极大的推动行业的发展,您能否谈谈目前碰到哪些结合上的困难点吗?以及未来在合作中还有哪些需要突破的?针对您的专业背景,可否谈谈上面这些问题?


【田仕林】我自己的专业背景是计算机专业和动物遗传学专业,IT的基本指令是0和1,BT的基本指令是ATGC。对于BT和IT融合是一个很有意思的问题,现在我们应该看到了相关的报道:第一个就是AI思维,CPU在往人脑发展,这是IT要发展成了BT趋势;第二个就是DNA能作为新的介质存储更多的信息,这是BT发展成了IT;BT和IT的结合实际上是双方优势的一个互融的过程。


我以BT这个角度来说,BT现在的理论研究非常多,数据量规模越来越大,计算复杂度越来越高。我们需要保持分析效率不变,通过对IT平台做硬件加速(如FPGA、SSD)或者软件流程(如ELSA,GATK4.0等)。这里就存在一个问题,在做优化时,可能会对软件的算法做些微修改,从而导致结果输出不一致的情况,这是就会发生因为IT优化带来的BT困扰。要解决这个问题,必须要IT和BT同时结合,从流程优化、结果评估等全方位的结合来进行。BT和IT交叉的结合是推动其融合的最基本的动力。





 汪德鹏(北京希望组 CEO)


Part 1. 


【基因慧】汪总,感谢您接收基因慧的专访。从2011年武汉未来组正式成立到现在,已过去了整整6年,您可以向基因慧读者分享一下当初是什么契机促使您成为最早一批投身三代测序事业的呢?


【汪德鹏】促成我们选择三代测序的原因很简单,我们遇到麻烦了。2012年,我们做了一个基因组项目,发现组装结果跟预期结果不同,杂合度非常高,二代测序所有的方法我们都试过了,找了国内很多牛人帮忙,还是没有办法解决。在痛苦的挣扎过程中,我找到了三代测序的文献,发现了可能会解决我们的问题,结果一测试就完全被吸引,从此以后,全力以赴做三代测序的应用。现在想起来,也是在非常偶然的场景下遇到的机会。



Part 2. 


【基因慧】从最开始三代测序被业内唱衰,到近两年的资本追捧和技术领跑,这其中必定经历了非常多的曲折与忍耐,您能不能向我们透露一下近些年对您影响最大或印象最深刻的几件事呢?


汪德鹏】这些年对我影响最大的是我们参与完成了第一个三代测序中国人参考基因组序列项目,我给项目取了一个名字叫“华夏一号”。这个项目是广州华侨医院、武汉生物技术研究院,以及在美国的部门知名科学家团队一起参与完成的。当时,韩国人率先启动了第一个亚洲人三代测序基因组参考序列项目,并引起了国内行业的广泛关注,随后我们便联合了武汉生物技术研究院,决定启动“华夏一号”,抢先韩国人完成项目。当时三代测序大基因组项目,无论测序还是组装都很困难,而王凯、师玲玲、付爱思等都花了非常多的心血在这个项目上,我们基本上把武汉生物技术研究院的测序仪霸占了小半年,连过年都没有休息。最终项目比韩国人提前发表,也取得了国内、国际同行的认可,也为我们公司后来发展动植物基因组和三代测序遗传病诊断业务提供了依据。



Part 3. 


【基因慧】作为全球首家三代测序遗传病诊断公司,您能否向读者介绍一下目前三代测序在遗传病诊断的发展情况以及未来的突破口在哪里?


【汪德鹏】我们在完成“华夏一号”的同时,也发现了非常有意义的新领域,每个人的基因组上,基本上有两万多个大于1000个碱基的结构变异(Structure Variation)。这些结构变异可能跟遗传病有很大的关联,不过受限于二代测序的读长太短,结构变异一直没有得到很好的研究,我们感觉三代测序在结构变异与遗传病之间的关系,是一个潜在的非常大的机会,这也是我们已经积累了几年,可以在国际上处于领先地位的一个宝贵机会。我们公司是中国首家三代测序精准医学公司,也是全球首家三代测序遗传病诊断公司,当然,在美国以及英国也有非常多的人在从事三代测序与遗传病的研究,但目前在全世界范围内,没有一家创业型公司有专门从事三代测序遗传病诊断业务的,我们算是第一家。



Part 4. 


【基因慧】从9月15日,国内最新Oxford Nanopore数据的首发,再到9月21日全球最大的Nanopore测序平台的建成。北京希望组的诸多新动作令行业瞩目,作为中国首家推出Oxford Nanopore测序服务的企业,您可否向大家简单介绍一下目前Oxford Nanopore平台在国内的运行情况,以及在北京希望组希望对新技术的期许与想法同大家分享一下呢?


【汪德鹏】Oxford Nanopore的潜力非常大,预计成本在接下来的一年内,会大幅降低,这个也是我们高调推出Oxford Nanopore测序服务的原因。坦率的说,PacBio Sequel的试剂成本下降非常有限,但是客户对于成本的降低是有预期的,我们作为服务提供商,如果不能提供与时俱进的服务,也是没有生存基础的。我们第一批6台GridION在北京实验室已经正式运行了3台,算是暂时全球最大的Oxford Nanopore测序服务平台。我们引进新的技术平台主要还是盯着新的应用的开发,希望尽快把新技术,广泛推广到遗传病诊断应用中。



Part 5. 


【基因慧】您作为希望组创始人受邀参与云栖大会,这是否标志着希望组未来会在基因大数据领域会有新的合作或布局呢?在缺乏标准和样本体量未形成规模的情况下,您认为基因大数据,特别是第三代测序数据的变现价值会有哪几点?


【汪德鹏】云计算我一直在关注,但此前并未涉及。本次参加云栖大会,主要是因为有真实的需求,需要来寻找解决方案。我们目前是全世界最大的三代测序数据拥有者,各种数据都非常宝贵,如果没有安全、可靠的存储方案,万一服务器出问题,就会造成不可估量的损失。所以一个非常重要的需求开始变得急迫,那就是云存储。另外,我们也发现,三代测序基因组组装,非常的消耗资源,我们也利用阿里云来帮我们实现弹性计算,降低交付周期,提高客户满意度。





 陈实富(海普洛斯 CTO)



Part 1. 


【基因慧】您的教育背景主要是数学和IT,曾经在NVIDIA任高级软件工程师负责系统软件研发和GPU计算,但如今您主要从事与肿瘤医学相关的生物信息学工作,您能向基因慧的读者介绍下您从IT跨界到BT,又从事医学相关的工作的初心吗?


【陈实富】在我过去的学习和工作经历中,不管我在何岗位上,我一直渴望从事与自然和生命探索相关的工作,我希望我的工作可以让生命更健康美好,这是我的初心。正因为有这样的初心,即便在从事IT工作的时候,我也没有忘记去折腾探索很多未知的领域,这让我收获了非常多跨专业的知识,涵盖了数理逻辑、计算以及生物医学等。这些知识为我后来在海普洛斯的工作奠定了很好的基础,也使得我收获了一个称号----我在NVIDIA的前同事们喜欢戏虐性地称我为“教授”。在我现在的工作中,我可以从容地处理涉及IT、BT以及医学等多方面信息的问题,正是有赖于多年折腾积攒下的知识背景。


阿里云的口号是“为了无法计算的价值”,这个我非常有同感。生命无价,而我们正是为了生命之美而计算。在为解决癌症数据分析问题而编程的时候,我能够感觉得到每一行代码的生命温度。癌症可能会跟每一个人相关,我的亲姐姐在七年多前因为乳腺癌离世时,只有37岁,当时我除了痛哭只剩无能为力。所以今天我们努力工作,努力创新和分享,就是希望未来人们在不得不面对癌症的时候,多一份信心,少一份绝望,这也是我们选择癌症诊断方向的初心。



Part 2. 


【基因慧】2014年9月,您与许明炎博士、方文以及温媛联合创立了海普洛斯,短短一年半时间内,完成A轮融资5000万,今年又在江西建立了海普洛斯基因组中心,引进了10台NovaSeq测序仪,作为联合创始人,回顾这一路创业历程,您有哪些印象深刻的体会以及取得目前成就的经验心得?


【陈实富】这一路走来,我最大的感受是,我们遇到了很多的贵人,收到了非常多的帮助。我们的天使投资人北京磬谷创投,在我们只有7个人的时候,听我们在白板又画又讲折腾了几个小时,就给了我们一千万,让我们可以快速起步。我们的A轮投资者软银中国和山蓝资本等同样给了我们非常大的支持。我们遇到了很多肿瘤领域的专家,他们一直非常信任我们、帮助我们、让我们企业快速成长,并与我们一起努力造福患者。我们四个创始人都是江西上饶人,我们家乡的父母官和当地政府同样给了我们超强力的支持,让我们在江西建立起了一个大型的基因组中心。加入我们海普洛斯的小伙伴们都非常年轻,但是都非常锐意进取,一直和我们企业同步成长。所以我深感幸运,同时也感受到重任在肩,希望不辱使命。



Part 3. 


【基因慧】作为海普洛斯首席技术官,您带领技术团队,主导了海普洛斯各个数据分析软件和平台的研发,并发起了开源基因测序数据处理软件项目OpenGene,把一部分软件和工具的代码公布在github上共享,包括您在会上介绍的快速肿瘤NGS分析的算法优化工具MutScan和GeneFuse,您这么做的初衷是什么可以和我们分享下吗?同时可以简单和我们介绍一下MutScan和GeneFuse两个新的算法优化工具吗?


【陈实富】分享才是未来,不管是在哪个领域,站在BT和IT交叉口上的生命信息学更是如此。我坚信我们需要不断地推进软件和数据的共享。相比起来,数据共享因为涉及更多的隐私问题和安全性问题,更为艰难,所以我们希望在软件共享上先行一步。我们在github上使用的组织名是OpenGene,而不是用我们的公司名HaploX,正是因为我们希望做真正开放的平台,让更多的单位参加。具体到软件上来讲,MutScan和GeneFuse很像,都是可以直接从FastQ文件检测目标变异并做可视化的工具,他们有两个特点,一是都是处理原始的FASTQ文件,跳过了常规流程中很多的步骤,保证更高的敏感度,而且也更快。比如MutScan可以在单个节点上在30分钟之内处理完100Gb的数据。另一个共同的特点是这两个软件都会输出基于HTML页面的报告,比较漂亮,而且是交互式的,会比较友好。具体地可以上github搜索这两个软件名,也可以搜索OpenGene.



Part 4. 


【基因慧】对于目前大数据传输的瓶颈,亚马逊提出卡车运输硬盘的办法,其他云服务商建立多地DC和专线,您认为未来会有更好地解决办法吗?包括基因大数据计算效率上,类似GPU和Hadoop,Docker等应用,您能分享一下吗?


【陈实富】虽然目前来讲,一辆装满硬盘高速行驶的卡车的带宽是最大的,远超过普通专线。但是我认为这种模式只对本地数据中心往云端进行初次迁移的场景比较有用。而对于像基因测序中心这种常态化的数据传输,我还是觉得使用专线会比较有用。寄硬盘的方式,需要在发送和接收的两端都进行拷贝和转移,这对于效率是比较大的浪费,只适合于一些带宽资源比较小的散户。对于大规模的测序中心,我还是倾向于直接使用专线连接。而且目前的一大利好是国内的云供应商,比如阿里云腾讯云都在各大城市建立了数据中心,使得实验室与云数据中心进行专线连接在大部分情况下是可实现的。对于大型的测序中心来讲,我目前还是倾向于本地数据中心+公有云的方式,因为两者各有优劣,但是我也认为未来可能云端所占的比重会越来越大。


对于基因大数据计算,相比GPU,我还是更看好一些基于FPGA的应用,因为基因数据分析中的很多任务的确不太适合GPU的编程模型。Docker这类轻量级容器技术会在这个领域应用非常广泛,甚至可能会得到普及,因为基因计算通常是流程化的,与Docker这类微实例架构比较契合。而像Hadoop这类分布式大数据处理的框架肯定也是非常有应用价值,当然Hadoop在这方面的应用有一些效率问题,但是有其他的类似架构表现良好。我们在本地的数据中心使用的也是HDFS作存储,Docker作为容器,然后使用Kubernetes进行调度和管理。我的观点是未来的基因计算一定是分布式的、虚拟化、容器化的。



Part 5. 


【基因慧】近两年精准医疗是比较热门的话题,随着精准医疗行业的发展,伴随着EB级别的数据和庞大存储和计算需求,没有从量到质的认识,没有从数据到信息的整合,我们谈的“大数据”仅仅是“数据大”。而其中的转化和应用媒介,离不开“云”平台。据笔者不完全统计,全球46家基因云平台/企业,平均每家融资680万美元。 国内云基础架构供应商也推出多种服务,而阿里云提供全球领先、安全、稳定的云计算产品,您怎么看这些云服务的,以及这些服务会给肿瘤基因数据带来哪些变化?目前肿瘤基因检测需要怎样的云服务?


【陈实富】目前基因行业的确还不能称为真正的大数据,可能更合适的是大文件,或者你刚说的数据大。基因行业的数据是原始数据比较大,但是这些数据是非结构化的,高冗余的数据,基本上没办法直接参与关联挖掘。而分析得到的变异数据,虽然也不小,但是相对于一些其他行业动不动就数百亿条的规模还是没有可比性。


那如何打造基因大数据?我想重要的还是进行数据共享。理想的数据共享环境是要求数据在线且互通的,我想云就为这类应用提供了非常好的条件。云会成为未来基因数据在线共享的基础设施,这也是我一直看好基因数据,以及其他大健康数据上云的原因之一。像阿里云这样的大型云基础供应商,以及其他做垂直的基因云的企业都有其相应的价值和市场空间。就目前来看,我想大型的测序中心会直接在阿里云这样的供应商上构建,而分散的小规模用户可能会倾向选择具有更全套件的基因云。就肿瘤基因数据来讲,我想它相对于一般的基因数据对隐私保护和安全性的要求更高,如何对数据进行加密和保护会是我们重点考虑的问题。



Part 6. 


【基因慧】2017年9月27日12:30,海普洛斯卫星CSCO卫星会成功召开,主题为“液体活检+人工智能”,对于目前液体活检技术和人工智能的结合怎样具体的服务于临床,您可以和我们简单的聊一下吗?


【陈实富】液体活检+人工智能可以有非常大的想象空间,在肿瘤的筛查、监测、诊断、治疗等方面都会有很大的应用潜力,对于其他的一些应用,比如器官移植之后的监测也具有较高的契合度。具体到案例上,我目前看好在两个方向上应用液体活检+人工智能:其一是肿瘤的筛查,比如我们使用液体活检+影像分析+人工智能来进行肺结节的良恶性判定;其二是免疫治疗中的新抗原预测分析,即使用人工智能的方法来预测哪些突变导致的新生抗原与MHC可以有更好的结合性,以及更容易唤起免疫识别。



Part 7. 


【基因慧】在肿瘤的精准治疗方面,海普洛斯联合深圳市人民医院共同发起了“万人癌症基因测序计划”,在肺癌等癌症的预防方面,海普洛斯联合上海市呼吸病研究所启动了“循环游离DNA(cfDNA)用于肺结节无创诊断研究”(Differentiate sarcoidosis by cell free DNA, DISA)全国多中心研究项目,可以和我们分享一下目前的这些项目进展如何?以及接下来海普洛斯在肿瘤科研以及临床方面的规划?


【陈实富】目前我们万人计划进展顺利,已完成过半,而使用游离DNA来辅助诊断肺结节的项目则已经在全国多个城市启动,目前在有序进行当中。接下来海普洛斯计划在未来几年完成两个十万计划,即对十万肺癌或肺小结节患者进行检测的“绿肺计划”,和对十万结直肠癌患者进行术后监测、用药评估或个性化诊疗的“肠康计划”。我们希望在肺癌及肠癌的早诊早治和动态监测方面做一点点工作。




您可能还会感兴趣的


 明码生物科技CTO孙洪业

 荣之联董事长王东辉

 华大股份研发中心副总监金鑫

 云栖大会基因计算专场8位大咖干货分享

 阿里云基因行业产品负责人林河山



行业编辑/市场/BD/运营

info@genonet.cn

400-088-7466




点击“阅读原文",查看更多行业资讯。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存