人和未来:成立仅3年的生物技术公司,是如何刷新了IT纪录的?
动脉网曾在一篇《基因检测碰壁大数据,42家基因企业来支招!》的文章中提到过,随着测序技术日益趋于市场化,基因信息大数据的存储、传输、分析以及解读将是继测序成本之后的下一个急需攻克的壁垒。
测序环节产生的基因数据——每个人动辄百G以上——是等待挖掘的金矿。因此,数据的存储、传输、分析和解读是必须的过程,这就对大比例的压缩算法、高效的传输策略、超快速的计算平台和专业的解读服务提出了很高的要求。
在不久前Intel举办的英特尔生命科学信息技术论坛上,数据压缩存储、高性能计算相关的讨论是重头戏。Broad Institute登陆中国,与Intel、华大基因、阿里云和浪潮联合成立了GATK中国社区。FPGA则首次成为贯穿全场的关键词,预示Intel在未来几年将加大在异构计算方面的投入。
除了这些巨头公司之外,一家创业公司——人和未来也引起了大家的关注:成立仅3年,其研发的数据压缩算法将传统压缩算法的效率提升了20倍,开发的基因数据云计算系统将全基因组计算时间从以天为单位减少到10分钟。
就在去年,这家公司在第11届国际基因组学大会(ICG)的全球公开竞赛中一举拿下数据压缩和计算加速竞赛双料冠军,这个成绩更是刷新了数据压缩和加速运算当前的世界纪录。
令人惊奇的是,这竟是一家生物科技公司。那么,一家生物技术公司,如何成为攻城狮,刷新了IT的世界纪录呢?
当商业碰上技术,有备而来的创业
人和未来成立于2014年,由袁梦兮、黄文静和宋卓博士共同创立。初创的十余人团队中,不仅聚集了多位留学北美的遗传学、生物信息学、计算机及医学博士,也完美的融合了创始团队金融和商业的背景。
2014年是中国基因检测产业的创业高潮年,这可以从去年动脉网发布的行业年终盘点中就可以看出来。这一年新成立的企业超过35家,其中就包括人和未来。
这一年,国家发改委曾经叫停了所有高通量测序临床应用服务。与其是看准了行业风口,不如说这家公司实际经过了多年沉淀才终于振翅而飞。在公司正式成立之前,三位创始人已经筹划了5年。
2009年的美国,以23andme、Knome为代表的创业企业掀起了第一波基因检测产业化的热潮。受其感召和鼓舞,当时还在美国读书的袁梦兮和宋卓利用暑假各自回国调研国内检测市场。
无巧不成书,他们几乎同时拜访了当时湘雅附三体检中心的主任,并因此相识。从某种意义上讲,这次旅程对公司的最终成立具有历史意义。
两人在长沙火车站肯德基的第一次会面,开启了Genetalks-人和未来筹建的序幕。
同年,袁梦兮在康奈尔商学院的同学黄文静加入创业团队。团队借助圣地亚哥华人科学家的技术平台,于2009年开始了最早的研发和数据分析工作。公司的第一个疾病与基因信息的数据库,以及低频突变单分子标记测序方法便在这一期间完成了雏形。
2011年团队再次回国考察基因检测的市场,打算启动商业转化,大干一场,但慎重分析后,认定当时国内的基因检测市场仍处于无准入无监管的状态,时机尚未成熟。团队决定继续积累,并等待最佳入场时机。
此后,除了继续在北美各研究院所和机构继续协同研发的团队外,袁梦兮、宋卓、黄文静分别去了IDG资本,贝瑞和康和礼来制药,从创业投资管理、生物技术转化、医疗市场运营等不同视角,带领职业化团队进行了成功探索。
直到2014年,基因测序叫停,团队兴奋的意识到产业序幕即将揭开。团队迅速召回美国成员,在两个月时间即完成了融资、检验所规划、核心技术和国内团队落地,并在长沙研发检测基地开启了全新里程。
超前意识预见未来趋势
当时罗氏的454焦糖测序法诞生不到一年,宋卓实际上是第一批高通量测序的博士研究生。
在范德堡大学期间,宋卓的研究方向是人类遗传学和生物信息学。也许在那个时候,就本能地预见了数据处理和分析将成为未来整个行业的瓶颈。BT+IT打一开始就烙入了技术团队的精神内核
因此,从成立之初,公司便在IT领域特意进行了布局。
2014年,人和未来先后与亚马逊AWS、阿里云和Intel进行合作。基于这些IT巨头提供的底层服务,人和未来勇于创新,开发了多个令人耳目一新的高性能生物信息解决方案。
布局数据传输分析流程,刷新世界纪录
目前公司大数据产品线包括两个解决方案:基因数据的传输压缩,高性能计算解读。
传输压缩解决方案GTZ
GTZ是人和未来与湖南省工程研究中心合作开发的数据传输压缩解决方案。
GTZ是人和未来开发的数据传输压缩解决方案。通过将数据传输、压缩、分发集于一体,GTZ能实现将大规模基因组数据传输时间缩减90%,同时还能减少90%的磁盘存储空间。
与老牌传输工具Aspera相比,相同带宽下,传输能力提高10倍;与传统常用的压缩算法gzip相比压缩速度提高10倍,压缩率提高3倍 。为基因组大数据的传输和存储提供了高效率低成本的解决方案。
一个人的基因组数据的大小约为3GB,如果测序深度为30X,算上碱基质量等数据,最终全基因组数据的大小超过200GB。
将测序数据保存在云端(比如,亚马逊云S3对象存储服务),如果不压缩,需要400元/年,如果使用gzip压缩,需要140元/年,如果使用GTZ压缩可以将保存成本降至40元。
目前国内公司已经购买了大量的Illumina 生产的NovaSeq新型测序仪。单台NovaSeq测序仪可以在30小时内产出6TB 数据,一年满负荷运转可以产出超过1.5PB数据。如果采用GTZ压缩,可以为每台NovaSeq减少超过150万的存储成本。
另外,不同于传统的传输方案,GTZ采用边传输边压缩的专利技术,实现了满带宽稳定高效传输。
通过将数据传输、压缩、分发集于一体,GTZ能实现将大规模基因组数据传输时间缩减90%,传输能力是Aspera的10倍;同时还能减少90%的磁盘存储空间,与主流的gzip 的35%相比提升3倍。
高性能计算解决方案
1. GT-WGS
GT-WGS是基于亚马逊AWS的基因信息云计算平台。基于公有云的分布式计算,平台采用数百台高性能计算机协同运算,能够将30X的人类全基因组数据分析时间缩短到10分钟以内(缩短了23个小时)。
在快速分析的同时,GT-WGS仍兼具结果准确性,与标准的GATK流程对比,其分析结果一致性大于99%。
一般情况下,从基因数据产生需要经历样本提取、建库、质控、测序、分析、解读这6个环节。在普通方案,这个流程最快也要用时50h。
而GT-WGS方案则能将建库时间和分析时间分别缩短1h和23h,将个人基因组检测服务(从采样到结果报告)的时间缩短至一天。
GT-WGS的机时费用约为16美元,与单台标准服务器相比,数据分析速度提高了90倍,可节约75%的云计算机时费用。
2. GTX One
尽管云计算有着弹性灵活等诸多优势,鉴于国内仍有大量基因数据存储于线下,适合本地计算的硬件加速系统必然是未来基因数据分析的一个战略要地。
人和未来于去年推出了基于CPU+FPGA异构硬件加速的数据分析一体机GTX-One。PCI-E 3.0 FPGA,可以使一台普通PC机具有了百台服务器的基因数据分析能力。
通过为基因数据分析定制优化计算流水线,单台GTX One能够在15分钟内完成30X全基因组的比对和突变分析,刷新基因数据分析的最低能耗纪录。今年公司对GTX-One的接口进行升级。
简单来说,GTX One单台设备实现了150台标准服务器的分析能力,最大化地降低了计算集群的采购和运维的成本,并加快了基因组分析速度。
基于文本挖掘的数据解读方案
CNV是基于NCBI text mining的文本挖掘数据库,能够将人类性状与基因型相关的关联与挖掘。这类似于此前动脉网曾报道的DNA digest和Genomenon所提供的服务。
通常情况下,大约只有6.6%的文献会在标题和摘要上体现出疾病与基因突变的关联。也就是说,在没有工具的情况下,研究人员需要通读全文才能找到所需要的信息。这个过程占据了研究人员大量时间。
利用文本挖掘对文献相关知识进行提取和重构,CNV能够实现文献挖掘的自动化处理流程,将研究人员从枯燥而冗长的文献检索过程中解放出来。
目前,CNV覆盖了NCBI所有的文献摘要,并对这些文献进行每月更新。
BT与IT的融合
看到这里,你也许会有疑问:这不是一家IT公司?
我想不完全是。从北京南下湖南后,人和未来用两年的时间建立起了医学检验所、工程中心、基因库、研究院、示范中心。同时,公司也通过与医院与体检机构合作,建立面向B端的检测市场。目前,公司检测产品线覆盖了健康管理和临床诊断。
总的来看,人和未来既是一家生物公司,也是一家IT公司。
相比单纯的生物技术公司,人和未来的IT实力会是公司的竞争优势。但正如IT巨头选择与生物公司结盟跨界一样,要开发出服务生物技术的优势产品,必然离不开生物技术的支撑。IT与BT的学科交融,才是这家公司真正的实力。
未来,学科交叉融合将是趋势
对BT领域而言,IT好比一种工具;而对IT领域而言,BT则是一个庞大而复杂的数据源,IT领域需要针对不同的问题开发出专业分析工具。
这个过程从2000年人类第一个全基因组测序数据产生后开始,IT领域便一直在针对生物领域的不同需求来开发相应的分析工具。
但随着测序成本下降随之带来了数据量的暴增,眼下的数据规模已经逐渐超出了分析工具能够处理的极限。IT领域面临的问题不再是“怎么算”,而是要“怎么算得更快,如何存储”。
这是BT领域对IT的新需求,也是IT领域要面临的新的挑战和机遇。在此背景下,Seven Bridge、DNAnexus、CLC Bio等交叉学科背景的生物信息企业应运而生。
IBM、Intel、Microsoft、Google等科技巨头也都看到了这里未来的前景,纷纷抢滩市场。
Microsoft在2016年与Spiral Genetics合作推出了分析工具BioGraph™ Suite,Intel则抱团BGI、Broad Institute发力高性能计算与存储优化。
这些巨头希望借由自己在IT领域的优势跨界到生物市场。但无可厚非,BT实力是他们的短板。因此,这些巨头通常会选择与BT领域企业合作联盟来扬长避短。
IT巨头携BT公司入场,一方面说明生物数据分析将是未来大趋势,IBM、Intel这样的全球巨头也想进来分一杯羹;另一方面这说明要在这一领域站稳脚跟,仅凭IT实力是不够的,人和未来这样将IT与BT交叉融合的企业或将在未来竞争中占领优势。
文|周梦亚
微信|rencontre_my
添加时请注明:姓名-公司-职位。
后台发送关键词即可获得相关好文!
网站、公众号等转载请联系授权
tg@vcbeat.net
近期阅读
★ 基层医疗SaaS市场解析:政策和医保,是SaaS企业发展的决定性因素
★ Flare Capital Partners的投资逻辑:它只投资了29家医疗初创企业,但已成功退出10家
★ 基层医疗SaaS市场解析:政府和医保,是SaaS企业发展的决定性因素
声明:动脉网所刊载内容之知识产权为动脉网及相关权利人专属所有或持有。文中出现的采访数据均由受访者提供并确认。未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。