【基因·创业】海普洛斯联合创始人陈实富:计算,只为生命之美
最新一期【基因·创业】,我们请到了海普洛斯联合创始人&首席信息官陈实富。陈实富博士,毕业于中科院,GPU并行计算先行者,主要研究生物信息学、生物医学图像处理、机器学习与数据挖掘,曾供职NVIDIA多年,历任GPU并行计算技术顾问和高级系统软件工程师,曾为数十家科研机构和大型企业提供GPU计算咨询服务。他精通NGS数据分析,特别是循环肿瘤DNA测序在肿瘤诊断中的应用,拥有15年软件研发经验,是全栈工程师的践行者。
2014年9月,陈实富与几个志同道合、且又背景互补的高中同学联合创立了深圳市海普洛斯生物科技有限公司,而后主导了海普洛斯各个数据分析软件和平台的研发,并发起了开源基因测序数据处理软件项目OpenGene。
让我们听听他对基因测序大数据计算极具情怀的观点。
生命之美,生命之殇
当你清晨醒来,走进花园,看到花朵蘸着露珠绽放,孩童夹着嬉笑声在小道玩耍,晨跑的小伙汗水湿透背衫,年轻的父母在鼓励小宝蹒跚学步,怀孕的准妈妈抚摸着孕肚享受阳光,你可曾想到,你所看到的是宇宙间最美好的事物!从宇宙大爆炸到生命的诞生和演化,再到文明和智能的发展是世间最大的奇迹,而从一个受精卵开始不断分化,长成了一个有骨有肉有意识有灵魂的个体,则是奇迹中的奇观。只是这个生命奇观在绽放的时候,却还是有一朵乌云笼罩,那就是癌症。
悲伤一点地说,每一个人,都或多或少难免会有些亲近之人跟癌症扯上关系,包括我自己。9年前,那时我刚进中科院开始读研究生,父亲的一个电话告诉我,年轻的二姐被检查出了乳腺癌,我瞬间就感受到了生离死别。因为这些原因,我开始觉得我当时的研究方向(计算机图形学)是徒有其表无甚用处的东西,所以毅然转向了做医学影像计算,通过计算的方法来辅助诊断肿瘤。期间我做了三维医学影像的配准、分割、以及CT成像的三维重建,并使用GPU加速了各种复杂而缓慢的算法,但是终归感觉欠缺对生命医学本原的理解,直到我遇到了基因技术和生物信息学,我终于开始理解癌症产生和进展的分子机制,而我也学会通过计算和分析的方法从数据中挖掘癌症的信息,窥探自然的奥秘。
而现今几年,分子诊断的方法不断丰富,各种靶向药,以及各种免疫疗法也层出不穷,人类终于看到了战胜癌症的曙光。我总是在想,如果10年前就有这样的诊断技术和治疗方法,我的姐姐可能还未曾离去。这样的遗憾让我明白,我们应该用产品和技术,帮助更多的人受益,让更多的癌症患者可以在早期时就得到诊断,可以得到最大受益最小痛苦的治疗,以及无创安全的预后监测。这些,是我们创立海普洛斯的初衷。
液体活检,挑战技术极限
海普洛斯在成立之后,我们将主要的研发力量放到了循环肿瘤DNA(ctDNA)测序分析的技术攻关上。因为我们相信,这样一种无创、实时、动态和全面的癌症液体活检方法,一定会成为未来的主流。加上我们在微量DNA平行扩增,以及超深度测序分析方面的经验,为我们这个方向的产品打好了基础。
彼时液体活检技术还不像现在这么热,少数几家开始进行肿瘤基因测序的机构主要都是使用组织样本测序,因为cell-free DNA(cfDNA)中来自于肿瘤部分的比例往往十分低,检测相对困难。为了检测低至千份之一,甚至万份之五的突变,我们采用了超高深度的测序方法。在采用了如此之深的测序深度之后,一个明显的问题显现出来了,那就是扩增和测序带来的错误填充了整个背景数据。我们用统计方法估计了我们的测序仪Illumina NextSeq 500的错误,发现其测序错误发生的概率接近于千份之一,这让我们无法区分真正的变异和错误。
在经过一番分析之后,我们很快意识到,可以用单分子编码的技术来解决一部分的测序和PCR错误的问题。很快我们就进行了尝试,并获取了一些积极的结果,但是却发现了一些额外的问题,那就是使用这些未经优化过的单分子编码方法,需要进行大量的数据冗余处理,同时由于编码片段本身在合成或者连接时也会发生一些错误,常会弄巧成拙。经过几个晚上的失眠,我终于想到了如何使用计算和实验结合的方法来解决这个问题,第二天一早,我就与实验人员讨论了实验的可行性,并获得了测试通过,很快程序也写完了,经过测试,改良的单分子编码方法数据利用率高,编码稳定,获得的数据也更为可靠。
产品研发的过程就是这样攻克一个个难关的过程,我们碰到很多甚至之前都没有人关注过的问题。在这个过程中,公司CEO许明炎在生化方向的经验,以及我在计算方面的直觉让我们可以很快速地处理一些问题。比如我们发现测序仪在工作的时候,有些泳道上会产生一些气泡,他立刻指出这些气泡会影响测序中DNA合成反应和清洗,容易产生一些假的碱基读取信号,而我很快就通过poly信号聚合、过滤、分割和拟合写出了一个算法,检测出了这些气泡,并对这些范围内的序列进行过滤,去除假变异。
产品才是命脉,水到自然渠成
2015年被称为测序元年,大量的测序公司在很短的时间内冒出,疯狂的资本,激进的企业,以及迸发的需求一起搅热了整个市场。我们有幸在测序元年前就拿到了投资(这里感谢我们的天使投资人北京磐谷创投),让我们可以安心研发技术和产品,而无须去追逐这一波浪潮。因为我们明白,我们的产品,将来会被用于帮助患者进行生死攸关的抉择。而决定我们企业未来的最重要因素,一定是我们的产品本身。
为了更好地验证产品,也是为了力所能及地帮助一部分癌症患者。2015年7月,我们发起了万人癌症基因测序计划,旨在为一万个癌症病人和高危患者进行基因测序。这个万人计划一开始只有深圳人民医院共同发起,但是很快就有30余家国内顶级医院肿瘤相关科室参加,到现在为止,我们已经无偿帮助了2000名癌症患者或高危人群,我们的产品也通过了考验,越来越稳定。
海普洛斯的文化DNA中永远包含“技术”和“产品”这两个基因。我经常对我们的小伙伴说,我们做的每一个实验,写的每一行代码,都可能会影响到病人的选择。我们也有幸招募了这么多跟我们志同道合、脚踏实地的小伙伴们与海普洛斯一起奋斗。
Compute to Cure,计算,为了无法估价的生命
我特别喜欢阿里云的口号“为了无法计算的价值”,其实我们做计算生物学的人,又何曾不是为了无法计算的价值而计算。美好而健康的生命,便是这个星球上最大的无法估价的价值。
选择了从事这样一个行业,我感觉到我的每一行代码不再是枯躁的语句和扰人的逻辑,而是有灵有肉的乐章。我很醉心于为了生命之美而编程。即便现在我已经组建起了一个规模不小的信息团队,每天需要做很多项目和团队管理的工作,我仍然喜欢抽出时间写一些程序,因为这可以触及一些心里真实而美好的地方,我很享受这样的时刻。
Compute to Cure,另一个C2C,是我杜撰出来的一个词。这来源于我在为NVIDIA工作的时候,公司赞助的一项为研究癌症而立的Compute the Cure计划。但我更喜欢Compute to Cure,即便它的英文意义并不是那么正,因为它代表了一种探索和追求,而且代表着计算方法将会引导未来寻找癌症治疗的方法。
拥抱开源,促进共享
自成立以来,海普洛斯的信息团队完成了多个软件和算法的开发,其中大多数都是可以应用到高通量测序分析中的。作为一家有开放精神的公司,我们已经把一部分软件和工具的代码进行了开源,以项目名OpenGene放在了github上(https://github.com/OpenGene),未来我们还将开源更多的软件和算法,我们也邀请更多的业界极客,参与OpenGene的项目,集众人之力,共建癌症基因数据分析的生态。
另一方面,癌症研究的进展离不开癌症基因大数据的支持,更多的数据才能够建立更准确的模型,实现更好的诊疗。我觉得更加迫切需要打破基因测序机构之间的数据壁垒,实现更多的癌症基因数据交换和分享。
就在上个月,我刚以项目负责人身份,联合中科院深圳先进技术研究院和国家超算中心,申请了一项题为《中国人癌症基因数据库建设》的技术攻关项目,该项目已经得到了深圳市科创委的资金支持,我希望以此为契机,依托海普洛斯这个平台和行业中各个机构的支持,帮助建立起一个专为中国人造福的癌症基因数据库。我也呼吁,在癌症基因检测行业内的机构,应该建立一个数据共享和交换联盟,并且起草一些方案,包括数据存储方式、数据的加密和隐私保护、数据交换接口、基因型和表型信息的规范化、相应医学病例的结构化等等。
工具的开放和数据的共享将产生更大的价值,在整个行业中,无论是科研机构、医院、还是基因检测公司,我想我们从事这个行业的出发点都是为癌症患者造福。希望我们携起手来,在不是遥不可及的将来(比如30年内),将癌症变成不是那么恐怖的慢性病。
招聘职位
产品市场部
市场总监(1人)
销售副总监(1人)
基因测序产品经理(2人)
销售经理(5人)
市场经理(2人)
生物医学部
生物医学总监(1人)
生物医学工程师(2人)
生物实验员(2人)
肿瘤学研究员(2人)
遗传咨询师(2人)
质量管理工程师(1人)
IVD三类产品注册专员(1人)
医学顾问(2人)
信息技术部
生物信息总监(1人)
生物信息工程师(3人)
大数据工程师(3人)
机器学习工程师(2人)
PHP工程师(2人)
WEB开发工程师(3人)
作为优秀的创业公司,我们将为您提供:
(1)极具竞争力的薪酬水平,五险一金,餐补及交通补助,年终奖,有突出贡献者可获得极具升值价值的员工股份期权;
(2)轻松平等和谐的工作氛围,高素质的工作伙伴团队。
(3)扁平化的组织机构,顺畅的晋升通道。
点击“阅读原文”了解更多招聘信息。
- END -
海普洛斯HaploX
肿瘤|基因测序|用药指导
高通量测序|生物信息|机器学习
临床检测|健康管理|科研合作