查看原文
其他

为生命计算,从基因大数据到临床应用有多远?

2017-03-06 基因慧 基因慧


关键词:数据--信息--知识

从基因大数据到临床应用

建议用时:5分钟


图片来自:Center  for  Genetic and Society


谷歌的吴军在所著的《数学之美》中讲到这样一个故事,在二战,当纳粹德国兵临前苏联莫斯科城下时,斯大林已经无兵可派,除了在西伯利亚的60万大军。但是他不知道德国的轴心国盟友——日本,是准备北上进攻苏联还是南下和美国人开战,而这不能猜。最后,传奇情报工作者佐尔格向莫斯科发出了仅五个字但信息量巨大的情报:“日本将南下”,于是前苏州把西伯利亚的60万大军全部调往欧洲战场。

据福布斯(Forbes)报道,乔布斯是世界上第一个受益于DNA测序的患者。他支付了高达几十万美元的费用,但这种方式帮助乔布斯延长了生命。是什么起到了核心作用呢,是DNA测序得到的数据文档吗,还是通过基因数据分析发现癌症相关的基因突变信息?医生通过后者蕴含的生物分子靶点信息找到相应的药——诺华产的 Gleevec,在一定程度上控制了癌症细胞的蔓延,减少了化疗次数。

无论是军事战场还是人生中生老病死的战场,每个人都会面临决策。决策的依据是什么呢?时下言必谈的机器学习、大数据时谈到一个例子,超市会把啤酒和尿布放在一起销售,是因为管理员通过购物清单大数据发现男人下班买尿布时也会买啤酒。

那么,我们只是根据大数据直接决策吗?

是“数据”蕴含的“信息”?

比如佐尔格在发出“日本将南下”的情报前,是否是经过大量信息的搜集、整理、挖掘和验证呢?乔布斯的医生Christopher Hitchens在给乔布斯下靶向药处方时,是否是基于上百GB的DNA“数据”,还是数据处理、分析后得到可能只有几KB(1GB = 1024MB = 1024KB)的基因突变“信息”呢?

答案很显然。

中国工程院院士潘云鹤曾在数字化知识服务科学与工程国际高端研讨会表示,大数据时代不是只主打数据,仅仅挖掘大数据也是不够的,应该从大数据走向大知识。这其中经历几个步骤呢?

一是信号,从各类信号源捕捉的材料。比如一段话、身体的表征。

二是数据,对客观事物的事实描述,比如脑电图、音频、视频、测序数据文件等,是信息和知识的原始材料。

三是信息,对数据进行归纳的意义。比如病灶异象、DNA突变信息等。信息的本质是消除不确定性。在信息论中,1948年香龙(Claude Elwood Shannon)将物理学概念“熵”引入到信息论中用来描述不确定性。吴军举了一个很好的例子解释“熵”,比如两人玩游戏猜测世界杯中32支球队谁是冠军,理论上最多需要“猜”5次就能“猜”到(第一次猜是1到16号球队吗?是。是1到8号球队吗?是。是1到4好球队吗,依此类推),那么“熵”值就是4比特(bit),即32的对数值。而实际中每支球队根据实力和往届记录赢球的概率是不一样的,加上每支球队赢球的概率就是熵值:

H = -(P1*logP1+P2*logP2+……P32*logP32)


四是知识,知识构建于信息之上,是对信息的规律性认识和应用。比如基于DNA数据得到基因突变信息,进而进行疾病诊疗的关联知识。知识包含生活中积累的知识、研究中发现的规律(当然,还包括女人的直觉,男人得佩服不是)。

信号—数据—信息—知识—决策。


图片来自:infogineering


再回到医生CHRISTOPHER HITCHENS 根据基因测序分析得到信息给乔布斯个性化给药的故事,我们试着简单地抽象一下:

  • 信号是体征——需要临床表型的表型标准化和核心表型选择;

  • 数据是DNA测序数据——需要测序样本、策略选择以及成本控制;

  • 信息是DNA测序数据分析得到的基因突变信息——需要从数据提取临床所用的信息;

  • 知识是基因突变功能注释验证后对应的分子标记靶点——需要基因数据(基因突变的信息)解读;

  • 决策是根据分子标记靶点来个性化给药——需要多方会诊协作、信息化管理。

信号:在基于基因测序等新兴技术的精准医疗快速发展的今天,基因检测在临床应用范围逐渐扩大、深入。各大城市的三甲医院在儿科、肿瘤科、遗传科等纷纷开展基因诊断项目、结合基因和传统诊断的“精准门诊”和“基因门诊”。基因检测技术,结合传统医疗的生理生化病理等检测的信号应用于临床诊疗。

数据:同时,作为最常用的基因数据产生的技术之一,基因测序,全基因组成本从2011的10,000美元到2015年的1000美金到2017年主要测序供应商号称迈入100美金(实际可能还需要一段时间)。据报道,国内批准的有近7款国产测序仪(包括华大基因的BGISEQ-500、BGISeq-50、BGISEQ-100和BGISEQ-1000、达安基因的DA8600、贝瑞和康的NEXTSEQ CN500、华因康的HYK-PSTAR-IIA、博奥生物的BioelectronSeq-4000等),上游基因数据生产开始打破1-2家垄断的局面。从信号转化为基因数据的成本逐渐进入标准化和平价。

知识:同时,精准医学进入“十三五”重点专项,科技部的“精准医学”专项近百万人群队列研究启动,中标单位除了科研机构和大学,39%为国内公立医院。近年政策大环境下兴起的互联网实体医院和民营医院也纷纷和各大基因检测公司合作引进基因检测技术。基因检测在罕见病诊断、肿瘤预防和检测、个性化用药以及预后评估等临床方面逐渐扩大应用范围。基因作为临床疑难杂症、肿瘤等顽固性疾病的预防、诊疗和康复管理提供了有力的决策辅助、甚至是突破性方法,是重要的医疗化知识之一。

笔者去年在培训百余位临床医生、以及和北京上海深圳等地三甲临床一线的医生沟通,在基因检测应用临床时存在一些痛点,包括基因检测的成本依然较高、数据分析过度依赖于第三方,数据解读和医学伦理不规范,没有形成成熟的临床路径。其中,数据的解读的规范化和标准化依赖于已知数据的训练集或者参考集,从而探索规律制定符合大样本的规则(信息的归纳,即知识),需要数据的积累,和时间。

信息:我们重点谈谈,把基因数据转化为信息的过程,也就是把百GB数量级的测序数据转化为医生看得懂的几行基因突变信息(SNP/INDEl/CNV/SV、染色体数目/结构异常等),在生物信息人才奇缺的情况下,如何让医生参与质控、快捷操作、并且让病人不用几十万花费、让行业把更多精力投入数据解读上呢?

国际上,DNAnexus、SevenBridges,Ingenuity等提供了可视化、模块化的操作界面、让临床机构和医生能够对数据进行掌控、参与质控。而在2015年,中国人类遗传资源管理工作办公室对于包括DNA测序数据在内的遗传元的出境有严格的规定(回复“遗传资源”可获得文件原文)。与此同时,国内的基因检测机构、云计算公司纷纷出台了国内的云平台,帮助医疗机构和医生进行基因数据的高效便捷的预处理。基因慧曾统计有近40家服务机构。“术业有专攻”,那么这40家里专注于基因数据计算的机构屈指可数,而其中根植于大数据背景的专注基因数据计算机构可数一二。


因为,这是为生命计算。“生命所系、健康相托”。


在基因慧组织的“基因三人行”之《生物云平台助力基因大数据》(点击详情)活动中,很有幸看到有一家公司恰好以“为生命计算”作为slogan(基因是生命的基础性数据)创始团队中有阿里巴巴友盟的首席数据科学家和阿里云的产品经理。这个团队曾和中国农科院等单位做了一个“云之稻”数据平台的公益项目,这是比尔盖茨基金会资助旨在为贫困地区培育“绿色超级稻”项目的后续数据分享,并且和西南医院医学遗传中心的团队合作开发了面向遗传病的基因数据管理平台。


在有些人眼里,IT行业,尤其是言必称的BATH(H:华为)依然比基因行业充满更多的诱惑。IT和BT行业的人才流动往往不是成比例,但,总有些人有着诗和远方的双向目标。


欣赏这样的初心和行动力,听说他们开发出一套方案,帮助临床医生和测序服务的机构完成从测序原始数据到基因突变信息转化的过程,在业内首次实现百元以下的人全基因组标准化分析服务,利用国际先进的工具、通过界面设计和算法优化,让基因测序数据转化为基因突变信息更加准确、快捷、成本可控,为之感到欣慰(点击“阅读原文”开启数据计算利器的入口)。


在标准和规划尚未成熟之前、一线的医生有权也有必要参与数据的质控。在5.6%出生缺陷,2500多万罕见病人群的民生环境下,老百姓有需要用得起基因技术。


因此感谢有这样一家机构,陪伴医生朋友、患者,让数据成为工具而不是阻碍。

也感谢金主对基因慧平台发展过程的支持。

期待基因慧的有心读者支持:有情怀的人、做专注的事。


如同视频里中讲到,解决大数据计算供需的痛点,“我们的征途是星辰大海”。点开左下角“阅读原文”,即开启99元云端人全基因组标准化分析的全新旅程。


基因慧用户专属福利:在最后一栏输入邀请码“GDKGC”,提交注册申请并通过审核的用户即可获得为期1年的100G免费存储空间


https://v.qq.com/txp/iframe/player.html?vid=l0380rva45x&width=500&height=375&auto=0



by the way,我很喜欢这位合作伙伴——GeneDock的招聘口号:


“生命本该浪费在美好的事物上”。




参考资料:

1. 吴军 《数学之美》P59-P62,人民邮电出版社,2012.6

2. https://www.forbes.com/sites/matthewherper/2011/12/16/christopher-hitchens-and-steve-jobs-mark-limits-of-dna-sequencing-technology/#65ee3d2d40f9

3. 俞庆《数据、信息、知识和价值的关系》

4. 经济日报《从大数据走向大知识》

5. https://zh.wikipedia.org/wiki/%E6%95%B0%E6%8D%AE

6. http://www.baike.com/wiki/%E7%86%B5

7. https://www.genome.gov/27541954/dna-sequencing-costs/



您可能还感兴趣的





声明

1. 以上内容是基因慧独立策划、编辑成文。版权属于基因慧,欢迎转发。转载请在文章首行显著注明:来源于基因慧。


2. 基因慧是一家第三方独立的精准医疗行业信息服务和知识服务公司我们秉持客观、严谨、中立的态度,从多方渠道收集并发布信息,供行业参考。但受收集当时信息公开的时效性,不同渠道存在不同见解,不能完全保证信息的完整性和准确性,不作为任何决策依据,仅供参考,如有错漏,欢迎指正。



行研、咨询、会议、品宣等服务:

电话:010-56527551 / 400-088-7466地址:北京市海淀区中关村大街1号官网:www.geneclub.net.cn邮箱:info@genonet.cn

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存