查看原文
其他

我们花了一个多星期,找到一个叫FLT3的致病基因,开出处方,然后奇迹发生了

SELF格致论道讲坛 SELF格致论道讲坛 2019-06-30

精准医疗,已经是我们所熟知的名词,然而对大部分人来说,精准医疗究竟怎么精准,还是一个很模糊的概念。从海量的基因数据中,找到关键的致病基因,其实最重要的环节之一就是高性能计算,通过它的计算和分析结果,我们才能得到精准治疗的策略。来自中国科学院计算机网络信息中心高性能计算技术与应用发展部的牛北方副主任,将为大家讲述他所从事的高性能计算与精准医疗的故事。


牛北方

中国科学院计算机网络信息中心

高性能计算技术与应用发展部副主任


以下内容为牛北方演讲实录:


大家知道,人体有3.7x1013个细胞,包括各种器官和组织的细胞,比如肌肉细胞、骨髓细胞、肺细胞等,它们的种类和细胞profile(外形)都是不同的。除了细胞,还有我们人体的微环境,主要是细菌等。有些人吃很多但始终不胖,有些人喝点水也会胖,这就与我们人体的微环境有关。大家别小瞧细菌,因为人体微环境里,细菌的种类和数目比我们人体细胞的种类还多。

 


正因为人体有那么多的细胞和细菌,所以人类的基因组是一个非常庞大的数据。人类基因组大概有3G的数据量,也就是说,由ACGT四个字符组成的这个长长的字符串,容量大概是3个G。


大家可别小瞧这3个G,为了这3G的数据,全世界的人为此努力了十年。花了多少钱呢?花了3个G的美元!也就是每个字符就花了一美元。全世界的科学家一起努力,直到两千零几年,才完成了人类基因组的破译。这个数据到底有多大,大家可能没有概念,下面举一个例子来说明一下。

 


我国开展了万人基因组研究,其中有个比喻,如果把1PB基因组数据的字符串打印成新华字典,大概能打满6.67亿本新华字典。如果把6.67亿本新华字典排满一栋11层高2000平米/层的大楼,大概需要5.68栋这样的楼,才盛得下这么大的数据。

 

这么大的数据对医疗有什么意义呢?

 

我们看看现在的医疗情况。现在去医院看病,通常是千人一刀,万人一药。比如你感冒了,可能只有一种药或者几种药来治。那所有人都用一样的药有问题吗?简单的病,抗生素或者感冒药都可以解决,但是面对复杂性疾病,可能就有问题了。

 


曾有这样一篇文章,题目叫《不精准医学,这是Nature发表的一篇文章,介绍现在的医疗和用药现状,其中提到传统医疗用药的情况。


上面这张图上有十种药,蓝色表明吃了有效果,红色表明吃了没效果。大家会看到,第一种药五个人,有四个人吃了没有效果,只有一个人吃了有效,似乎还可以接受;第二种药,25个人吃,但是也只有一个人有效,这说明这种用药是非常不精准的。

 

大部分人吃了药并没有产生效果,这个问题已经存在了很多年,非常严重。2015年1月,奥巴马总统提出了精准医学计划。大家看照片,他旁边有一个双螺旋模型,他呼吁国会投入2.15亿美元来开展精准医学研究,目标就是要做到精准用药、精准治疗。

 


奥巴马总统大家可能比较熟悉,但是大家知道这个小女孩么?他为什么要把这个小女孩拉到讲台上去,呼吁国会开展精准医学计划呢?


这个小女孩叫Elana Simon,她高中的时候得了纤维板层肝细胞癌。很遗憾当时没有很好的治疗方法,这个小女孩就立志要自己研究这种疾病。后来她考上了哈佛大学医学院,在这里她开始对这种肿瘤进行研究。非常幸运,她找到一个非常有用的靶点,就是gene fusion

 

什么是gene fusion呢?就是两个基因融合在一块儿了,这就是她得纤维板层肝细胞癌的一个非常重要的因素。这也是为什么奥巴马会把Elana Simon拉到讲台上,呼吁国会进行精准医学研究的原因。

 


精准用药的现状到底是什么样子呢?举一个简单的例子,这里有一种非常常用的镇痛药,如果你的体内携带某种基因变异的话,这个药就会对你有效,但是如果体内没有这种基因变异的话,这种药就是无效的。

 

还有一种情况,这种药它适合A不适合B,适合欧洲人但是不适合亚洲人。由于我们技术水平和研究水平的限制,很多药都是美国或者欧洲这些大的制药公司生产的,所以说这也是精准用药目前不准确的现状。

 


精准治疗的现状又是什么样呢?大家都知道肿瘤,一听肿瘤大家都比较恐惧,现在治疗肿瘤的手段也确实很有限。如果某一个人得了肿瘤,不做精准治疗的话,很可能就是常规化疗,这就很容易出现耐药。如果我们能通过数据分析知道肿瘤到底是什么情况,就可以采取一些精准的化疗手段。

 


通过上面的情况,我们可以看到,我们目前的精准用药和精准医疗还不尽人意,这就需要高性能的数据计算能力来支持,通过对大数据的计算,我们才能得到精准治疗的策略。


为什么这么说?一万人的基因组数据量是100PB,它包含了基因组学、影像学等各种各样的数据,需要十万台PC机的存储能力。光存储这些数据也是没用的,我们要找到导致疾病的基因,我们还要解析,我们怎么做呢?



首先我们要进行基因组测序。现在我们还没有能力把人体基因组3G的字符串一下读出来,只能读出很短的一段,比如100~200个字符。这样,就面临了一个首要的计算问题——怎么把这些片段数据拼装起来,把它连成一个完整的3GB字符串?


这个问题用人工的话,一堆人对着一堆数据怎么办?肯定解决不了。如果用个人电脑的话,大概需要几百年的时间,而用高性能计算机,只需要几分钟。这就说明精准医学的研究,特别是致病基因的研究,需要高性能计算来参与,离开高性能计算我们解决不了问题,特别在数据爆炸的时代。



举两个简单的图片来说明高性能计算的性能。我们平常用的PC机只有一个CPU,但是高性能并行机,有上万个CPU,所以解决问题速度非常快。


但是会产生另外一个问题,这么多CPU怎么一块儿做事儿?我们应该怎么分解任务?在简单的情况,我们可以把任务分解成几块,复杂的情况还可以把任务分成多块,比如几百万块,这样才能做到几分钟把基因数据给解析出来。


大家可能比较疑惑,精准医学的数据分析到底是如何做的?怎么找到肿瘤的致病基因,比如说靶点?过程是什么样子的?

 


大家可以看到上面有一个肺部图片,蓝色部分是正常的肺组织,红色是肺表面的肺肿瘤组织,那么我们怎么做的?照片上的女老师是我在美国所在研究所的领导,她是世界上第一个发明一种特殊的方法找到肿瘤致病基因人,也是世界著名的计算基因组学专家。

 

她发明的这种方法,就是把肿瘤组织和正常组织提取出来,进行基因组测序。这两套数据测出来以后,再进行比对。比对以后,你会发现,正常的肺组织里边,没有发现变异位点,但是在肿瘤组织里边,我们发现了变异位点。


根据这些位点,我们开出一个处方。比如我们找到RB1这个位点基因,然后我们根据这个基因得到一个处方,也就是Rx。这就是利用数据分析计算手段来解决肿瘤治疗问题的整个过程


 

跟大家分享我亲身经历的一个例子。上面有我的一张照片,我旁边的,是我的同事Dr.Lucas博士。他在未成年的时候得了白血病,也就是我们平常说的血癌。这种病在我国儿童里,发病率也非常高。幸好他有个弟弟在他未成年的时候给他做了骨髓移植。


从医学上来讲,他缓解了。什么叫缓解?就是说好了,暂时没有病。但是后来,在华盛顿大学基因组研究所和我当同事的时候,白血病复发了。成人的白血病如果复发,基本上就是要死掉,也就是说存活率非常低。

 

这时正赶上我们用计算技术来解决这个问题。我们研究所有一个血癌基因组学顶级专家,就是上图中间那个老先生,也是我们基因组所的另外一个领导


当时Lucas的病情已经非常严重了,老先生说,我们何不用我们自己的计算技术和研究所的资源来试一下,说不定可以找到救他的方法。

 

我们对Dr.Lucas  博士进行三套数据的测序。第一套测序是全基因组的测序。进行全基因组测序以后,没有找到任何有意义的靶点。然后又对 Dr.Lucas 进行转录组的测序,也没有找到任何对他个人有特异的靶点,我们都很沮丧。


之后,我们又对Dr.Lucas 进行了表达组测序,利用计算技术、数据分析技术,大概花了一个多星期的时间,我们找到一个叫做FLT3的基因。我们发现,这个基因的表达和其他基因的表达差距非常大。

 

其他基因的表达都是非常平缓的,FLT3基因的表达是非常高的,我们把这个信号输入我们自己的开发的一套计算系统,也是DGIdb的选药、筛药和治疗方案的一个自动化的系统,我们找到了一种药,这种药叫索坦(Sutent)。



这种药目前在国内已经上市了,但是当时还在FDA进行临床实验,还没有上市。我记得我们全所的人捐款向FDA申请走绿色通道把这种药买回来给 Dr.Lucas,吃完以后奇迹发生了,他的发烧什么都没有了,然后他就好了。

 

这个例子也登到了华盛顿邮报,到现在(2016年)已经五年了,他现在还好好的。他现在一方面带着实验室学生做研究,同时他也在满世界跑,去宣讲他自己的案例。

 


另外一个例子是现在非常火的肿瘤免疫治疗。什么是免疫治疗呢?就是用免疫细胞把癌细胞吃掉,把自身的免疫系统加强。



美国总统卡特得了黑色素瘤,而且是晚期。当时情况比较危险,因为黑色素瘤已经转移到他的脑部 。美国的免疫治疗是走在全世界前列的,他们对卡特总统进行各种免疫疗法,现在转移到脑部的这个肿瘤已经完全没有了。

 

其实免疫疗法也是需要高性能计算来支持的。现在有两种方法,一种方法就是我们把肿瘤病人的免疫细胞,拿出来进行体外培养。简单说就是选身体素质非常好的细胞,把它集中在一起进行体外培养,培养完再把这种免疫细胞输入到病人体内,然后对癌细胞进行攻击。

 

另外一种方法是,用一种叫做PD1的药——世界各大药厂比如辉瑞、葛兰素史克都有自己的PD1。它是一种抑制剂,可以切断免疫细胞和肿瘤细胞之间的连接,进而可以攻击癌细胞。



上面是讲了一些高性能计算在基因和靶向治疗领域的应用,其实高性能计算在其他领域的应用也很广泛。

 

比如天气预报领域,可以用来画天气网格。网格画的越小说明参与计算的CPU个数越多,计算速度越快,我们就可以得到一小时甚至几分钟的天气情况。


另外一个应用就是核武器的数值模拟。大家知道,现在核武器是不能做实际爆炸实验的,这就需要我们用高性能计算去模拟核武器的爆炸。

 


另外一个就是航天领域。目前国内飞机的发动机水平还是相对落后的,现在我们利用高性能计算来辅助飞机进行外形、材料、噪声、控制方面的设计。

 

还有高铁。大家知道高铁能跑三百公里,但是你可能不知道,每增加一公里,它造成的湍流对周围的影响以及对运行安全的影响都不是线性的,危险系数非常高。我们也会利用高性能计算,来模拟湍流的情况。

 


另外一个就是高性能并行机本身的研究。上图这三个机器都是美国的机器,大家可以看到漂亮的布线、刀片,布满全身的水管。为什么要插满水管呢?因为需要散热,就像我们平时用的电脑和笔记本,你会看到它的风扇在呜呜运转,就是在帮助散热。高性能并行机,不仅需要这样的风扇,还需要一些水冷,也就是把凉水遍布到全身进行降温。



最后给大家讲一个极具民族自豪感的事情——就是神威太湖之光,它是到目前为止(2016年)全球最快的超级计算机,也是我们国家自主产权的超级计算机。原来我们的高性能并行机核心CPU用的是国外的,但是现在从内部核心CPU,到系统架构,到整个网络的设计都是我们国家自主创新生产的,并且计算速度在全世界排名第一。


希望高性能计算机可以帮助我们国家走得更远,在国民经济的各个主战场上发挥更大的作用。谢谢大家!

推荐阅读

(点击图片直达原文)

SELF讲坛全称“SELF格致论道”讲坛,是中国科学院全力推出的公益讲坛,由中国科学院计算机网络信息中心和中国科学院科学传播局联合主办。SELF是 Science, Education, Life, Future的缩写,旨在以“格物致知”的精神探讨科技、教育、生活、未来的发展,尝试打破过去纯粹以“知识传播”为主的科普形式,专注于思想的传播,力图从思想的源头上促进公众参与科学的积极性。关注微信公众号SELFtalks获取更多信息




    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存