大数据与人工智能在罕见病领域如何应用? | 专家讲堂
本文选取自“罕见病宣讲活动 ——《生命之美》”,根据吕晖教授的演讲报告整理而成,与大家分享。 ☞ 生命之美上海宣讲活动
吕晖教授,上海交大生物信息系特聘教授、系主任;上海市儿童医院生物医学信息中心主任
我们制作或拼装任何的东西,都需要一个“说明书”,比如拼装一家具,我们也需要看说明书。这个说明书绝大部分应该是正确的,但有时候可能会出现一点点错误,如果仍按照这个说明书拼装,就会出现一些问题。
那我们的人体里,其实也有类似的“说明书”,就在我们的基因里面。我们身体里约有百万亿个细胞,每个细胞里都需要有一个“说明书”,这个说明书实际上是一样的,而细胞里有23对染色体。
这个是谁发现的?其实是很多科学家,积累了多年的工作研究成果,在上世纪四十年代才得以确定。到五十年代,找到了DNA的结构;七十年代,终于有办法可以开始解读这个“说明书”。再往后,大家都知道,也就是很有名的“人类基因组计划”。这个“计划”是在做什么呢?也是在解读我们人体的“说明书”。基因到底是什么,如果把它全部印出来,实际上是一整大书架的书。23对染色体,也就可分23册。
人类基因组计划出来时,大家的期望值很高,我们把它印出来(解开全部基因的密码,绘制人类基因的图谱),就可以开始了解我们自己(破译人类生命的遗传信息)。这句话原则上是没错,但也碰到了些问题。比如这本书在2003年就摆在我们面前(人类基因组计划于1990年正式启动,2003年4月,中、美、日、德、法、英6国科学家联合宣布人类基因组计划顺利完成。),但是到现在为止,大家还在了解它的过程中。
那这本书的价格(人类基因组测序成本)是多少?第一本印出来时是30亿美元(人类基因组计划在启动时的预算约为30亿美元),后来价格逐步的下降,目前已经低至千元(美元)级别。但是读出来之后,我们还是不够了解。这里举一个例子,大概在2005年左右,它的价格还是在百万元的级别。大家都很熟悉的乔布斯,患上胰腺癌,他想检测一下自己的“说明书”,当然那时普通人是负担不起这个价格的,可他承受得起。(当时据《纽约时报》报道,乔布斯的传记中写到乔布斯曾花费10万美元,进行个人基因组测序。当时全世界只有20个人进行了DNA测序。)
这个说明书,对他的治疗有没有帮助呢?是有的,但是这个帮助并不是太大,至少也没有达到他预期的效果,他也是世界上前20个进行DNA测序的人。而到现在,“说明书”的价格已经降到了一千美元(单独的测序成本大概在一千美元,不过对外售价可能要高些),这时候就是普通人,可以说也能够承担得起。而实际上不同“说明书”的比较,能够让我们了解更多的信息,如此正是“人人为我,我为人人”的状态。所以现在的患者,就有更多的比对办法,能够寻找更好的诊断、治疗手段。
再来看罕见病,为什么这么难?大家也知道,我们有30亿个“字母”(30亿个碱基对),23套“全书”(23对染色体),但实际上在很多情况下,哪怕只有一个错译,就会导致很大的变化,如在镰刀型细胞贫血症,有一些情况,它不是写错了,而是抄的时候,多抄了一段,这也会导致严重的疾病。
要读懂这个“说明书”有多重要?现在使用大数据和人工智能的算法,已经有了很大的进步,我们要做的就是在这基因里边,发现一些变化,通过相关有效的计算,判断哪些(变化)是正常的,哪些是有问题的。借助各类算法,使用多种知识库。我们要用各种办法来加速工作研究,也就是说先要收集非常多的数据,包括影像数据、表型数据、医院的处方数据,当然也包括我们的基因数据,以各种算法关联起来,最后形成我们的知识库,以帮助医生、病人。
在近几年人工智能的发展迅速,而我们做这个大数据、人工智能分析,更想用的是,把它应用在医疗健康领域、包括脑部图像、基因组的解读等,这是我们更关心的,也觉得是更有价值的。
而在我们这个领域,其实很早就开始使用了,比如老年性黄斑病变,这是一种遗传病,患者眼里看到的东西和正常人有些不一样。我们把患者的基因与没有这些疾病的人的基因进行比较。通过比较,发现患病的人和正常的人(在基因上)是有些区别的。我们检验那些不同的变化是不是致病的原因,如在2005年,用这种方法推测出了四个基因的位点是跟这个病(老年性黄斑病变)有关系的,现在这一类的方法,已经比较常见,这样的研究也在继续推进。
而大数据还能做什么?像谷歌,它可以用这个大数据进行搜索,甚至判断是否感冒,但这种判断有它的局限性,比如后来发现不太准确,大数据的分析不是一成不变的。在罕见病领域,国内有很多相应的公益事业,而在国外也有一个网站叫PatientsLikeMe,其实也是一个服务于罕见病群体的组织。
他们收集起各种疾病的患者数据,形成网络(数据库)。在诊治患者使用数据分析、人工智能时,就可以借助这些疾病的网络(数据库),判断出他可能是什么病,哪一种治疗方式比较合适。
另外大家也知道,肠道菌群也越来越受到关注。在医院里,医生做了这样一种相关的分析,在治疗小孩的肠胃炎,还有一些疑难的病症时,可以利用这个菌群的移植,移植进去后,发现对治疗的效果很有帮助,所以我们用数据分析跟踪,到底是哪一些菌群发生了变化。
我们的知识库,一方面是“表型知识库”,就是描述病人到底有什么样的性状特征,另外一部分是我们的“基因知识库”,我们的目的就是从基因里如何能了解这个表型,比如我们把所有与疾病相关的基因都关联起来,然后形成一个“矩阵”——“关联矩阵”,就是每一个病跟其他的病有什么关系。
比方说,我们把在这个大矩阵里,拿出一小块放大,看到一些位点,发现以前认为不相干的病,其实在基因层面,它们有一些关联性。像疟疾和肿瘤,就发现它们的关联很大,而也有人做过流行病学调查,发现它们两个是有关联性的,而且还有医生用治疗疟疾的药物在胰腺癌治疗中进行过尝试,取得一定效果。
再有如偏头疼,跟大肠癌也有强相关性,但目前还没有看到流行病学方面的调查,然而这也可以提醒大家,健康生活方式的重要性,不要工作太晚、不要熬夜。所以像这样一些有趣的现象,都可以通过数据分析而发现,这类数据也是大家辛勤的工作、研究,逐渐积累起来的成果。
回到罕见病,大家可以再思考,为什么这么难做?要知道罕见病有七千种,但实际上它的表型远不止这个数,大约有一万三千种。所以我们在诊断疾病时,犹如“大海捞针”。我们每个人不一样的大概在“五百万”的级别(每个人大约含有五百万个不致病基因变异,但只要有一个致病变异就可导致疾病。),这里边也形成了我们大家的不一样的地方,如长相、个头儿不一样,这些都是正常的,但是如果你想在“五百万”里找到某个可能导致疾病的,这就成了一个难题。这是基因层面,如果从表型层面看,这也是一个大数据的问题。
比如智力发育迟缓的症状,现在已知的就有两千种疾病是跟它相关的,涉及到400-500种基因,对一个医生来讲,这是一个非常艰巨的任务,怎么在这么多种疾病,这么多种基因里进行诊断,而这个大数据和人工智能,就能够帮助到医生。
我们的知识都是来源于学习,人工智能也得靠学习,也不能无中生有,所以从已知疾病出发,我们找到这个已知的基因型、已知的表型,然后进行关联分析以推测、判断。我们自己有一个系统——GPS(遗传辅助诊断系统),其实就是相当于给医生一个辅助或指导,我们有知识库、病例库、基因型库,还有一个自己的算法,能够帮助大家。这就是说基于罕见病,如果医生看到一个病人,出现的几种症状,我们就放在计算的引擎里,给医生做一个推荐。
在我们的交大,或者在其他地方也是一样,有一个标准的超算中心,来实现这样的计算,像我们现在的记录,可以在15分钟内,把测出来的基因组数据,把你的变异全都给识别出来,然后再以5分钟的时间,搜索已知的知识库,但是我们还希望能更快、更准,这也需要大家的支持和更多的积累。
另外我们做了一个项目,叫“儿童健康协作云”,就希望把各个医院的数据,都作为一个标准的(数据)库,当诊治一种疾病时,能在各个医院之间进行相关数据的搜索,这样才能更准地帮助到医生,帮助到病人!
基因大数据与人工智能,能把我们带入全面了解自己、了解人类的全新时代!
扫描二维码进行患者登记
欢迎投稿
邮箱:info@cord.org.cn
☟
小编微信:CORD17
精彩回顾
1.刘德华、古天乐、尔冬升等19位港星在呼吁什么? | 第37届香港电影金像奖典礼“罕见预告版”