大数据与人工智能在罕见病领域如何应用？ | 专家讲堂 | 自由微信

大数据与人工智能在罕见病领域如何应用？ | 专家讲堂

原创：吕晖中国罕见病 2018-07-06

本文选取自“罕见病宣讲活动 ——《生命之美》”，根据吕晖教授的演讲报告整理而成，与大家分享。 ☞ 生命之美上海宣讲活动

吕晖教授，上海交大生物信息系特聘教授、系主任；上海市儿童医院生物医学信息中心主任

我们制作或拼装任何的东西，都需要一个“说明书”，比如拼装一家具，我们也需要看说明书。这个说明书绝大部分应该是正确的，但有时候可能会出现一点点错误，如果仍按照这个说明书拼装，就会出现一些问题。

那我们的人体里，其实也有类似的“说明书”，就在我们的基因里面。我们身体里约有百万亿个细胞，每个细胞里都需要有一个“说明书”，这个说明书实际上是一样的，而细胞里有23对染色体。

这个是谁发现的？其实是很多科学家，积累了多年的工作研究成果，在上世纪四十年代才得以确定。到五十年代，找到了DNA的结构；七十年代，终于有办法可以开始解读这个“说明书”。再往后，大家都知道，也就是很有名的“人类基因组计划”。这个“计划”是在做什么呢？也是在解读我们人体的“说明书”。基因到底是什么，如果把它全部印出来，实际上是一整大书架的书。23对染色体，也就可分23册。

人类基因组计划出来时，大家的期望值很高，我们把它印出来（解开全部基因的密码，绘制人类基因的图谱），就可以开始了解我们自己（破译人类生命的遗传信息）。这句话原则上是没错，但也碰到了些问题。比如这本书在2003年就摆在我们面前（人类基因组计划于1990年正式启动，2003年4月，中、美、日、德、法、英6国科学家联合宣布人类基因组计划顺利完成。），但是到现在为止，大家还在了解它的过程中。

那这本书的价格（人类基因组测序成本）是多少？第一本印出来时是30亿美元（人类基因组计划在启动时的预算约为30亿美元），后来价格逐步的下降，目前已经低至千元（美元）级别。但是读出来之后，我们还是不够了解。这里举一个例子，大概在2005年左右，它的价格还是在百万元的级别。大家都很熟悉的乔布斯，患上胰腺癌，他想检测一下自己的“说明书”，当然那时普通人是负担不起这个价格的，可他承受得起。（当时据《纽约时报》报道，乔布斯的传记中写到乔布斯曾花费10万美元，进行个人基因组测序。当时全世界只有20个人进行了DNA测序。）

这个说明书，对他的治疗有没有帮助呢？是有的，但是这个帮助并不是太大，至少也没有达到他预期的效果，他也是世界上前20个进行DNA测序的人。而到现在，“说明书”的价格已经降到了一千美元（单独的测序成本大概在一千美元，不过对外售价可能要高些），这时候就是普通人，可以说也能够承担得起。而实际上不同“说明书”的比较，能够让我们了解更多的信息，如此正是“人人为我，我为人人”的状态。所以现在的患者，就有更多的比对办法，能够寻找更好的诊断、治疗手段。

再来看罕见病，为什么这么难？大家也知道，我们有30亿个“字母”（30亿个碱基对），23套“全书”（23对染色体），但实际上在很多情况下，哪怕只有一个错译，就会导致很大的变化，如在镰刀型细胞贫血症，有一些情况，它不是写错了，而是抄的时候，多抄了一段，这也会导致严重的疾病。

要读懂这个“说明书”有多重要？现在使用大数据和人工智能的算法，已经有了很大的进步，我们要做的就是在这基因里边，发现一些变化，通过相关有效的计算，判断哪些（变化）是正常的，哪些是有问题的。借助各类算法，使用多种知识库。我们要用各种办法来加速工作研究，也就是说先要收集非常多的数据，包括影像数据、表型数据、医院的处方数据，当然也包括我们的基因数据，以各种算法关联起来，最后形成我们的知识库，以帮助医生、病人。

在近几年人工智能的发展迅速，而我们做这个大数据、人工智能分析，更想用的是，把它应用在医疗健康领域、包括脑部图像、基因组的解读等，这是我们更关心的，也觉得是更有价值的。

而在我们这个领域，其实很早就开始使用了，比如老年性黄斑病变，这是一种遗传病，患者眼里看到的东西和正常人有些不一样。我们把患者的基因与没有这些疾病的人的基因进行比较。通过比较，发现患病的人和正常的人（在基因上）是有些区别的。我们检验那些不同的变化是不是致病的原因，如在2005年，用这种方法推测出了四个基因的位点是跟这个病（老年性黄斑病变）有关系的，现在这一类的方法，已经比较常见，这样的研究也在继续推进。

而大数据还能做什么？像谷歌，它可以用这个大数据进行搜索，甚至判断是否感冒，但这种判断有它的局限性，比如后来发现不太准确，大数据的分析不是一成不变的。在罕见病领域，国内有很多相应的公益事业，而在国外也有一个网站叫PatientsLikeMe，其实也是一个服务于罕见病群体的组织。

他们收集起各种疾病的患者数据，形成网络（数据库）。在诊治患者使用数据分析、人工智能时，就可以借助这些疾病的网络（数据库），判断出他可能是什么病，哪一种治疗方式比较合适。

另外大家也知道，肠道菌群也越来越受到关注。在医院里，医生做了这样一种相关的分析，在治疗小孩的肠胃炎，还有一些疑难的病症时，可以利用这个菌群的移植，移植进去后，发现对治疗的效果很有帮助，所以我们用数据分析跟踪，到底是哪一些菌群发生了变化。

我们的知识库，一方面是“表型知识库”，就是描述病人到底有什么样的性状特征，另外一部分是我们的“基因知识库”，我们的目的就是从基因里如何能了解这个表型，比如我们把所有与疾病相关的基因都关联起来，然后形成一个“矩阵”——“关联矩阵”，就是每一个病跟其他的病有什么关系。

比方说，我们把在这个大矩阵里，拿出一小块放大，看到一些位点，发现以前认为不相干的病，其实在基因层面，它们有一些关联性。像疟疾和肿瘤，就发现它们的关联很大，而也有人做过流行病学调查，发现它们两个是有关联性的，而且还有医生用治疗疟疾的药物在胰腺癌治疗中进行过尝试，取得一定效果。

再有如偏头疼，跟大肠癌也有强相关性，但目前还没有看到流行病学方面的调查，然而这也可以提醒大家，健康生活方式的重要性，不要工作太晚、不要熬夜。所以像这样一些有趣的现象，都可以通过数据分析而发现，这类数据也是大家辛勤的工作、研究，逐渐积累起来的成果。

回到罕见病，大家可以再思考，为什么这么难做？要知道罕见病有七千种，但实际上它的表型远不止这个数，大约有一万三千种。所以我们在诊断疾病时，犹如“大海捞针”。我们每个人不一样的大概在“五百万”的级别（每个人大约含有五百万个不致病基因变异，但只要有一个致病变异就可导致疾病。），这里边也形成了我们大家的不一样的地方，如长相、个头儿不一样，这些都是正常的，但是如果你想在“五百万”里找到某个可能导致疾病的，这就成了一个难题。这是基因层面，如果从表型层面看，这也是一个大数据的问题。

比如智力发育迟缓的症状，现在已知的就有两千种疾病是跟它相关的，涉及到400-500种基因，对一个医生来讲，这是一个非常艰巨的任务，怎么在这么多种疾病，这么多种基因里进行诊断，而这个大数据和人工智能，就能够帮助到医生。

我们的知识都是来源于学习，人工智能也得靠学习，也不能无中生有，所以从已知疾病出发，我们找到这个已知的基因型、已知的表型，然后进行关联分析以推测、判断。我们自己有一个系统——GPS（遗传辅助诊断系统），其实就是相当于给医生一个辅助或指导，我们有知识库、病例库、基因型库，还有一个自己的算法，能够帮助大家。这就是说基于罕见病，如果医生看到一个病人，出现的几种症状，我们就放在计算的引擎里，给医生做一个推荐。

在我们的交大，或者在其他地方也是一样，有一个标准的超算中心，来实现这样的计算，像我们现在的记录，可以在15分钟内，把测出来的基因组数据，把你的变异全都给识别出来，然后再以5分钟的时间，搜索已知的知识库，但是我们还希望能更快、更准，这也需要大家的支持和更多的积累。

另外我们做了一个项目，叫“儿童健康协作云”，就希望把各个医院的数据，都作为一个标准的（数据）库，当诊治一种疾病时，能在各个医院之间进行相关数据的搜索，这样才能更准地帮助到医生，帮助到病人！

基因大数据与人工智能，能把我们带入全面了解自己、了解人类的全新时代！

扫描二维码进行患者登记

欢迎投稿

邮箱：info@cord.org.cn

☟

小编微信：CORD17

精彩回顾

1.刘德华、古天乐、尔冬升等19位港星在呼吁什么？ | 第37届香港电影金像奖典礼“罕见预告版”

2.美国众议院通过“尝试权”法案：你必须知道的10件事

3.有你参与，更加精彩 | 罕友活动预告