遗传学家许田:当生物医学遇到AI
海归学者发起的公益学术平台
分享信息,整合资源
交流学术,偶尔风月
许田
遗传学家
生长调控领域的主要创始人
西湖大学教授
美国耶鲁大学兼职教授
当生物医学遇到人工智能会发生什么事情?许田教授认为,生物医学+人工智能,这将是人类历史上,最猛烈的一次科技革命。这可能要彻底改变所有人的生活和命运,回避不掉。
本次许田教授代表西湖大学到贵阳参加未来杯 AI 挑战赛启动仪式暨未来科技主题讲座,发表了《生命科学与人工智能》的主题演讲。
今天,来跟大家讨论这个题目,就是当生物医学遇到人工智能会发生什么事情?
我们先来看一看,乔布斯临终遗言,跟他的儿子讲说“你要学一点生物医学”。为什么?我们来看看,这是2000年的时候,法国的经济学家总结科技和经济和社会发展的关系。你看到了什么呢?看到了在人类近代历史上,人类社会有一波又一波的科技革命来推动社会的变化。从1771年瑞秋欧可莱在英国纺织推动工业革命开始,然后奔驰的汽车、石油工业,到现在标志的计算机革命。我们现在听到的看到的都是计算机革命,微软、谷歌、阿里巴巴都是。为什么?这些在改变我们的生活,改变我们的生命。那么下一波是什么?下一波就是生物科技。1976年两位科学家发明基因克隆开始标志着生物科技革命的开始。所有的这些科技革命都有个特点,三十年缓慢的孵化,三十年以后快速推动经济发展和社会发展。大概六十年左右,这个技术已经老化,已经不大产生新的推动力了,没有例外。那么计算机的话大概还有十到十五年是快速的。
生物科技已经过了三十年的缓慢增长期,进入了十年的快速增长期。再下一波革命是什么?再下一波革命就是以深度学习为标志的人工智能。已经从八十年代初开始三十年,正好你们可以看到现在开始热门起来。特别是当这两波科技革命连到一起的时候,生物医学和人工智能连到一起的时候,这个力量是无与伦比的力量。
大家可能都知道,深度学习已经把围棋冠军给打败了。我最早关注深度学习人工智能的事情是在2012年,当时美国的新闻报道斯坦福大学教授做了新的计算机,自己可以学习认识到一只猫。当时我一听,觉得这简直是最激动人心的事情。虽然我是搞生物的,没有学过计算机,数学基础也很差,但我觉得这是我一定要做的东西,所以重新回去学数学,学计算机。学下来的结果,我跟大家分享一下,是不是因为深度学习打败了围棋世界冠军,是因为它算得快,是因为它容量打,不完全是这个原因。因为要能够完全计算的话,要围棋穷尽计算法的话,要10的10万次方,我们的宇宙最多是10的80次方左右。有了彻底的改变。因为现在深度学习这个东西,更像人的智能了。
我们来看看怎么回事。现在深度学习人工智能是模拟了哺乳动物视神经系统处理信息的方法。哺乳动物怎么处理信息?当一个光子打我们眼睛上的时候,在我们的视网膜上投视,视网膜上有几层神经细胞,最后面的神经细胞接受光子的信号,然后把这个信号传到二级神经细胞,成为双级细胞,双级细胞又把信号汇总传到基细胞,然后才到脑子里面。这个过程是信息简化的过程,合并简化,不是把所有光子的信息直接传到大脑,要不然太多了,而是在视网膜的地方就处理信息,然后往后传。这个处理信息的方法,以及这些神经细胞连接的权重的改变还可以实现很多其他对信息的处理。比如说对重要信息的抽提,比如边界效应,比如你看我这个衣服,这里都是黑的不太重要,哪里重要?黑的和衬衫的边缘这非常重要,把这个边界效应都提出来了,把重要的信息给提出来了。
所以在八十年代初,有计算机学家说,我们能不能把芯片按照视神经网络的神经细胞的方法连接起来,看看能做什么事情。当时搞计算机的人不屑一顾,说解决不了问题。在2006年的时候杰弗瑞亨顿发表了一篇文章,他说把计算机按哺乳动物视神经连接起来的计算机芯片,能够处理复杂信息,能够简化。所以这之后,最敏感的是谷歌。他们就用深度学习深神经网络的方式来处理图像。用计算机神经网络怎么样构建出来的?很简单的话,可以说神经网络或者是基点有一定的权重,可以用数学模型模仿出来。
但是,如果说这个计算机神经网络非常复杂的话,没有办法用简单的数学模型来模拟。这怎么做呢?
接下来就牵涉到另外一个重要的准则,人的智能的重要准则。我们来看看人的智能有几个简单的特性。哪几个简单特性?第一,要感知外面的信息,感觉到。第二,要能够处理信息并进行学习。第三,要把学到的东西记住。第四,新的信息进来的时候,通过你学到的原则来处理新的信息进行判断。这是人类智能的基本特征。这个基本特征还有几个重要的过程,怎么来获得?
第一,学习。第一类学习是叫知道学习。你小的时候开始老师告诉你一加一等于二,你就记住了,你也不问为什么,一加二等于三,做大量的练习来记住这个准则。你父母告诉你不要乱穿马路,为什么,你就记住了,你穿马路就撞死了,基因传不下去,所以不穿马路就记住了。这是什么,这是知道的学习。接下来,当你年纪比较大一点的时候,你开始自学。开始自己学习归纳出规律来,然后在实践中不断总结,说这个东西对不对,这是自己学习。在这个过程中,有知道的学习和自学的过程中,还有一个重要的原则就是奖惩原则,你学得对了得到奖励。学校里面考试考得成绩好了,父母给你做点好吃的,正好你加强了。你学得不对了,会受到惩罚。这是人类学习的基本准则。
要构造计算机神经网络怎么做呢?一模一样。第一,用大量的习题来练习、学习,然后用大量的数据来验证学得对不对,学得对了,把这个传输固定下来,学得不对就改了,不断地学习来构成神经网络。最后,谷歌在2014年构建了24层的神经网络来处理信息,开始图像,当信息一层层传上去的时候,边界效应出来了。再往后传,整个图像出来。所以,谷歌发现用这个方法已经能够打败人的识别。
所以在这之后,马上最敏感的产业界,IT届现在苹果手机就是用这个来识别。
可以看到,语音识别已经包括用来进行图像识别的人脸识别等等。现在你们已经看到了许多应用,我今天来讲讲生物医学的应用。
我们先是做什么?我们先是来研究出这个小宝宝(图片),你们为什么觉得小宝宝很有吸引力。大家知道为什么小宝宝看起来就很有吸引力?我已经听到有说眼睛比较大,非常对。小宝宝一定要长得有吸引力,大家才会保护,才会呵护,他才能有健康的环境成长。眼睛大,面孔上的比例眼睛大。可以看到迪士尼卡通片的艺术家们非常明白这个道理,卡通片里都是大眼睛。我们最可爱的国宝,也是有大眼睛。我们这里很多在座的,他也知道这个原理,眼睛要大的话就有吸引力。
我们研究生物体的尺寸。生物体所有的器官都有一定的尺寸,为什么?对它的功能非常重要。如果你两条腿,一条腿,如果你捡一张纸板放在一条腿下,马上感觉就不一样。即使差别只有一厘米,影响都很大。发育过程中,怎么样使两条腿怎么样一模一样长,不一样长,你就跑不快,在以前你就会被吃掉。你要追男女朋友的时候也追不上,以前就是用腿追的,现在是用智力来追了。生物学的问题,为什么长一模一样长。
另外,看看在芸芸众生,我们这个世界一眼望去都有不同的尺寸。蚂蚁再给它吃也长不成大象。所以我们实验室研究,到底什么生物学过程决定了它的尺寸?如果这些控制尺寸的基因生长找到了,如果这些基因突变,如果生长调控失调会怎么样,就长肿瘤。这是我的一个学生和博士后,他们当时发现了调控这个东西是直接引起肿瘤的原因。
接下来,我讲讲,用识别图像的神经网络。另外还有一类神经网络,来处理语言和信息文字。这两类能不能利用到生物医学上,图象处理显然能,眼睛的疾病也是图象识别就可以了。但是绝大多数的生物医学的信息并不是图像。比如说基因的表达,分子,就不能用图像识别和语言识别。怎么办?最近我们实验室有了突破,新的类的神经网络可以来处理这些分子生物学的复杂信息。
我们建了一个,把两万个人的样本,每一个样本都有基本表达,有24000个基因表达,乘上2万,这就是数据量。我们建立这个来进行训练,想办法要把人类基因表达的形状能够抽提出来,能够简化,能够分析这个复杂数据。这个结果是非常成功的。
第一,这个神经网络建了之后,它能不能有效还原这个数据?结果发现能够。这是没有发表的结果,希望大家也不要拍照,这都是没有发表的。你可以看到它的还原结果非常好。
第二,如果说这个信息处理非常成功的话,那么如果一个样本是从皮肤细胞来的,另一个样本是从肝脏细胞来的,它应该能够区别这两者的差别。如果两者都是从皮肤细胞来的,它们应该非常类似。当我们用神经网络把这个信号变成三四维时,我们把它投影到二维图像时,看到确实如此,一样的组织来的细胞,同样颜色,在同一个位置,不一样的在不同位置。接下来我们问,能不能把癌症细胞区别开来?确实如此,能够区分开。
接下来,我们又做了什么?我们又做了,有指导的训练,告诉他这是肿瘤,能够做癌症的鉴定。做出来的结果非常好,可以看到90%以上的准确度。这是非常厉害的。耶鲁病理系的教授,十年工作经验,对癌症的诊断准确度大概80%。可以看到人工智能的力量是非常强的。
我们又另外做了一个东西,在其他的深度学习过程中,大家知道如果你能够把前面训练抽提特征的网跟后面的鉴定网连接起来,能从头到尾不断训练的话,能更加提高准确度,我们如此做了,结果是更加的好,96%的准确度。这是我们现在称为癌症诊断的神经网络。
稍微总结一下,我们发现了新的神经网络可以来处理其他复杂的生物医学大数据,以前没有办法用现在的方法来做的。人类基因组的基因表达神经网络建起来的话,非常有用,对诊断癌症有用,对其他的一系列诊断都有用。
跟大家讲一下,这是我们基础的研究。在应用方面,我讲几个案例。这是我们当年在我们实验室解决了一个罕见病的致病原因以及信号转导通导以及可能的治疗药物,这个病叫TSC。我这个朋友和他的孩子有这个病,在我们两人住的镇上建立了一个研究所,这个研究所想干什么?希望能够把前沿的科学研究和产业结合起来,因为科学研究非常好非常前沿非常灵活,但它的缺点是目标性很差,做到哪里是哪里,发一篇文章算数。第二,团队能力很差,联合起来解决问题的动力没有。这后面两点恰恰是工业界的优势。但是工业界对前沿对灵活很差,所以在这里,我们把它结合起来。这个结果是非常满意的。其中一个,你们可能不大知道,在2003年时,非典大爆发时,我们说要来做点事情,当时我们想了各种各样的办法,其中一条我们找到计算机科学家一起讨论时,他们说可以把计算机连接起来,共同来设计药物。这实际上是2003年,实际上是云计算实践的一个最早的案例之一。当时我们没有申请专利,也没有成立公司,因为这是非常紧急的事情。而且我们拿出一百万美金悬赏,来解决问题。
其他还有什么?这个团队研发出了世界第一台测序仪。现在你听到的基因测序产业以及用基因测序来进行研究,都是基于最早的这个测序仪。第二代测序仪也是我们研发的,这直接在半导体芯片上进行测序,不用拍照,DNA合成的时候不一样,直接感受出来。这个意义非常重大,为什么?人类基因组计划,15年时间,30亿美元,全世界人来做,把它拼了一个人类基因组,但不是每个人的个人基因组的测序,怎么样?应用不能应用,太贵了。现在的情况是,如果一辆宝马车以前10万美金能买一辆,那么现在这个价格是一美分就可以买一辆宝马车。这是现在个人基因组测序的价格的改变,因为测序仪的发明。所以彻底改变了这个现状,使测序技术可以在各方面进行应用。不单单在理论研究方面进行应用,而且产业化应用程了一个新兴的产业。
这是2016年科学家到美国白宫授予科技奖,非常有幸我陪他一起去领奖。刚才提到我们的实验室发现了TSC进行癌症治疗,他们发现有的病人有效,有的病人没效。比如膀胱癌的病人里45人只有一个有效,美国提出这是神奇反应者。那时有测序仪了给他测序,发现他果然有TSC图片。后来美国展开了测序计划,奥巴马提出要根据每个人基因表达不一样来进行针对性的治疗,这一定是未来生物医学的方向。
接下来再来讲讲其他的。2013年我们就成立了公司,要来应用AI进行生物医学的诊断和治疗的应用。其中之一就是现在到医院去,医生用听诊器来听,听诊器是两百年前发明的技术,我们说这一定要改变。我们想做什么呢?我们想直接做一个成像仪,直接能够看你有没有感染,如果你头晕,后面的脑血管有没有堵塞,心脏有没有问题。我们这个团队做了一个高分辨的新型的超声波芯片,手提的,直接连在手机上可以看可以诊断。这是人类第一款在手机上的健康产品。美国国家FDA去年年底批准上市。这也是第一款AI用于大健康的产品。为什么?首先它用来可以帮助你采样。以前所有的医学仪器怎么样采样,后面的颈动脉,角度不一样拍出来的图像不行,要有经验,但我们可以用人工智能帮助你告诉你那个角度是对的。采完样后要进行判断,你有没有疾病是不是正常,所以要深度学习,这是不是有疾病。这样一来,彻底改变了医学诊断。为什么?护士也可以用了,不一定要医生。以前的医生用这个超声波要专门超声波的医生,其他的医生看不懂。美国一百家医院都用了这个仪器,他们感到非常激动,每个医生自己可以看自己可以查。不单单医生可以查,护士也可以查,不单单护士可以查,我们每个人自己都可以买一台放在家里自己查,查出问题再去找医生。2000美金一台,彻底改变了。而且是远程医疗,因为图像可以传过去,这是医疗的革命。
另外,我们还有一家公司,用人工智能是核磁共振。核磁共振仪非常贵,而且还不能有金属,我们研发了一台可移动的核磁共振仪,直接可以看。当然是人工智能来帮助诊断。
另外,研发药物。这是尔摩定理。生物医学研发药物每年过去,钱又更加贵了,研发时间更加长了,现在是14年200亿美元平均研发一个药,太贵,时间太长,那就用人工智能。因为以前所有研发药物都要一个个试,时间又长成本又贵,但是用人工智能的办法,我们可以先进行学习和选择。这个东西有可能有用,专门针对有可能有用的来做实验,这个效果是非常惊人的。
这是我和我的朋友一起开的两个公司,我们四年时间现在有四个药在临床进行二期和一期,非常惊人的速度和时间成本。这是一个案例。这个病人有淋巴癌,已经七次化疗,医生告诉他一共只有两个月存活时间了。用了我们的药之后,肿瘤全部消失。当你看到这样的图片时,你就知道这都是值的。不管你再辛苦,最大的满足感,除了我上课之外,这是最大的满足感。另外,我们公司刚刚找到一个新的药可以治疗渐冻症,开始上临床,非常可惜,霍金今年过世了,就是治疗他这个病。非常可惜!但是告诉你们,人工智能非常强大。
另外,我和我的朋友有另外一个公司,今天我们在你们学校听取了你们茶叶的基因组测序和大数据的分析,这是要来做天然产物,用人工智能做天然产物,然后研发药物,也非常激动人心。
回过头来讲一讲,人工智能为什么这么厉害?可以看到,知识竞赛2012年就被人工智能打败了,很容易解释,搜集数据。2015年,人工智能团队玩游戏也把人类打败了。2016年AlphaGo也打败了围棋团队。现在大家又兴奋又有危机感。有没有道理?完全有道理。可以看到,第一,深度学习的原理是模拟了人的大脑,这是通过几亿年进化过程中选出来的最厉害的计算机。这个路子对了,而不是靠计算机学家过去一小部分人拍脑袋拍出来的。第二,它的信息处理的方式也是跟人学习,它通过学习,就像我们人一样。再来讲讲这个学习有什么不一样呢?当时AlphaGo这个团队打败围棋冠军时我就去问他们学习怎么样,因为我小时候下过围棋。我下围棋在嘉兴围棋队时,一天最多训练学习十盘围棋,再下去不行了,脑子不够用了。我问AlphaGo这个团队,AlphaGo这个机器一天训练多少盘棋,他说一百万盘棋。怎么样?这个学习的速度不可同日而语。所以开始的时候AlphaGo打败欧洲围棋冠军时,李世石以及包括我们的聂卫平和马晓春都说,这不在话下,欧洲的围棋冠军算什么,来跟世界围棋冠军差远了。可是四个月后,把李世石打败了。为什么?他以为四个月是很短的时间,他一天可以学一百万盘棋,四个月的学习速度已经不可同日而语。这是第一。第二,我们的视神经网络,最前面是三到四层,在这里处理。后面加上去大概就五六层。那么你看看谷歌的神经网络,它2014年的时候24层,2015年60层,2016年的时候我问他们,大家猜猜多少层?1000层。怎么样?我们肉体的进化是没法达到这个速度的,说再加一个脑子也不行。它可以不单单突破,不单单学习速度不一样,它物理的突破也可以,可以马上增加。所以为什么这个东西特别厉害。
接下来,稍微讲讲我对未来的看法。霍金当时2014年写了两封公开信,呼吁人类应该终止深度学习人工智能方面的研究。为什么他写了这两封信呢?第一封他是和MIT的天文学家一起写的,这个天文学家六个月后变成了我们公司的顾问,霍金非常愤怒,他自己年底再写了一封信来呼吁这个东西。为什么?他认为这个东西是人类文明的终结者。这个态度你们已经知道了,我认为合理应用,所有人类的技术出来,从来没有一次是放弃过的。技术本身无所谓好坏,怎么样用才是核心。
当然,里面有很多非常有意思的问题。回过来看看,感知外界信息,处理信息,学习,记住学到的原则,然后用于新的信息,基本的人类智能的过程。但是我们还有其他很多复杂的人类智能的过程,要不要都研究?要不要都模拟?这是一个很大的问题。现在这个智能机器还是单功能的,专门来做一件事情,但是我们人是多功能的,很多事情都可以做,要不要研究多功能的?最后的话,要不要研究情感?我认为这个最好也不要研究也不要模拟,这太复杂了。可是后来我在做一个计划,来做机器人医生。我夫人就给我提出这是一个伪命题,因为医生不单单要鉴定疾病,而且要跟病人没有情感岂能做医生,我说有道理,也要研究。但最终,自我意识要不要研究?要不要模拟?这是一个非常本质的问题。那么如果说我们研究出来说这个神经网络是怎么样来实现自我意识?这是一个非常有意思的东西。要不要模拟,我不知道,但是我们实验室开始在研究什么样的神经网络能够自我意识。
因为我的时间要到了,还有一分钟,所以我跳过了几张幻灯片。我讲讲一个信息,生物医学+人工智能,这是人类历史上以来最猛烈的一次科技革命,这是不得了的,这是要彻底天翻地覆,改变所有人的生活和命运的,逃不掉的,你回避都回避不掉。这是最猛烈的!怎么样?投身到里面去进行研究,进行应用,甚至你觉得应该把它限制,你学哲学的也应该研究了解这个东西,因为这是最猛烈的一波科技革命。
最后,我来讲讲西湖大学。这是西湖大学新的校园,马上就要开工。西湖大学是一所非营利的全新的研究性大学。西湖大学将会集社会的力量和政府的力量,一起来办。欢迎大家来做学生,欢迎大家来做博士后,欢迎大家来应聘做教授,欢迎大家以各种各样的方式来支持这样一个新生的事情。四十年前,当中国开始走市场经济的时候,第一家私有企业建立的时候,没有人会认识到说今天中国天翻地覆的变化。是不是?五亿人脱离贫困,整个经济天翻地覆的变化。那么,我们希望西湖大学也是这样一个好的开始。需要大家的支持和呵护,包括讲好话,包括你有一块钱也欢迎你们来捐赠,我们一定会把它用到最需要的学生身上。为什么?因为这是需要整个社会、政府以及大家一起支持来做的一件事情。另外,我们来做的话,怎么样和其他的大学可能会不一样,怎么样做世界一流?比如说多学科的交叉,人工智能这个东西,计算机学家模拟了视神经网络,相互学习产生了。但是老的 学校计算机系在一个地方,搞神经生物的在一个地方,很难进行交叉,但是西湖大学可以,因为我们是新的大学,因为我们从一开始就把整个设计使它们进行交流,可以看到让不同学科的人每天有机会能够碰到,每天有机会能够进行交流。另外,我们也会想方设法在新的地方打破所有的壁垒,来使研究成果进行产业化转化,来影响社会。但最终,能不能成功,需要大家一起来努力。
文章来源:杭州市西湖教育基金会 网易智能
扩展阅读
媒体转载联系授权请看下方