田捷教授:影像组学研究及其临床应用丨2018医学影像AI经典演讲回顾(一)
作为国内最早一批密集报道医学影像AI产学融合与医工交叉的媒体。2018年,雷锋网AI掘金志全程报道了从海外MICCAI、RSNA、CVPR到国内ISICDM、MICS等众多顶级大会,同时也是多个知名医学图像分析学术论坛的独家媒体与首席合作媒体。
此外,AI掘金志自己也举办了CCF-GAIR全球人工智能与机器人峰会丨计算机视觉+医学影像专场,邀请到七大Fellow当选者田捷、MICCAI大会主席沈定刚、飞利浦中国CTO王熙、微软亚洲研究院副院长张益肇等专家在大会上做了深度报告。
作为春节特辑,AI掘金志将在假期持续推送上述会议中的经典演讲全文,欢迎大家关注。
首期内容我们将送上田捷教授2018年6月在AI掘金志举办的大会上发表的演讲:《基于AI和医疗大数据的影像组学研究及其临床应用》 。
后续几期,我们将推送刘士远教授与沈定刚教授等人的大会报告。
田捷,IEEE Fellow、IAMBE Fellow、SPIE Fellow、AIMBE Fellow、IAPR Fellow、OSA Fellow、ISMRM Fellow。中科院“百人计划”入选者,国家“百千万人才工程”国家级人选,两项国家重点基础研究发展计划(973计划)首席科学家,中国自动化学会常务理事、副秘书长兼中国自动化学会模式识别与机器智能专业会员会主任,中国生物物理学会分子影像学专业委员会主任(首届),分子影像北京市重点实验室和中国科学院分子影像重点实验室主任,现任北航-首医大数据精准医疗高精尖创新中心主任。
以下是演讲原文,内容经田捷教授审核确认:
我下面汇报的是人工智能和医疗大数据在医学上的应用,这是大家比较关注的热门话题,我想从“临床”和“商业”两个方面来做一下简要的归纳。
人工智能在医学上的应用和传统中医非常相像。我国中医几千年以来,通过“望闻问切”的方式积累了几百万人甚至几千万人的医疗大数据,后期主要通过人脑来“加工”这些数据;现代社会与此前不同的是,我们使用电脑加人脑,利用此前积累的经验以及大数据与人工智能技术,实现了现在所说的智能医疗。
人工智能目前是国家战略,健康中国2030也是国家战略。从这两个角度来说,通过人工智能技术和医疗大数据,提高人们的健康水平是国家下一步的重点发展战略;与此同时,国家也有计划要将我们的医疗和健康占GDP的比重从3%提升到30%。
从商业角度出发,人工智能在医学上的应用机会很多,包括通过计算能力驱动肺癌、糖网、乳腺癌等疾病的筛查。
今天,我想重点与大家分享的是人工智能对于临床医疗的重要性,它能提高我们的临床医疗水平,实现精准医疗,具体涉及到术前、术中、术后三个方面。
从目前医学发展背景来看,人工智能、大数据等技术在医学上的应用是众势所趋。去年北美放射医学大会上给出描述:未来的影像中心就像飞机驾驶舱一样,是各种各样信息的综合体;而未来的医生则相当于飞行员,要处理各种各样的信息。
这里还需重点阐述一个观点:如今很多声音表示,AI未来将要替代医生。在我看来,AI不会替代医生,只会更有效地辅助医生。而医生也不应惧怕新兴技术,而是积极地去利用它,使用它。
当今,我们处于信息变革的时代,医学大数据也在不断的增长和积累,平均每73天,医学数据就会增长一倍。因此,基于医疗大数据的人工智能医疗必将辅助甚至改变传统的临床诊疗流程。
国际影像战略策略研讨会副主席Donoso说了一句很经典的话,人工智能是否会完全替代影像科医生无法下定论,但我们肯定的是,那些使用人工智能技术的影像科医生,势必会代替那些不使用人工智能技术的医生。
不跟随时代的发展,面临的就是残酷的淘汰,无论是北美放射年会,还是欧洲放射年会,都不断的在突出人工智能在影像学中的异军突起的作用。
所以,未来的影像科医生,不仅仅要会看片子,还要从影像大数据中挖掘大量的潜在知识,学会利用人工智能技术,站在科技潮流的前端,不是惧怕新兴的人工智能技术,而是利用它,使用它,成为新时代下的影像信息学专家。
上个月刚刚结束的美国临床肿瘤年会ASCO2018,该年会的参与者大多为内科大夫、肿瘤大夫,他们也提出,要将人工智能技术作为辅助新一代无创诊疗技术发展的重要工具。
Dana-Farber癌症研究所首席研究员Geoffrey指出,无创的液体活检技术可以更加便捷的实现肺癌的早期检测和筛查,血液中游离DNA可以成功检测出早期肺癌。而随着这种无创检测手段的进步,医学数据不断积累,机器学习方法将有效提高检测精度、提高测试性能。
此外,南加州大学生物科学学院院长在大会指出,在肿瘤疗效评估中,结合基于液体活检技术的基因蛋白组学和基于深度学习方法的智能影像评估可有效预测患者的预后生存。
由此可见,无论是在癌症诊断还是治疗中,人工智能技术都是辅助新一代无创诊疗技术发展的重要工具。
一、影像组学的本质
那么,人工智能在医学领域到底如何应用,接下来我会举一些例子说明。
举例之前,我们首先必须了解影像组学概念,其2012年就被提出,是由英文“组学+放射”组合出来的新词:“radiomics”,我们当年认为把它翻译成“放射组学”比较准确。
当年为什么用了放射这样一个词汇?它是基于CT进行扫描的数据,然后在PET和超声上得到应用,所以我们认为将“radiomics”翻译成影像组学可能更为精准,它不仅仅融合了医学影像、基因、临床大数据,它也把组学的概念和组学的方法融合在一起。
它的工作流程与医生日常读片完全是一模一样的方法,针对影像数据,提取特征,人工智能建模,然后再进行临床应用、辅助决策。这个流程也是一个标准的计算机视觉流程,也是标准的模式识别流程。
但它相比医生的高能之处在于计算机看到了高维信息,可能看到了蛋白基因在宏观影像上的变化,这样的宝贵数据可以辅助医生提升临床诊断的正确性和准确性。
需要注意的是,人工智能技术在医学上的研究、应用,不是写文章、不是谈概念、也不是纸上谈兵、更不仅仅是做筛查,而是要将技术与临床紧密结合,解决实际临床问题。
二、典型临床应用
下面我就从临床和技术两个方面谈一下人工智能在医学上的具体应用。
首先我想谈谈人工智能在临床上的应用,在座各位很多都是技术人员,对于技术方法比较了解。其实我们在了解技术本身的同时,更需要了解技术到底能够解决什么问题,或者说目前医学需要解决什么问题。所以我先从问题为导向,观察临床上有何需求。
在这里,我想举一个细分例子,围绕着临床应用的术前、术中、术后,来说明人工智能如何使得医学治疗更加精准。
第一个例子是结直肠癌。
外科大夫在为病患做手术之前都会为患者做一个辅助化疗,以控制癌症的发展,之后再为他进行手术。
在这个过程中,一部分病患非常不幸,经过辅助化疗之后,他们病理上完全缓解,体内也没有癌细胞存在,但外科大夫无法凭借他的经验来肯定判断他们体内是否还有癌细胞潜藏,所以不得不还为这些病人开刀(实际上病患身上已经没有癌细胞存在)。
从这来看,我们能否通过其他方式来准确判别病人的实际数据,让他们在外科大夫的经验无法准确判定、常规的影像磁共振无法精确判别时,能够非常肯定地判定病人的数据。
通过人工智能分析,目前我们有90%的把握能把这些PCR缓解的病人挑选出来。换句话说,系统能够将经过辅助化疗以后,体内没有癌细胞的病人找出来。后期,这部分病人就可以免受开刀,只需密切观察随访即可。
所以,它的临床意义非常大,人工智能未来不仅仅能够做筛查,更重要是,它能针对临床问题来开展工作。这是我们配合北京大学肿瘤医院放射科专家做的工作,这个结果已经发表在临床肿瘤研究的顶级杂志上。
第二个例子还是结直肠癌。
如果病患经过化疗之后并没有PCR缓解(占比70%左右),那么他们是需要进行手术的。开刀之后,医生需要对他们做淋巴清扫,以防止癌细胞转移。
问题是:清扫完之后显示,70%的淋巴是假阳性。
这里需要说明的是,假阳性结果与中国医生的开刀技术没有直接关系,美国大夫开刀假阳性也有70%左右。而这个问题也可以用人工智能技术解决。
我们用人工智能技术处理500例临床病理、影像数据完整的结直肠癌患者数据,经过病理、影像,提取特征以后,在实测中,能把70%的淋巴假阳性降到30%,这是医学上非常巨大的进步。
目前这项研究也发表在临床肿瘤的顶级杂志JCO上。需要指出的是,其第一作者只是一个硕士二年级的小女孩,所以我们在医学领域的研究并不需要多少临床经验,关键是先要找到临床问题,以问题为导向来解决它,并不是一味的低头专耕技术。
第三个例子依旧是结直肠癌。
刚才我已经讲了术前及术中,术前有没有病理学的缓解,术中要不要进行淋巴清扫。我们再来看术后,结直肠癌患者做了手术之后,外科大夫还可以给他做一个放化疗控制远端转移。
这里又出现了一个问题,经过手术后的结直肠癌患者远端转移的概率只有20%,换句话说,有80%的患者花了钱,忍受了放化疗的痛苦,而去做在他身上也许不可能发生或者概率非常小的远端转移。
就此,我们能否用人工智能技术把这些概率大的人挑选出来,再去做放化疗,控制他远端转移而概率不大的人也就没必要做远端转移,后期观察即可。
目前我们正在做相关的人工智能技术落地实验,希望这个概率可以提升更高,预测得更为精准。
综上,我举了一个非常完整的例子,从术前、术中、术后来说明人工智能、影像组学、医疗大数据到底怎么改变我们的医学,改变我们的精准诊疗。
刚才我所提到的都是手术方面的内容。那么,人工智能能否解决不用开刀也能解决的问题呢?也就是说,其能否既可以辅助外科大夫,也可以辅助内科大夫。
我们知道,即使是美国著名医院的外科大夫得了肺癌,他也不知道该用什么样的靶向药,怎么预测他的生存期。
而这个工作可以用人工智能、大数据来解决,我们针对500余例晚期EGFR突变靶向治疗患者多中心CT数据,利用LASSO-COX构建反映靶向治疗无进展生存期预测模型,实现对EGFR突变的晚期肺癌患者靶向治疗无进展生存期进行个性化的精准预测。
如果后期发现他无进展,这时候我们就提醒他不要再用这个靶向药,价格昂贵不说,效果也不大。目前这项研究发表在CCR上,也是国内学者解决的重点医学工作。
举例来说,系统可以对病患的鼻烟癌给出判断及生存期预测。
针对临床指标对晚期鼻咽癌的放疗后预测精度低的现状,我们对118例晚期鼻咽癌T1和DCE MR图像做了超过3年时间的随访,并结合970个影像组学特征,和临床病理信息进行分析,在此有效预测该类患者的预后,准确度超临床指标的10%。
再举一个例子,我国是肝癌大国,肝纤维化、肝硬化、肝癌是肝癌患者的病变三步曲。
所以,对于肝癌患者的治疗,准确判断他们的肝纤维化非常重要。过去医生一般用超声诊断,但是超声的判断准确率只有百分之六七十左右。想要准确判断还需要做一个痛苦的工作:肝穿。用一根穿刺针穿到病患肝里面用病理学组织来确定到底有没有纤维化,从而决定用不用抗病毒的治疗方法。
问题来了:能不能用人工智能技术来处理这些数据,不做肝穿也能达到跟它一样的病理学效果。
针对这个问题,我们走访了12家医院,采取了600多份数据样本,用深度学习来提取它的特征,实测表明,在使用过程中,人工智能的预测结果与肝穿方法非常一致。
换句话说,它能够代替以往的肝穿治疗方式,让病患不需忍受痛苦,用几张图片就能达到绝佳效果。
三、影像组学新模态应用
在后来的研究过程中,有相关医生提出,炎症会不会对结果产生影响。可以肯定地说,人工智能在对轻度炎症困扰上没有差别;对于重度炎症有一些差别,但是影响不大,准确率还是会远远高于人工判断。
后来又有人提出,能否将该技术转化为一个软件,做商业化应用。后期验证过程中,我们发现无论是轻度肝硬化还是重度肝硬化,效果都比较鲁棒,适合医院临床应用。
在这里我必须强调一点,人工智能在医学上的应用最好是以问题导向,有了问题再找方法,再去解决。我们可以源于临床,高于临床,这时候我们再商业化应用,医生们就不会抵触,他会主动来使用,因为可以很好地帮助他们辅助诊断。
以上是从临床角度讲了人工智能在医学上的应用。接下来我再从技术角度来讲人工智能、模式识别、大数据在医学上应用的进展。
四、影像组学的关键技术
以肿瘤治疗为例来说。
首先是肿瘤分割,一般可能需要医生先进行勾画,然后可以用机器学习的方法进行半自动或者全自动的分工,这些分割都可以提取相关的影像组学的特征,使得我们用人工智能的方法来建模分析。这一块的技术方法有很多,但是坦率说,哪种方法好,还得针对你遇到的问题。
第二方面是特征描述,影像组学、人工智能并不是比人更加聪明,只不过医生读片时,人眼提取的信息永远是以形状为主的,以结构为主的。
而从影像组学提取的特征,是强度、纹理、小波,最大值、标准方差、灰度矩阵这些特征,人眼是没法看的,同时人脑也难以加工。
对于计算机来说,恰恰是它最为擅长的。
所以在特征选择上,计算机选择的特征和人眼识别的特征形成了互补关系。如果我们能用计算机提取高维特征,包括毛刺、分叶等信息,再融合年龄、性别、家族史等信息,肯定是1+N>N,我们就能实现人机交互、计算机和人协同工作,从而使得我们的医学更为精准。
选择特征的时候切记要多多益善,特别是把这些高维特征提取得越多越好。还有一个非常重要的点,为什么现在影像组学、人工智能热,就是这些高维特征含有基因蛋白这些微观信息,在这些宏观的影像上的体现,只不过过去人眼提取不了,但现在计算机提取了,把这些信息来进行系统加工,使得我们的预测更加精准
提取特征之后,还有一项非常重要的工作是降维。共有四类主要特征降维方法:稀疏选择、空间映射、神经网络、递归排除。
针对具体临床问题,业界还采用建立计算机定量影像特征与所研究临床研究问题标签之间的分类模型。主要运用了两类模型:
SVM模型:从影像大数据原始像素出发,提取高维手工设计特征并进行特征选择,构建影像特征与临床问题的分类模型。
CNN模型:在影像大数据的原始像素的基础上,该模型可自主挖掘与临床问题相关的影像组学特征,构建影像特征与临床问题的分类模型。
至于建模部分,前面很多讲者也讲了很多模型,人工智能、深度学习有一系列的模型,无所谓哪种模型好,关键是针对你的问题,你是要做生存期预测,还是要做疗效评估,针对我们在医学上不同的使用的对象和问题,我们应该选择不同的方法。
有了方法之后,我们构建的模型可以提高分类精度,甚至能达到主治医生的水平,大家已经看到了很多例子,我就不展开细说。
但是这里面还有一个非常重要的环节,是我们做计算机、做工科最容易忽视的:我们往往把模型建出来,就直接把这些结果拿给医生去看,希望医生可以去使用。
这时候,你一定会吃闭门羹,因为医生肯定会说这不是我需要的东西,你这些模型我看不懂,我根本没法用。
所以后期非常重要的步骤就是:要让他们看图识字,要把这些数据可视化。你给医生们一大堆模型,他会觉得很难懂,换成图片之后,他就觉得非常好用,我们要从医生的角度看问题,把模型可视化。
另外,计算机处理离不开数据,这些数据质量到底怎么样,我们也要从医生的观点来看待它。
去年临床肿瘤学杂志上发表了一篇文章,是以荷兰大夫为主发表的,他在谈数据质量标准的评价,给出了16个评价标准,36分是满分,进行数据质量打分,而且他也会编程序,编一些简单的程序,把它放到网上,你直接填表打分,最后告诉你数据质量是怎么样的,我觉得目前也是对医学用人工智能判断,用影像组学第一个比较公开的数据标准,值得大家借鉴、参考。
五、人工智能+医学影像的未来展望
刚才我从技术方面谈了人工智能怎么针对医疗问题,用什么样的方法解决。涉及分割、特征提取、模型构建、模型可视化、质量控制5个环节。
最后我想提一下人工智能在医学影像应用未来的发展方向,主要涉及到人工智能的方法、数据、软件、共享平台。
我们现在不缺方法,也有很多数据,也有各种各样的软件,但是我缺乏交流共享的平台,我们这个会议也是一个交流共享的平台,我也建议我们相关企业在会后把相关的资源共享出来,这样可以更好地促进人工智能在医学领域的应用。
我先从模型讲起,这几年人工智能的模型有很多,有卷积神经网络、迁移学习、博弈进化模型,数据也在不断地增多,智能程度也在不断地提高,所以我做了一个二维的方阵来说明这个问题。
迁移学习经过大数据训练,我们可以在医学的小数据上提取到复杂的影像特征,而且这些特征还有很好的解释性。与此同时,我们所提取的高维特征又会带来一个挑战,临床医生表示看不懂且不知道有何意义。
此时,我们无法对于医生的困惑做出解释,因为这是计算机分析出的结果,我们不能说它跟肝的哪个血管对应,跟肾的哪个细胞对应。
但是我们也可以把这些特征,用强特征分布的热点图表达出来,它有一定的可视化,对这样的强特征的热点图,你去做穿刺或者靶向治疗的时候,穿刺效果就会非常好。
与此同时,我们还可以用迁移学习的深度学习方法来提高肺癌基因突变预测的精度。
迁移学习模型是经过128万张图片训练出来的,我们做肺癌的时候可能没有这么多图像,但是如果我们想要提高它的预测精度,我们用前面图像训练过的模型可能也会得到比较好的效果。
另外,大家知道现在博弈进化模型比较热,它可以让机器学习提高智能程度,这在医学上的应用也非常重要。
需要指出的是,我们用人工智能做组学分析,我们需要多病种、多模态、多中心、多参数的数据融合,在这一块,还有非常重要的点是数据标准,虽然我们国家这一块现在已经非常重视,做了一系列的筹备,但是目前为止还没有出来一个影像大数据的数据标准,或者数据规范化的行业标准,所以依然是一个挑战。
目前,我们医院有大量的数据,大量的数据不代表就是大数据,我们需要经过数据清洗,影像的数据相对来说还比较规范一些,但是病理的信息、治疗的信息、预后的信息我们都需要有,才能使得人工智能做更准确的预测。
所以在这里我也想说,前面我举的那些例子,淋巴清扫的工作,原来我们是想做生存期预测的,但生存期预测我们需要两年以上的病人随访,因此很多信息的提取还需要医疗从业人员去科普,需要让患者知道,我们做临床研究需要大量的信息才能做综合。
幸运的是,我们国家人口多,病人多,所以数据也是我们的天然优势,这几年我们配合不同的医院采取的数据,包括儿童水果细胞瘤这样一种眼底的肿瘤,我们都能收集相关数据;肺癌、乳腺癌的数据量更大。这些数据不太牵涉到隐私,我们提取的都是高维信息,我们也不需要存原始图象,所以从某种意义上说这些数据的隐私性是比较好解决的。
有了数据,我们还需要软件,我们可以开发各种各样的软件,特别是医学图象处理的软件,我们实验室有三个软件,第一个是MITK,是医学软件的集成平台,包含重建、分割可视化;还有一个是3D软件;另外我们还有一个影像组学的软件,全部是开源的,在我们的网站上可以下载。
人工智能在医学上的应用一定要医工交叉,我们工科的人要穿上医学的马甲,了解医学的问题,参加医学的会,了解医生的需求,作为医生也要对工科的方法知其然,你也许不知其所以然,但是你要知其然,这样我们才能源于临床,高于临床,又回归临床,不只是看一个病,不只是一个软件。
我就汇报到这里,敬请各位批评指正,谢谢大家。(完)
观众提问:刚才您说了要从影像里面提取高维信息,并且说了要源于临床,最后还要回归临床,这些高维信息是由谁来提?是医生来提,还是我们工科的人来提?我还听说您那里面有的有400个高维信息,我看到有的文章好像更多,这些信息是怎么提出来的?
田捷教授:这个问题提得非常好,也非常关键。如果用计算机去做,还是停留在结构特征上,我们能弥补一些医生的错误,但是不能辅助诊断。
刚才举例子讲的这些高维信息,它到底有没有用,医生也不知道,我们也不知道,但是用计算机、深度学习把它提取之后,我们只能尝试,有些问题可能能很好地解决,有些问题现在还解决不了,我们只是提取这几百个甚至上千个特征,跟那些特征、病理信息融合在一起,我们再去筛选,把关键的信息提取出来,这是降维,最后再建模,然后取得一个好的结果。
跟医生在交互的过程中,这些特征是人眼看不了的,医生也搞不清楚,我们拿这些特征去投稿的时候,大部分医生是看不懂的,我们投到医疗杂志上,他会问你这到底有什么效果,我们说不清楚,所以我们把那些东西变来变去,终于变成热力图的模式,最后说明这可能是肿瘤的中心地带,它能反映这样的问题,他能看懂了,知道这是有问题的,然后就接受了我们的论文。
我们这些特征不仅仅说明它有用,还要想办法跟医生沟通,把这些特征变成可视化的,让医生能接受,说明它的临床意义。这也是一个痛苦的交互过程。
观众提问:刚才我看到您的迁移学习的工作,把上百万张自然图像迁移到肝脏的医学图像上,但是我看到有文章说迁移学习必须要有医学的意义,如果您这样做的话,让自然图像迁移到医学图像上,它的临床意义在哪儿?医生会接受这样做吗?
田捷教授:医生能不能接受,关键看临床效果,关键看你能不能针对临床解决问题。
我没有去计算机视觉的会议,我现在反而是跑到美国临床肿瘤学会、美国肿瘤学会的会议上,你要到临床医生那里,让他们“折磨”你,找出他们能接受的临床效果和临床意义,这时候你的模型才真正起作用,我们老在计算机视觉会议上谈我的方法和参数好,我觉得意义不大,当然能写文章,只是把纸变成钱。
所以我说我们技术人员要穿上医生的马甲,到医学的会议上交流。我是工科生,但近些年我没有发表一篇计算机方面的文章,都是医学的文章。这一点我非常自豪,我能在医学的杂志上发文章,就非常具有临床意义,因为审稿人都是医生,说明我已经穿上医生的马甲了。
我认为,这是所有想在医学领域深耕的工科生都需要做出的转变,必须站在医生的角度去思考问题,让他们来当裁判,让他们来鉴别。
长按二维码,关注雷锋网「AI掘金志」