其他

人类医生的终结者:深度学习医疗2016-17两次大突破

2017-10-21 张易,胡祥杰 火石创造

南澳大学医学专家 Luke Oakden-Rayner 发表了一系列博客文章,讨论机器会不会在短时间内取代人类医生,他总结出了医疗AI领域的 6 大特征,同时列举了他认为深度学习在AI领域的两大里程碑式的研究:谷歌发表在美国医学会杂志(JAMA)关于糖尿病视网膜病变的研究和斯坦福大学的研究者在2017年发表在Nature杂志上的研究“达到皮肤病学家水平对皮肤癌的分类”。

文|新智元


从产业层面看,在普华永道刚刚发布的全球AI报告中,也表明医疗是最容易受到 AI 影响的行业。智能医疗是否已达到“超越人类水平”的临界点?独立的AI诊疗中心何时出现?请来世界人工智能大会智能医疗论坛寻找答案。


南澳大学的放射科医师、医学专家,在阿德莱德大学与公共卫生学院攻读医学博士学位的 Luke Oakden-Rayner从今年5月开始就在追逐医疗AI领域的发展,他写了一系列的博客来介绍这一领域的最新进展,目前更新到第三篇,其系列博客的名字就叫《人类医学的终结 - 医学AI研究最前沿》(The End of Human Doctors – The Bleeding Edge of Medical AI Research)。


他这一系列博客的文章将主要讨论:机器会不会在短时间内取代人类医生。


他说,这些文章将会深入到医疗自动化的最前沿研究中。此前许多关于医疗AI的文章中,我们简单地假设深度学习可以将医疗的任务自动化,这么做是有意义的,因为这样我们就能获得一大堆的概念和定义,但是,在这篇文章中,我们首先要对这一说法进行一下论证。


接下来,会讨论医疗AI所面临的阻碍,此前许多讨论都集中在外部的障碍,比如监管和自动化的普及率。但是我们甚至都没有触碰到最本质的问题——技术上的挑战,它可能会减缓AI对医生的替代。


在前面的三篇文章中,他列举了他认为深度学习在AI领域的两大里程碑式的研究,分别标志着这一领域所取得的第一和第二个大突破:谷歌发表在美国医学会杂志(JAMA)关于糖尿病视网膜病变的研究和斯坦福大学的研究者在2017年发表在Nature杂志上的研究“达到皮肤病学家水平对皮肤癌的分类”。


此外,他还介绍了一些“小的但是不容忽视的”研究,比如“高分辨率乳腺癌筛查与多视角深卷积神经网络”和“检测巨细胞病变图像上的癌症转移”。


通过这些最前沿的研究,他总结出了医疗AI领域的6 大特征(问题):


  1. 医学影像提出了大多数其他图像分析AI不必面对的特定问题。其中之一就是“瓦力在哪里”的问题:图像通常是海量的,但疾病的特征通常是小而微妙的。

  2. 在医疗任务中,通过丢弃像素来压缩图像可能会损害性能,这意味着预训练不适用。

  3. 巨大的图像带来了技术上的挑战,因为深度学习的硬件很难匹配其需求。

  4. 解决这些挑战的一个方法是通过基于补丁的训练,但是这会成倍地增加数据集收集的时间和成本。

  5. 临床人群的低发病率意味着我们通常需要庞大的数据集才能找到足够的阳性病例。就算这些数据集本身已经存在,这也会大大增加成本。

  6. 医学AI系统在某些特定方面比人类专家更灵活,即使水平达不到人类的层次,但也可能是有用的。

以下是Luke Oakden-Rayner的博客文章内容,以第一人称方式呈现:


医学深度学习的第一个大突破


第一部分,我们将会对一个研究进行深度的解读,这绝对是一项最先进(state of the art)的研究。


首先,我想提醒大家,从2012年开始,深度学习才成为一种可应用的方法被使用,所以,我们在医学中使用这一技术的时间还不超过5年,并且,要知道,医疗人员在技术上的反应通常会慢半拍。有了这些前提,我们会发现现在取得的很多结果都是令人难以置信的,但是,我们也必须承认,这仅仅是开始。


接下来,我会对一些明显代表作医疗领域自动化取得突破的论文进行解读,同时会补充一些有用的对话。除了介绍论文,还会讨论以下几个关键要素:


  • 任务:这是一个临床的任务吗?如果这一工作被自动化,有多少医疗从业者会被颠覆?为什么这一任务会被选中。


  • 数据:数据是如何收集和处理的?它如何遵守医学审查和监管要求?我们可以更广泛地了解医疗AI的数据需求。


  • 结果:它们与人类医生相比能力如何?它们究竟测试了什么?我们还能收集更多的什么?


  • 结论:这一研究的重要性在哪?可扩展的地方在哪?


第一个论文。谷歌发表在美国医学会杂志(JAMA)关于糖尿病视网膜病变的论文。(2016年12月)


任务:糖尿病性视网膜病变是致盲的主要成因之一,主要由眼睛后部细小血管损伤引起。这是通过观察眼睛的背面,可以看到血管。所以这是一个感知任务。他们训练了一个深度学习系统,执行与糖尿病视网膜病变评估相关的几项工作。文章标题中所提到的结果是评估“可参考”的糖尿病性视网膜病变,其正在检测中度或更差的眼睛疾病(该组患者的治疗方式与“不可参考”眼病患者的治疗方式不同)。他们还评估了识别严重视网膜病变并检测黄斑水肿的能力。


数据:他们对13万个视网膜照片进行了训练,每个级别由3到7名眼科医生进行评估,最终的标签以多数票决定。图像来自使用各种相机的4个位置(美国EyePACS和3家印度医院)的康复临床数据集。


网络模型:他们使用了Google Inception-v3深层神经网络的预训练版本,这是目前使用最好的图像分析系统之一。预训练通常意味着他们已经接受过训练的网络来检测非医疗物体(如猫和汽车的照片),然后进一步对特定医学图像进行了训练。这就是为什么网络只能接受229 x 299像素的图像。


结果:这篇论文我认为是医学深度学习的第一个大突破。他们的AI系统获得了与单个眼科医生相同水平的表现,在于眼科医生的平均水平相比时,也不落下风。


 图:彩色的点是人类眼科医生,黑线是谷歌的深度学习系统。


与人类以上相比,他们的系统在检测黄斑水肿上做到了相同的水平,但是在更严重视网膜病变绝对值(AUC值)上要差一些。


关于这一研究的10点总结


  1. Google(和合作者)训练了一个系统,以检测糖尿病视网膜病变(其导致全世界5%的失明),系统的表现与一组眼科医生的表现相当。

  2. 这是一个有用的临床任务,这可能不会节省大量资金,也不会在自动化的时候取代医生,但具有很强的人道主义动机。

  3. 他们使用130,000个视网膜图像进行训练,比公开的数据集大1到2个数量级。

  4. 他们用更多阳性的案例丰富了他们的训练集,大概是为了抵消训练对不平衡数据的影响(一个没有共识性的解决解决方案的问题)。

  5. 由于大多数深度学习模型都针对小型照片进行了优化,所以图像被大量采样,丢弃了90%以上的像素。目前看来,我们还不知道这是不是件好事。

  6. 他们使用一组眼科医生来标注数据,很可能花费了数百万美元。这是为了获得比任何单个医生的解释更准确的“真正的真相”。

  7. 第5点和第6点是所有当前医学深度学习系统的错误来源,而且人们对这些话题知之甚少。

  8. 深度学习系统比医生有优势,因为它们可以用于各种“操作点”。相同的系统可以执行高灵敏度筛选和高特异性诊断,而无需再训练。所涉及的trade-off是透明的(不像医生)。

  9. 这是一个很好的研究。它在可读性上是令人难以置信的,并在文本和补充中包含了大量有用的信息。

  10. 该研究似乎符合目前FDA对510(k)法案的要求。虽然这项技术不太可能要通过这一手续,但是该系统或衍生物完全可能在未来一两年内成为临床实践的一部分。


第二篇具有代表性的突破性研究是斯坦福大学的研究者在2017年发表在Nature杂志上的研究“达到皮肤病学家水平对皮肤癌的分类”。


任务:皮肤科是主要专注于皮肤病变的医学专业。他们处理皮肤癌(美国每年10,000人死于该病)和其他全身性疾病的肿瘤,皮疹和皮肤表现等系统疾病。作者训练了深度学习系统,用于执行与皮肤科实践相关的几项工作。标题的结果是对“需要活检”病变的评估,这是鉴定可能患有皮肤癌并需要进一步处理的患者。他们还评估了直接从图像中识别癌症的能力,以及一项更复杂的任务,试图诊断病变亚组。


数据:他们从18个不同的公共数据库以及斯坦福医院的私人数据中训练了13万个皮肤损伤照片。不幸的是,这篇文章并没有说清楚数据来源及如何构建,所以我真的不知道训练标签是什么。在论文中,他们将数据描述为“皮肤科医生标注的”,但也提到了各种位置的活检结果。我想我们可以假设,这个数据的大部分是被单个皮肤科医生标记,没有活检结果。


网络模型:同第一个研究。


结果:本研究是我认为医学深度学习的第二个重大突破。他们比大多数单个皮肤科医生以及他们提供的比较的皮肤科医生“平均”水平获得了更好的表现。


关于这一研究的8点总结 


1.斯坦福大学(以及合作者)训练了一个系统来鉴别需要活检的皮肤病变。皮肤癌是浅色皮肤人群中最常见的恶性肿瘤。

2. 这是一个有用的临床任务,是目前皮肤科实践的很大一部分。

3.他们使用13万个皮肤病变照片进行训练,并且用临床上典型的阳性病例丰富了他们的训练和测试组。

4.图像被大量采样,丢弃了大约90%的像素。

5.他们使用“树实体论”组织训练数据,通过培训来提高其准确性,以识别757类疾病。这甚至在更高级别的任务上改进了结果,如“这种病变需要活检吗?

6.他们比单个皮肤科医生能更好地识别需要活检的病变,具有更多的真阳性和较少的假阳性。

7.虽然可能存在监管问题,但该团队似乎已经有一个有用的智能手机应用程序。我希望在未来一两年内可以为消费者提供这样的东西。

8. 对皮肤病的影响尚不清楚。至少在短期内,我们实际上可以看到皮肤科医生的需求不断增加。


最后,Luke Oakden-Rayner总结说,我认为这些研究是突破性的,事实也说明了这个问题,两个研究组似乎都在研究初次发表后六个月内临床测试了这些系统。谷歌的视网膜病变研究实际上已经完成了初步的临床试验,并正在印度推出系统,旨在解决受过训练的眼科医生处理糖尿病眼病短缺的问题。斯坦福大学皮肤科组正在建立一个智能手机应用程序来检测皮肤癌。


医疗是最容易受到AI影响的行业,独立的AI诊断中心前景可期


普华永道刚刚发布了名为“探索 AI 革命”的全球AI报告,特别推出了“AI 影响指数”,对最容易受到 AI 影响的行业进行了排名。其中,医疗和汽车并列第一位。


AI影响评分从1-5(1是最低的影响,5最高),医疗和汽车都是3.7分,并列第一:



而实际上,从 2011 年开始,医疗领域一直高居 AI 行业应用前列。CB Insights 曾发布过 AI 应用的“行业热图”,可以直观地看出智能医疗的火热程度。



从全球范围来看,IDC 在其《全球半年度认知/人工智能支出指南》中将医疗人工智能统列为2016年吸引最多投资的领域之一,并表示在未来五年内,包括医疗人工智能+诊断和治疗系统的使用案例将获得最大的发展。在五年期间,它预测医疗健康人工智能投资的年复合增长率为69.3%。


国内,根据亿欧智库的相关研究数据,截止至2017年8月15日,国内医疗人工智能公司累积融资额已超过 180 亿人民币,融资公司共 104 家。


说回到普华永道的最新报告。该报告以“基于数据的诊断支持”作为智能医疗的高潜力用例,认为“人工智能最初可能被作为人类医生的辅助来采纳,而不是替代人类医生。这将改善医生的诊断,但此过程也为 AI 学习提供了有价值的见解,让其可以不断学习和改进。人类医生和 AI 驱动的诊断之间的这种持续的相互作用将提高系统的准确性,并且随着时间的推移,人类将有足够的信心完全授权 AI 系统进行自主操作。


实际上,这一美好前景已展现出了些许萌芽。如依靠计算机视觉的智能医疗影像识别,已经随着深度学习等技术的使用,来到了“超越人类水平”的临界点。同时,2017 年 8 月,国家卫计委在新闻发布会上也传达出一个重要信息:将在已有的 5 类可独立设置的医疗机构上,再增加 5 类独立设置的医疗机构类别(包括病理诊断中心、康复医疗中心等等)。随着支持社会办医的政策落实,医疗的“牌照”价值正在下降,未来很有可能出现独立的 AI 诊断中心,直接为患者提供诊断服务。


博客地址:https://lukeoakdenrayner.wordpress.com/2017/10/09/the-end-of-human-doctors-the-bleeding-edge-of-medical-ai-research-part-3/


点击阅读原文,加入行业细分交流群



 精彩回顾 


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存