Nature Medicine | 超大数据集助力人工智能重新定义病理诊断
撰文 | 伊凯
责编 | 兮
由病理学专家对来源于患者的组织切片进行显微镜辅助观察与分析,通过寻找和标注切片中的异常区域对疾病进展和分类作出判断(即病理诊断),是包括癌症在内的各类疾病诊断的重要过程。近年来,随着深度学习技术在图像处理方面的广泛应用和各类网络模型的迅速发展,由人工智能主导的自动化病理诊断系统开始崭露头角,其快速、稳定、准确的特性有望大大降低临床实践中的人力和财力耗费。不过,要训练出一个可靠的病理诊断神经网络所要求的数据准备工作量极为可观,在强监督学习的语境下,作为训练数据的病理切片图像不仅要具有较高质量和均一特征,还要由病理学专家对组织病理特征进行像素级的人工标注,这无疑显著地限制了可用训练数据的规模。因此,尽管多个利用百位数级别的小数据集发展的神经网络在诊断准确率上达到了令人满意的程度,甚至被认为超越了人类专家的水平,但其对相应疾病的复杂特征的捕捉程度是否足够高,或者说是否具有较好的泛化能力,从而在真实临床应用场景中发挥良好表现,仍然存疑。
2019年7月15日,来自美国纪念斯隆·凯特琳癌症中心(Memorial Sloan Kettering Cancer Center)和威尔·康奈尔医学院的Thomas Fuchs课题组及合作者在Nature Medicine上发表文章Clinical-grade computational pathology using weaklysupervised deep learning on whole slide images,报道了基于神经网络弱监督训练的利用癌症病理切片超大数据集构建的临床级癌症诊断系统。这一研究在训练数据规模、网络学习逻辑和对自动化病理诊断水平判别标准的重新定义上均具有里程碑式的意义,是近年来人工智能图像分析在临床医学应用中的一项重量级工作。
首先,这项研究工作的核心思想在于摒弃人工标注的限制,从更广阔的范围中寻找超大型的数据集,增大对待学习诊断疾病的特征多样性的包纳,从而期待获得比具有良好训练标签但数据规模极为有限的模型更好的表现。具体而言,作者从包括美国在内的四十多个国家的病理学实验室中搜集了来源于一万五千多个病人的近四万五千个组织切片图像,对应了前列腺癌、基底细胞癌和乳腺癌淋巴结转移三类肿瘤。这一数据达到了前所未有的规模,是深度学习图像分析常用数据集ImageNet的88倍。
在网络架构方面,作者沿用了图像分析弱监督学习的常用手段——多示例学习(multipleinstance learning, MIL),即在仅具有全局标签的数据集上进行训练,但最终能够预测数据亚结构的特征。具体而言,这一由卷积神经网络、多示例学习和循环神经网络串联而成的神经网络结构遵循了一条简单的逻辑,即若组织切片图像上所有亚区域都被判定为非肿瘤,则整个组织切片会被归类为来源于非肿瘤样本;相反,只要有一个亚区域被判定为肿瘤,则整个组织切片就会被归类为来源于肿瘤样本(下图)。
凭借数据规模和多样性的巨大优势,作者所搭建的神经网络模型在三种癌症中均达到了惊人的96.5%到99.1%的ROC曲线下面积。这一极高的准确度甚至超过了多个基于完整标注的小型数据集的强监督学习模型的表现(下图)。
更令人惊讶的是,即使利用完全独立的数据集对这一模型进行测试,其ROC曲线下面积也仅下降了5.84%,作为对比,在仅有400个组织切片图像的CAMELYON16数据集上以强监督方式训练的模型在独立数据集上表现显著下降,ROC曲线下面积降幅高达20%(下图)。这一结果很好地反映了由超大数据集带来的特征多样性的提升的优势,同时再次表明了要真正能够胜任实际临床诊断工作的模型必须具备很强的泛化能力。
最后,基于上述模型表现出的极高诊断准确度,作者认为,其通过对病理组织切片进行快速扫描分析然后产生肿瘤概率分数,从而对所有样本进行优先级排序,能够使得病理学专家只需要专注于大约前25%(在前列腺癌案例中)的切片图像,而仍然保持100%的敏感度(真阳性率)(下图)。这无疑将显著加快临床病理诊断流程,给予病理学专家们更多的精力和时间以对高风险肿瘤样本的病理特征进行细致分析。
总之,该项研究利用无病理特征标注的大规模肿瘤组织切片图像数据集训练出了具有极高准确度和极强泛化能力的神经网络模型,有力地证明了耗时耗力的人工标注并不是人工智能学习过程所必需的。更重要的是,不同于多数研究中研究者将人工智能自动诊断病理特征的水平与人类专家进行比较从而判断其临床应用水平的逻辑,该项研究的作者认为,在综合性癌症中心的实际临床场景下,一个病理组织切片往往会由多个专家反复检查分析,因此总能达到100%的敏感度和特异度,那么人工智能诊断系统的意义就不在于超过这一表现(这亦是逻辑上的不可能),而在于保持一个可接受的假阳性水平的同时以高效稳定的筛选和排序达到100%的真阳性水平。显然,这项工作不仅给出了具有极佳表现的网络模型,更革新了人工智能病理诊断系统的建构逻辑;我们有理由相信,随着真实病理数据规模的不断扩大和人们对模型泛化能力的愈发重视,单个病理诊断模型胜任复杂多变的真实环境将很快成为现实。
原文链接:
https://www.nature.com/articles/s41591-019-0508-1
制版人:小娴子