在癌症筛查这件事上,要不要相信人工智能?
AI公司正在帮医生做提高诊断效率方面的尝试,却鲜有报道临床诊断软件上市前需要做的大规模前瞻性临床试验,但这是软件应用前必走的一步。
2017年世界胃肠病学大会(WCOG)&美国胃肠病学年会(ACG)将唯一的国际奖授予了一个中国团队的研究——AI筛查结直肠癌的临床研究。
这支来自四川省人民医院的团队自2016年底,利用深度学习技术自动进行肠镜筛查结直肠癌。结直肠癌是一种胃肠道常见的恶性肿瘤。如果按照癌症发病率排名,结直肠癌已跻身前五。
早期筛查能有效降低癌症患者死亡率,但由于肠道环境复杂、早期癌变或息肉又小又平以及医生疲劳等因素,临床漏诊率很高。而AI能有效降低结直肠癌筛查的漏检率。
到目前为止,四川人民医院这一项目已完成自动肠镜筛查结直肠癌系统的临床试验验证,在静态图片验证或动态实时视频验证中,系统敏感度、特异度均在90%以上。四川省人民医院医生、该项目负责人表示,第三阶段临床实验正在进行,目的是证明这个系统能够帮助医生显著地提升腺瘤检出率。
相比Google去年的糖网筛查项目,这项研究是“升级版”。2016年,Google在《美国医学会杂志》上发表了一篇论文,介绍其使用深度学习检测糖尿病诱发的视网膜病变项目,结果显示算法诊断准确性优于糖尿病医生。这项研究证明了深度学习用于医疗图像识别的可能性,一时间,AI医疗成为风口。
据粗略统计,目前国内已经有70多家AI医疗公司,大多数都在与医院合作进行回顾性研究和临床验证,目的是为了将自己的产品打磨得更好。不过, 对于诊疗软件上市前需要做的大规模前瞻性临床试验,鲜有报道。
肠癌是腺瘤病变,腺瘤则是息肉病变,通过肠镜筛查寻找息肉,是结直肠癌筛查的最重要手段。在AI辅助下,会有效降低消化科医生的漏诊率。
在消化道内窥镜的检查中,设备每秒拍摄几十帧图像,AI辅助诊断系统需要实时筛选出存在病变疑点的图像并并提示给医生,这要求AI系统又快又准。
上消化道内窥镜
四川人民医院团队做了静态图片验证和动态视频中实时处理验证,结果显示:在静态图片验证中,系统的敏感度、特异度都大于94%,即使对于人眼经常漏诊的小息肉,扁平息肉和等色息肉,系统的敏感度仍然可以保持大于91%;动态视频中实时处理验证中,系统对息肉的检出率是100%,算法延迟只有40多毫秒,因为图像模糊等的因素,系统敏感度稍微降到92%左右,特异度在96%,用来实时辅助医生防止漏诊已经完全没有问题。
这不是AI应用于结直肠癌筛查的首次探索。此前,有报道称,富士胶片和奥林巴斯合作研究,在使用内窥镜的检查中,由人工智能自动判断胃癌等可疑病症,这项技术最早将于2020年投入实际应用。
日本癌症研究中心和日本电气公司(NEC)也开发了利用AI自动识别技术作为内窥镜检测时的辅助诊断系统。NEC和日本癌症中心承认这项技术还只能用来识别比较明显的息肉,对于小息肉,扁平息肉和等色息肉的识别能力有限,预计2年内系统才会进入临床实验,“根据很多内线的报告,其实所有的内窥镜大厂商都在研发类似的技术,大部分效果不佳”。
利用人工智能(AI)自动识别技术作为内窥镜检测时的辅助诊断系统
不管是Google筛查糖尿病视网膜病变项目,还是斯坦福的皮肤癌项目,两者都有十几万训练数据,此次四川省人民医院团队的训练样本数据仅五六千张。但因为有数学家深度参与这个项目,数学建模帮助AI系统输入医学知识建立抽象知识体系,从而让深度学习的视觉拟合功能更精确的发挥作用,是该项目比较节约数据的主要原因。
Google糖尿病视网膜筛查项目,12.8万张训练样本,验证测试用了9963张,不到十分之一,而四川省人民医院团队用小于6000张训练样本,验证测试图片加视频帧一共18万张左右,验证集是训练集的30多倍。
在机器学习和模式识别等领域中,一般需要将样本分成独立的三部分,训练集(train set)、验证集(validation set ) 和测试集(test set)。通俗地说,训练集就是机器算法学习的样本,测试集是训练好学习算法后,评估算法效果的数据集。测试集和训练集的比例某种程度上能反应系统的过拟合程度。
澳大利亚阿德莱德大学在读医学博士生Luke Oakden-Rayner曾撰文指出,目前还没有第三阶段医疗人工智能试验。而这是临床试验的最后一步,系统经过大型前瞻性患者阵列研究,且能准确代表目标受众,探究系统对于临床患者的帮助究竟有多大。此前,需要第一阶段临床试验确定有前景的模型;第二阶段临床试验需要大规模患者阵列,通过回顾性研究,确定模型的价值,Google的糖尿病视网膜筛查项目被划为第二阶段。
现在四川人民医院团队做的临床试验属于第三阶段,目的是证明人工智能能多显著地帮助医生提升检出率。在癌症筛查这件事上,人工智能的应用及判断仍然任重而道远。