全国肿瘤防治宣传周 I 深睿医疗联合华西医院团队实现肺癌EGFR/PD-L1分子状态无创智能预测
4月15-21日是第28个“全国肿瘤防治宣传周”, 肿瘤是严重危害人类健康的慢性疾病,要防治肿瘤,民众意识觉醒和医疗专业技术的提高都是不可或缺的因素。每一年的全国肿瘤防治宣传周都像是一场史诗级的战役,今年的“全国肿瘤防治宣传周”的主题是“癌症防治,早早行动”。
近日,四川大学华西医院与深睿医疗团队在国际知名免疫学期刊Frontiers in Immunology(《免疫学前沿》,JCR Q1区,IF=7.561),发表题为《Predicting EGFR and PD-L1 status in NSCLC patients using multi-task AI system based on CT images》的研究成果。该论文研究了一种基于AI和医疗大数据的影像组学新算法,基于多任务学习的模式同时实现术前无创的肺癌表皮生长因子受体(EGFR)基因分型和程序性死亡配体-1 (PD-L1)表达预测的临床应用。
据世界卫生组织下属国际癌症研究机构(IARC)数据显示,2020年中国新发癌症病例数约457万人,超过了世界其他国家。其中,新发病例数位居首列的就是肺癌,占到了2020年新发病例数的82万人,同时,肺癌是我国死亡率最高的癌症,我国平均每十万人有30.2人死于肺癌,早筛是预防癌症的重中之重。
肺癌作为发病率第一的癌症,其个性化治疗对于提升患者生存率有重大意义。而非小细胞肺癌(NSCLC)约占所有原发性肺恶性肿瘤的85%[1]。以表皮生长因子受体(EGFR)、酪氨酸激酶抑制剂(TKIs)和针对T细胞程序性死亡-1 (PD-1)受体的免疫检查点抑制剂(ICIs)为代表的靶向治疗,或由肿瘤细胞表达的程序性死亡配体-1 (PD-L1),已经显著革新了癌症治疗和改善了肺癌的生存结局。因此,识别预测性生物标志物对于选择更可能对免疫疗法产生反应的个体是至关重要的。传统的EGFR或PD-L1鉴定需要手术或活检肿瘤标本,但穿刺只能获取肿瘤局部组织的信息,由于肿瘤的高度异质性,可能会产生假阴性结果[2]。此外,对于一部分晚期肺癌患者,由于其肿瘤所处的位置特殊,或者由于癌症转移等因素,难以穿刺到合适的肿瘤组织。在此之前,也有许多AI系统来对基因进行预测,然而,这些已建立的AI系统只专注于一种单一的基因的二元有无诊断,限制了其在现实世界中的临床意义和通用性。因此,我们开发了一个针对多基因突变的多任务AI系统,使得其可以基于非侵入性的方式 (CT图像/临床信息)预测EGFR基因分型以及预测PD-L1状态的表达,从而作为对穿刺的补充和辅助。
(图1) 模型框架结构图
该研究通过采集病人的影像大数据以及临床信息,构建基于多源信息的融合特征学习模型进行多任务预测。该系统包含四个主要的组件(图1):深度学习模块、放射组学模块、临床模块和特征融合模块。对于深度特征的提取,由于全局特征和局部特征在具体预测中的作用不同,本文基于ResNet-3D-18的基本框架构建了一个权重共享的双通道结构(肺癌局部特征和肺部全局信息)。放射组学模块对疑似肿瘤进行精确分割,从疑似肿瘤中提取大型高维特征(包括一阶(HU统计值)、形状和纹理属性等)。而临床模块基于自由文本的放射学报告以及临床信息报告,开发了NLP算法,以结构化标签格式(靶向疾病或异常标签的二值向量)解析患者的放射学异常和出院诊断。最终,融合模块利用全连接层提供基于深度学习特征、放射组学特征和临床特征组合的融合特征,继而自适应地将这些多源的特征联合映射到另一个特征空间,从而更好地利用每一个特征的信息。
(图2)多任务模型ROC曲线
该研究纳入了来自四川大学华西医院的3816名肺癌病人,用于开发及验证人工智能系统。在独立测试集上,比较了深度学习和传统放射组学在预测肺癌EGFR突变状态方面的性能(EGFR-wild和EGFR-mutant)(图2)。在该任务中,多源融合系统达到了AUC=0.895 (95% CI, 0.883-0.907)的预测精度,优于传统的影像组学模型(0.805; 95% CI 0.789-0.827)以及深度学习模型(0.842; 95% CI 0.825-0.855)。此外,对于EGFR的基因进一步分型(19-Del, L858R等),多任务多源融合模型也取得了较好的结果(0.841; 95% CI 0.818-0.864)。在PD-L1表达量预测任务上(TPS ≥50%,49%≥TPS ≥1%和TPS <1%),该系统也达到了0.864(95% CI, 0.802-0.924)的预测精度。
(图3)多任务多源融合模型系统混淆矩阵图
最终,对于多任务多源融合系统对于EGFR基因分型以及PD-L1的表达的效果以及不同基因型特征的不同响应在图3和图4中进行展示。该研究结果表明AI系统在辅助医学专业人员方面的价值,为通过CT图像识别EGFR和PD-L1的表达状态提供了一种无创、易于使用的方法,可作为指导NSCLC患者靶向治疗和免疫治疗的预测性生物标志物。未来可以更加细化和扩大改进其应用范围,在更大的前瞻性试验中预测其他常见基因(如ALK和KRAS)的突变。
(图4)不同特征对于EGFR基因分型以及
PD-L1的表达的响应
深睿医疗长期与华西医院在多学科领域进行合作,产出了众多优质成果,此前与李为民教授团队合作的关于一种新型的半监督医学影像检测模型(SSMD)的科研成果发表在国际医学图像分析领域知名期刊《Medical Image Analysis》(MIA)(IF 8.545)上,本研究在病理细胞检测和肿瘤检出方面具有巨大潜力。深睿医疗科研成果斐然,截止到目前为止牵头或参与了7项科技部重点研发计划,9项国家自然科学基金,30多个省市级科研项目,仅2021年就与国内多家顶级医疗机构合作,联合申报成功4个国自然项目,同年获得了医学影像AI领域唯一的国家科学技术进步二等奖。目前已获700多个专利及软著,其科研成果累计影响因子近1000。
随着《“健康中国2030”规划纲要》全面贯彻执行,推进健康关口前移,提高全民族的健康水平。通过创新技术强化早诊断、早治疗、早康复,实现全民健康是根本目的。提升人工智能技术在医疗科研与临床实践上的智慧应用,助力恶性疾病的早期筛查与精准治疗,必将让人类在战胜癌症之路上走得更快、更远。
[1] Herbst RS, Morgensztern D, Boshoff C. The biology and management of non-small cell lung cancer. Nature (2018) 553(7689):446-54. Epub 2018/01/25. doi: 10.1038/nature25183. PubMed PMID: 29364287.
[2] Akamatsu, Hiroaki, et al. "Efficacy of Osimertinib Plus Bevacizumab vs Osimertinib in Patients With EGFR T790M–Mutated Non–Small Cell Lung Cancer Previously Treated With Epidermal Growth Factor Receptor–Tyrosine Kinase Inhibitor: West Japan Oncology Group 8715L Phase 2 Randomized Clinical Trial." JAMA oncology 7.3 (2021): 386-394.
被收录文章
Wang C, Ma J, Shao J, Zhang S, Liu Z, Yu Y, Li W. Predicting EGFR and PD-L1 Status in NSCLC Patients Using Multitask AI System Based on CT Images. Front Immunol. 2022;13:813072.