基于拉曼光谱的结直肠癌深度学习检测方法
结直肠癌(CRC)是一种常见的健康问题,据估计,2020年美国有14.8万例新病例和5.3万例死亡。结肠镜检查是诊断结直肠癌的主要检查方法,这一方法可能通过消除癌变前的病灶来预防疾病。但结肠镜检查并不是100%准确,即使结肠镜检查结果为阴性,几个月或几年之后还是可能会出现癌症,此类病例被称为结肠镜检查后结直肠癌 (PCCRCs)。研究表明,英国国民健康服务体系(NHS)中每年有多达700名患者确诊PCCRCs。因此,提高结直肠癌的检出率至关重要。
结肠镜检查主要是针对活检或内窥镜下组织特征进行分类,但在正常的肠粘膜上发现一些小的病灶十分困难。而拉曼光谱是一种基于入射光的非弹性散射所产生的分子特性来获得组织光谱特性的非破坏性化学分析技术,可以识别不同的分子物种,并根据不同峰的强度评估它们的相对浓度。但由于实际应用当中的环境噪声的影响,特征峰值很小,难以检测。
为了解决当前临床难题,浙江大学的Jian Wu课题组开发了一种新的结直肠癌拉曼光谱检测方法。他们研究了不同组织对拉曼光谱的影响,并设计了1D-ResNet的深度学习模型,通过拉曼光谱对肿瘤组织进行分类。实验结果表明,利用深度学习方法对大肠癌的检测准确率达了98.5%,证明了其提出的1D-ResNet模型可以有效地分类结直肠肿瘤组织和正常组织的拉曼光谱,使拉曼光谱结合结肠镜检查提高结直肠癌的检出率成为可能。相关研究成果已于近期发表在期刊BMEF上。
图1介绍了该方法的流程。首先采集结直肠癌样本的拉曼光谱,随后进行基线校正和降噪等预处理,之后用1D-ResNet模型对光谱数据进行分类训练,并利用类激活映射(CAM)分析方法对结果可视化。
图1 文章采用的深度学习方法检测结直肠癌的示意图
该研究结直肠癌样本共26例,其中I级6例,II级12例,III级8例,将收集到的肿瘤和配对的正常组织平均分成2万多个小块,并采集每个小块对应的拉曼光谱,扫描范围为385 ~ 1545 cm−1,每个样本检测三次,得到平均值。在此基础上,建立了CRC拉曼光谱数据集,包含20424个拉曼光谱数据。如图2所示,CRC肿瘤组织与正常组织的光谱仅在某些偏移峰上存在细微差异。
图2 收集到的结直肠癌病灶和正常组织的拉曼光谱的可能性样图
在模型预训练阶段,作者进行了数据预处理和数据增强两个步骤。首先,对采集到的原始拉曼光谱进行数据处理,包含基线矫正、去噪以及数据标准化,用以提高数学模型的稳定性;在数据增强过程中,作者使用三个方法来扩展数据集,(i)产生与每次拉曼位移幅度成正比的高斯白噪声;(ii)将每个光谱随机向左或向右移动几个拉曼位移;(iii)将原始光谱乘以从0.2到2的随机强度增强因子。
为了得到更好的模型性能,作者选择使用卷积神经网络(CNN)的变体—残差神经网络(ResNet),其在训练深度网络体系结构时,可以利用每个剩余块的输入和输出之间的短连接来防止梯度消失和过拟合。因为光谱数据是一维向量,所以选择使用1D的卷积核进行运算,作者提出的1D-ResNet网络结构如图3所示。
图3 作者提出的集成1D-ResNet模型的总体架构
首先作者选择将原始光谱作为输入训练模型,准确度达到了94.6%。为了提升模型性能,作者提出三种方法来改进模型。第一种,为了强化拉曼峰强度,通过将强度因子与原始光谱的主峰相乘得到强化拉曼数据,模型准确度为95.3%;第二种,为了捕捉部分特征,将原始光谱以(0~512)以及(128~640)两个区间分割为两份数据,模型准确度为92%;最后,以8:1:1的权重对三种ResNet模型进行集成,最终的集成模型准确率达到了最高的98.5%。各个模型结果如图4所示,图5为最终集成模型的混淆矩阵结果。
图4 不同Resnet模型性能
图5 集成1D-ResNet模型测试集的混淆矩阵
使用拉曼光谱数据诊断CRC属于二分类任务,为了验证文章提出的集成1D-ResNet模型性能,作者使用几种常用的机器学习方法—SVM、LightBoost、XGBoost和随机森林进行了比较实验。结果如图6、7所示,作者所采用的1D-ResNet网络模型在准确度、AUC等各项指标中都远远超过其他机器学习方法。
图6 不同方法进行二分类的ROC曲线图
图7 不同机器学习分类算法性能比较
为了更直观地表示1D-ResNet模型在拉曼光谱数据上的性能,作者采用了类激活映射(CAM)分析方法对模型进行了可视化。如图8所示,虽然目标数据看起来相似,但1D-ResNet模型侧重于不同的拉曼区域。对于肿瘤组织光谱,模型取值范围较宽,为450cm-1 到1200cm-1,而对于正常组织光谱,模型取值范围较小,为800cm-1 到1000cm -1。图9为一些可能对应相关拉曼峰位置的物质。
图8 利用Grad-CAM实现光谱数据中激活部分的可视化
图9 拉曼峰对应表
综上所述,作者应用深度学习技术通过拉曼光谱数据成功检测结直肠癌,提出了一种集成1D-ResNet模型,实现了拉曼光谱编码数据的精确和自动解码,解决了传统机器学习方法分析数据效率低、稳定性差的问题。通过可视化结果突出了结直肠肿瘤组织的成分差异,使得拉曼光谱在临床结直肠癌诊断中的应用成为可能。
原文链接:
https://doi.org/10.34133/2022/9872028
END
About BMEF
BMEF(《生物医学工程前沿》)是中国科学院苏州生物医学工程技术研究所(SIBET CAS)与美国科学促进会(AAAS)/Science合作出版的开放获取国际学术期刊。期刊旨在为生物医学工程这一交叉学科提供一个高效的交流平台,以推动领域内的科学家、工程师和临床医学专家及时地交流,共同促进人类健康。关注在致病机理研究和疾病预防、诊断、治疗及评估方面取得的突破性进展,包括概念、设备、材料、组织、过程和方法。致力于报道临床前的基础研究、转化医学和临床研究的成果。
期刊网址:
https://spj.sciencemag.org/journals/bmef/
投稿网址:
https://www.editorialmanager.com/bmef/
欢迎各位同仁踊跃投稿!
点击下方“阅读原文”查看文章原文
点击“在看”,助力传播