中国信通院专家在国际期刊发表关于混合模型CNN-ViT用于小样本图像识别的论文
在图像任务中小样本问题(因训练数据不足,模型难以学习到有效且泛化的特征)由于数据标注难度大、成本高及样本分布不均等原因而普遍存在。这不仅会导致模型陷入对小样本的过拟合,还可能因正负样本比例严重失衡使得分类器将测试数据更倾向于判别为多数类。由于小样本具有针对性强、个性化和精确性等特点,针对于小样本的图像处理算法在很长的一段时间内将是重要的研究课题。
2024年3月,《国际成像系统与技术》杂志(JCR 2区,影响因子3.3)以封面形式报道了中国信息通信研究院张义、巫彤宁等人发表的文章《SVTNet: Automatic bone age assessment network based on TW3 method and vision transformer》。该文章通过在分类任务中融合Convolutional Neural Network(CNN)和Vision Transformer(ViT)的混合模型CNN-ViT框架,在关注全局信息的同时从学习模型的角度出发应对小样本图像识别问题。以下是研究背景和文章研究内容的介绍。
图1 2024年3月《国际成像系统与技术》杂志对文章的封面报道
研究背景:Vision Transformer与CNN-ViT的发展历程
2020年,Google团队提出了ViT模型,将Transformer技术应用于图像分类。与CNN不同,ViT通过将图像分割后作为序列数据输入Transformer,直接学习图像的全局模式和细节特征,无需卷积操作。然而,ViT在处理细粒度特征时因其缺少归纳偏置,效果可能不及CNN,而在小数据集上特别依赖正则化和数据增广。混合模型CNN-ViT可以弥补ViT的不足并融合二者优势。在该模型中,图像先通过CNN层初步提取特征,再通过ViT分类,有效结合CNN的局部信息捕捉能力与ViT的全局上下文理解能力。
研究内容:CNN-ViT模型构建和应用
骨龄评估(BAA)是评估儿童生长发育的重要手段,对于预测成人身高、诊断各种疾病如骨质疏松症、早熟和侏儒症等具有重要作用。骨龄评估在临床中通常使用Tanner-Whitehouse 3(TW3)方法通过对20个感兴趣区域(ROIs)的成熟度进行分级(图2),然后将这些分级分数汇总以计算整体的骨骼成熟度得分,进而转换为骨龄。尽管TW3方法因其高度的可解释性和准确性而被广泛采用,但其过程繁琐且依赖于放射科医师的专业知识,因此开发自动化的TW3-BAA对于辅助临床医生至关重要。
图2 TW3骨龄评估方法ROIs示意图
中国信息通信研究院人工智能研究团队提出了基于CNN-ViT框架的多区域集合网络—SVTNet用于自动化的TW3-BAA任务。该算法首先使用Spatial Configuration-Net (SCN) 定位37个关键点(如图3所示),作为参考标记点来裁剪出20个TW3-RUS/C评分所需的ROIs,并对各区域骨骼成熟度进行分类。SVTNet网络针对骨龄评估中的小样本问题,结合CNN提取局部细粒度特征和ViT网络利用全局上下文信息进行特征分类。同时引入了难样本挖掘技术来更加关注难分类样本,提高模型的分类准确性。最后,使用“骨骼成熟度-骨龄”的规则表自动推导出骨龄得分。整个算法流程如图4所示。
图3 采用SCN网络定位的37个手部关键点
图4 算法流程图
该研究在中国儿童临床数据库上评估了SVTNet模型的性能,并计算了骨成熟度的平均绝对误差(MAE)。其中,所提算法的RUS/C系列的骨成熟度分数MAE分别为29.4和30.4,对应的BAA MAE值为0.47年和0.50年,这些结果显示SVTNet模型的准确性与放射科医师相当,且该算法可输出所有中间结果,具备了可解释性和可追溯性。在指掌骨数据上进行的与骨龄评估领域相关算法Bonnet和SIMBA的横向对比实验结果表明,所提算法取得了最佳结果(图5)。
图5 指掌骨数据集相关算法骨成熟度分数MAE对比实验结果
总结
CNN-ViT网络在小样本图像识别领域,表现出了显著的优势,主要体现在以下几方面:
1. 融合局部与全局特征,提升模型表达能力:CNN能够有效地捕捉到图像中的局部特征,比如边缘、纹理等,而ViT通过自注意机制能够捕获全局信息。这种结合使得CNN-ViT模型在小样本图像识别任务中,能够同时理解图像的细节与整体结构,提高识别的准确性和泛化能力。
2. 平衡效率与性能,降低大模型落地门槛:传统的ViT模型需要大量的数据和计算资源训练才能达到优良的性能,而通过将CNN与ViT结合,可以利用CNN的特征提取能力,减少ViT处理的复杂度,在不牺牲太多性能的情况下提高训练效率。
3. 强化小样本学习,应对样本稀缺的问题:小样本学习依赖于Transformer的泛化能力,CNN-ViT的结构可以通过较少的样本训练出较好的模型,尤其是在ViT部分引入如元学习等技术后,进一步提升模型对新类别的适应能力。
CNN-ViT架构在小样本图像识别领域展现了巨大的潜力,未来团队将在探索不同的网络结构、注意力机制的改进和模型压缩技术等方面展开进一步研究,以提升模型的性能和泛化能力。
联系方式:
中国信息通信研究院
人工智能研究所
张义
18810252336
zhangyi5@caict.ac.cn
校 审 | 谨 言、珊 珊
编 辑 | 凌 霄
推荐阅读
专家谈