低碳AI好科技(3)AI一眼识别"你算什么鸟"？

Original AAIG 阿里巴巴人工智能治理研究中心 2023-11-28

收录于合集

#追AI的人 80 个

#技术干货 23 个

ICCV 2021 VIPriors图像分类赛道和工业检测赛道的双料冠军方案有何亮点？细粒度图像识别与普通的图像识别有何区别？

《追AI的人》第3期直播《国际AI视觉大赛冠军方案分享》圆满结束，AAIG的三位学霸做客现场，畅聊顶会Paper的获奖方案。

接下来，我们将用文字分享第三个议题《AI一眼识别“你算什么鸟”》，共计4214字。

🔻点击查看过往议题：

议题1:低碳AI好科技(1)顶会冠军Writeup:目标检测比赛的常用方法有哪些？

议题2:低碳AI好科技(2):如何降低超30%的算法调用成本?畅聊多专家结构

三个学霸的顶会Paper中奖座谈会:《追AI的人》直播第3期来咯！

胡云青

浙江大学计算机学院DMAC实验室博士生，阿里安全图灵实验室实习生。研究方向和感兴趣方向包括细粒度、多标签、小样本等图像识别，以及多模态图文理解等。

胡云青，浙大在读博士，目前在阿里安全图灵实验室做科研实习的工作。

框架要点

一、方案介绍

· 细粒度图像识别、主流方法、视觉Transformer 、架构、动态图像块建议模块、定位和放大、实现、对比

二、实验结果与结论

01方案介绍

细粒度图像识别

首先这是一个细粒度图像识别的工作。上图中的这些动物，无论是人也好，还是神经网络模型也好，都可以比较轻松地判别它。但是，当类别更细的时候，如哈士奇和阿拉斯加，人可能需要去了解狗的品种之后，才能够顺利地判别出来。同样地，神经网络模型如果没有经过系统的学习，也难以一下子判别出两者的区别。这就引出了细粒度的概念，顾名思义，即神经网络的识别粒度没有以前那么粗放，而是更为细致。

主流方法

这个领域有两个主流的方法，其中之一就是强监督方法，即提供给模型的监督信息是比较强的。那么跟弱监督信息相比，强监督信息强在哪里？

从上图中我们可以看到，监督信息是有一个边界框的，并且每只鸟的每个部位都存在监督信息。这些监督信息都是比较强烈的，并且能够使判别效果大大增强，但同样也会带来一个问题——去标注这些样本带来的人工成本是非常多的。

与之相对应的，则是弱监督方法。它给每一个图提供的监督信息只有一个图像的类别标签，这和之前的强监督方法相比，其监督信息就更为简单，所耗费的人工成本也更低。

视觉Transformer

我们整体的工作都基于视觉Transformer。通过视觉Transformer，图像会直接进行序列化，而后直接输入到 transformer中。简单介绍一下，Transformer原本是在NLP领域中提出并广泛应用的。在去年的ICLR上，谷歌提出了ViT，也就是将Transformer首次应用在ImageNet分类上，并取得了和CNN旗鼓相当的分类性能。视觉Transformer是目前CV方面逐渐迈入主流化的研究方向，目前学术界和工业界普遍都认为其具有深刻及广泛的研究价值。

架构

上图为工作的整体架构，我们称之为多尺度transformer的结构。图左侧是一个用于分类的整体尺度，右侧则是放大的尺度，因此我们称之为多尺度。

那么为什么要把它放大？细粒度图像识别的关键就在于需要把图像当中最具有判别性的区域给找出来，因此使用了transformers来适配它的这种任务特性。从图中可看到这一部分进行了一个放大，然后在左右两边将图像拉到了同一个尺度。

具体而言，我们方法的关键是动态图像建议模块，这和两阶段目标检测中的region proposal比较相似，但又有本质上的差异。两阶段目标检测的region proposal需要构造不同类型的检测框，然后在图像上找数量巨大的区域再进行筛选，而我们的动态图像建议模块，则只需要ViT附带的自注意力权重来实习。我们对ViT每层Encoder进行连乘操作，然后进行归一化和集成操作，将其维度和预处理切割后的图像块数量对应。

定位和放大

接下就是定位和放大的过程，即在原图中找到判别性的区域，然后再把它放大。具体而言，把每层Encoder的自注意力权重进行处理后，得到维度和切割后的图像块数量相同的矩阵。我们通过可视化实验发现，该矩阵的元素大小和原始图像块的重要性有某种对应关系。通常面对这种重要性排序的问题，其中一种解决方法是，用矩阵的均值再乘以一个放大系数作为整体的阈值，大于阈值的矩阵元素认为是具有重要性关系，而小于阈值的元素则相反。因此我们通过上述方法将该矩阵转化为二值矩阵后，通过寻找最大联通区域的算法来对原图中的判别性区域进行定位，最后通过插值算法将该区域放大到和原图相同的大小。

实现

这是总体损失函数，存在两个尺度的loss的融合，第一个全局的尺度，第二个是局部的尺度，通过对这两个尺度的loss相加起来，让它进行联合优化。

另外，我们也提出了多增加了一个分类的 token。具体而言，通常ViT仅使用一个分类token输入到分类器中进行最终的判别，而在这里我们额外添加一个分类token作为对整体和局部分类任务的解耦，让两个分类token各自负责自己的分类任务。

对比

我们这边还和4月份的论文进行了对比，也就是TransFG的工作，这里是主要的步骤以及思想。从其架构图可以看到，TransFG的主要目的其实是过滤前N-1层的patch token，但我们认为只过滤而不进行增强，对整体的分类性能帮助并不大。

02实验结果与结论

实验结果

我们主要是在三个公开数据集上进行实验，CUB是200类的鸟类数据集，iNaturalist是一个包含了5000多类自然物种的大型数据集，Stanford Dog是一个狗类数据集。

上图为消融实验，用以测试不同分辨率下，我们的方法和baseline方法及TransFG的PSM模块的对比，不同阈值放大系数的结果对比以及不同分辨下不同分类token和共享分类token的性能对比。其中可以看到，我们的方法对于分辨率的变化具有鲁棒性；对于大部分分辨率，不同分类token要优于共享分类token；而不同阈值放大系数带来的影响较大，因此需要选择合适的系数。

上图则是一些可视化的结果，可以看到原图跟放大关键区域模型的对比。每幅对比图的第一行是原图，第二行是模型得到的判别性区域。右边的图是模型输出结果的激活区域热力图，第一到第三行分别表示：原图、模型训练前激活区域热力图、模型训练后激活区域热力图。

结论

我们从序列学习角度出发，重新定义细粒度图像分类任务的输入形式，基于视觉Transformer，我们融合多尺度和局部信息，从而对整体分类性能进行有效提升。