查看原文
其他

[CVPR 2022] Mobile-Former: Bridging MobileNet and Transformer

林炜丰 CSIG文档图像分析与识别专委会 2022-07-13

本文简要介绍2022年被CVPR录用论文“Mobile-Former: Bridging MobileNet and Transformer”的主要工作。本文提出了一种新颖的Mobile-Former,它采用了MobileNet与Transformer两路并行设计机制,该架构充分利用了MobileNet的局部处理优势与Transformer的全局交互能力。Transformer与MobileNet的双向桥接促进了全局特征与局部特征的双向融合。

一、研究背景



已有的Transformer对标的CNN主要是ResNet系列,鲜少有对标端侧轻量模型的Transformer。本文则从轻量模型角度出发,在MobileNet与Transformer组合方面进行了探索,它创造性的将MobileNet与Transformer进行了两路并行设计,穿插着全局与特征的双向融合,同时利用卷积与Transformer两者的优势达到“取长补短”的目的。此外,受益于超轻量设计,所提Mobile-Former不仅计算高效,同时具有更强的表达能力。在ImageNet分类与COCO目标检测方面,所提Mobile-Former取得了显著优于MobileNetV3的性能。

二、Mobile-Former原理简述



1. 整体框架 

在本文中,作者采用并联的设计范式,将MobileNet和Transformer并行化,提出了一种新的双向并行架构,并将其命名为Mobile-Former,其中Mobile指MobileNet, Former指Transformer。Mobile分支以堆叠Mobile Block为主干,输入的是图片。它利用高效的Depthwise和Pointwise卷积来提取像素级的局部特征。而Former分支以一些可学习的Token作为输入,叠加Multi-head Attention和前馈网络(FFN)。这些Token用于对图像的全局特征进行编码。

Mobile-Former是MobileNet和Transformer的并行设计,中间有一个双向桥接。这种结构利用了MobileNet在局部处理和Transformer在全局交互方面的优势。并且该桥接可以实现局部和全局特征的双向融合。与最近在视觉Transformer上的工作不同,Mobile-Former中的Transformer包含非常少的随机初始化的Token(例如少于6个Token),从而导致计算成本低。

2. Low Cost Two-Way Bridge

作者利用Cross Attention的优势融合局部特性(来自Mobile)和全局Token(来自Former)。这里为了降低计算成本介绍了2个标准Cross Attention计算:

在Channel数较低的MobileNet Bottlneck处计算Cross Attention;
在Mobile Position数量很大的地方移除预测(),但让他们在Former之中。
从局部到全局的轻量级Cross Attention 定义如下: 
其中是第h个Head的Query投影矩阵, 用于将多个Head组合在一起, Attention是用的标准自注意力函数, 如下所示 
注意, 全局特性Z是Query, 而局部Feat x是Key和Value。应用于全局Token z上。这个Cross Attention如图3(Mobile→Former)所示。以类似的方式,从全局到局部的Cross Attention计算如下: 
其中是Key和Value的投影矩阵。在这里, 局部Feat x是Query, 而全局Feat z是Key和Value。这种Cross Attention的图表如图3(Mobile←Former)所示。
3. Mobile-Former Block

Mobile-Former可以解耦为Mobile-Former块的堆栈(见图1)。每个块包括Mobile sub-block、Former sub-block和双向桥接(MobileFormer和MobileFormer)。Mobile-Former块的细节如图3所示。 

3.1 Mobile-Former块有2个输入:

(1)局部特征图, 具有C通道和L空间位置 , 其中L=hw,h和w为特征图的高度和宽度);

(2)全局Token, 其中M和d分别是Token的数量和维数。

Mobile-Former块输出更新后的局部特征映射为和全局Token, 用作下一个(i+1) 块的输入。注意, 全局Token的数量和维度在所有块中都是相同的。

3.2 Mobile sub-block

Mobile Sub-block以Feature Map Xi为输入。与MobileNet中的Inverted Bottleneck Block略有不同, 在第一次Pointwise卷积和深度卷积后用Dynamic ReLU代替ReLU作为激活函数

3.3 Former sub-block

Former Sub-block是带有多头注意(MHA)和前馈网络(FFN)的标准Transform Block。在这里,作者遵循ViT使用后层标准化。为了节省计算,作者在FFN中使用的扩展比为2而不是4。

Former Sub-block之间处理是双向交叉注意力, 即(Mobile→Former和Mobile←Former)(见 图3)。

3.4 Mobile→Former

采用所提出的轻量Cross Attention (第2小节)将局部特征融合到全局Token。与标准自注意力相比去掉了Key和Value(在局部特征上)的投影矩阵, 以节省计算量(如图3所示)。其计算复杂度为, 其中第1项涉及计算局部特征和全局特征之间的 Cross Attention以及为每个全局Token聚合局部特征,第2项是将全局特征投影到局部特征C的同一维度并在聚合后返回到维度d的复杂性。

3.5 Mobile←Former

这里的Cross Attention位于移动方向的相反方向。它融合了全局Token和局部特征。局部特征是Query, 全局Token是Key和Value。因此, 保留Key和Value的投影矩阵 , 但在去掉Query的投影矩阵以节省计算, 如图3所示。

3.6计算复杂度

Mobile-Former块的4个支柱有不同的计算成本。Mobile Sub-block消耗的计算量最多,它与空间位置数呈线性增长,与局部特征c中通道数呈二次增长。Former Sub-block和双向Bridge具有较高的计算效率,消耗小于所有Mobile-Former模型总计算量的20%。

4. 网络配置

表1显示了在294M FLOPs上的Mobile-Former架构, 它以不同的输入分辨率堆叠11个 Mobile-Former块。 

所有Mobile-Former区块都有6个维度为 192 的全局Token。它以3x3卷积作为Stem开始, 随后是Bottleneck Block在Stage- 1。Lite Bottleneck Block使用3x3深度卷积来扩展Channel数量, 并使用Pointwise卷积来压缩Channel数量。

Stage 2-5有一个Mobile-Former块的Downsample变体(表示为Mobile-Former ↓)来处理空间 下采样。在Mobile-former↓中, 只有Mobile Sub Block中的卷积层从3层(Pointwise→Depthwise→Pointwise) 改变为4层(Depthwise→Pointwise→Depthwise→Pointwise), 其中第一个深度卷积层有Stride=2。Channel的数量在每个深度卷积中扩展, 并压缩在接下来的Pointwise卷积中。这节省了计算, 因为两 个代价高昂的Pointwise卷积在下采样后以较低的分辨率执行。

Mobile-Former有7个不同计算成本的模型,从26M到508M FLOPs。它们的结构相似,但宽度和高度不同。作者遵循[36]来引用我们的模型的FLOPs,例如Mobile-Former-294M, Mobile-Former-96M。这些Mobile-Former模型的网络架构细节如下表。 

三、主要实验结果及可视化效果



1. ImageNet Classification

在 ImageNet 分类上从 25M 到 500M FLOPs 的低 FLOPs 机制下优于 MobileNetV3。例如,它在 294M FLOP 下实现了 77.9% 的 Top-1 准确率,比 MobileNetV3 提高了 1.3%,但节省了 17% 的计算量。 

 

2. Object Detection

在迁移到目标检测时,Mobile-Former比 MobileNetV3高8.6 AP,如下表所示: 

四、总结及讨论



Mobile-Former由11个不同输入分辨率的Mobile-Former模块构成,所有Mobile-Former均具有6个维度为192的全局Token。Stem由卷积+轻量Bottleneck构成,分类头则采用以局部特征全局均值池化与全局Token的首个元素拼接作为输入并通过两个全连接层预测。

Mobile-Former中的Transformer包含非常少的(比如少于6个)、随机初始化Tokens,进而产生了非常低的计算复杂度。结合所提轻量注意力机制,Mobile-Former不仅计算高效,同时具有更强的表达能力。

相关资源



Mobile-Former论文地址:https://arxiv.org/pdf/2108.05895.pdf

参考文献



[1] Hanting Chen, Yunhe Wang, Chunjing Xu, Boxin Shi, Chao Xu, Qi Tian, and Chang Xu. Addernet: Do we really need multiplications in deep learning? In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020

[2] Yinpeng Chen, Xiyang Dai, Mengchen Liu, Dongdong Chen, Lu Yuan, and Zicheng Liu. Dynamic convolution: Attention over convolution kernels. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020

[3] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-toend object detection with transformers. In ECCV, 2020.



原文作者:Yinpeng Chen Xiyang Dai Dongdong Chen Mengchen Liu Xiaoyi Dong

Lu Yuan  Zicheng Liu


撰稿:林炜丰

编排:高 学
审校:连宙辉
发布:金连文


 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。



往期精彩内容回顾





欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。




扫描二维码,关注我们:




发表于广东

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存