[CVPR 2022] Mobile-Former: Bridging MobileNet and Transformer
一、研究背景
二、Mobile-Former原理简述
1. 整体框架
在本文中,作者采用并联的设计范式,将MobileNet和Transformer并行化,提出了一种新的双向并行架构,并将其命名为Mobile-Former,其中Mobile指MobileNet, Former指Transformer。Mobile分支以堆叠Mobile Block为主干,输入的是图片。它利用高效的Depthwise和Pointwise卷积来提取像素级的局部特征。而Former分支以一些可学习的Token作为输入,叠加Multi-head Attention和前馈网络(FFN)。这些Token用于对图像的全局特征进行编码。
Mobile-Former是MobileNet和Transformer的并行设计,中间有一个双向桥接。这种结构利用了MobileNet在局部处理和Transformer在全局交互方面的优势。并且该桥接可以实现局部和全局特征的双向融合。与最近在视觉Transformer上的工作不同,Mobile-Former中的Transformer包含非常少的随机初始化的Token(例如少于6个Token),从而导致计算成本低。
2. Low Cost Two-Way Bridge
作者利用Cross Attention的优势融合局部特性(来自Mobile)和全局Token(来自Former)。这里为了降低计算成本介绍了2个标准Cross Attention计算:
Mobile-Former可以解耦为Mobile-Former块的堆栈(见图1)。每个块包括Mobile sub-block、Former sub-block和双向桥接(MobileFormer和MobileFormer)。Mobile-Former块的细节如图3所示。
3.1 Mobile-Former块有2个输入:
(1)局部特征图
(2)全局Token
Mobile-Former块输出更新后的局部特征映射为
3.2 Mobile sub-block
Mobile Sub-block以Feature Map Xi为输入。与MobileNet中的Inverted Bottleneck Block略有不同, 在第一次Pointwise卷积和深度卷积后用Dynamic ReLU代替ReLU作为激活函数
3.3 Former sub-block
Former Sub-block是带有多头注意(MHA)和前馈网络(FFN)的标准Transform Block。在这里,作者遵循ViT使用后层标准化。为了节省计算,作者在FFN中使用的扩展比为2而不是4。
Former Sub-block之间处理是双向交叉注意力, 即(Mobile→Former和Mobile←Former)(见 图3)。
3.4 Mobile→Former
采用所提出的轻量Cross Attention (第2小节)将局部特征融合到全局Token。与标准自注意力相比去掉了Key和Value(在局部特征上)的投影矩阵, 以节省计算量(如图3所示)。其计算复杂度为, 其中第1项涉及计算局部特征和全局特征之间的 Cross Attention以及为每个全局Token聚合局部特征,第2项是将全局特征投影到局部特征C的同一维度并在聚合后返回到维度d的复杂性。
3.5 Mobile←Former
这里的Cross Attention位于移动方向的相反方向。它融合了全局Token和局部特征
3.6计算复杂度
Mobile-Former块的4个支柱有不同的计算成本。Mobile Sub-block消耗的计算量最多
4. 网络配置
所有Mobile-Former区块都有6个维度为 192 的全局Token。它以3x3卷积作为Stem开始, 随后是Bottleneck Block在Stage- 1。Lite Bottleneck Block使用3x3深度卷积来扩展Channel数量, 并使用Pointwise卷积来压缩Channel数量。
Stage 2-5有一个Mobile-Former块的Downsample变体(表示为Mobile-Former ↓)来处理空间 下采样。在Mobile-former↓中, 只有Mobile Sub Block中的卷积层从3层(Pointwise→Depthwise→Pointwise) 改变为4层(Depthwise→Pointwise→Depthwise→Pointwise), 其中第一个深度卷积层有Stride=2。Channel的数量在每个深度卷积中扩展, 并压缩在接下来的Pointwise卷积中。这节省了计算, 因为两 个代价高昂的Pointwise卷积在下采样后以较低的分辨率执行。
Mobile-Former有7个不同计算成本的模型,从26M到508M FLOPs。它们的结构相似,但宽度和高度不同。作者遵循[36]来引用我们的模型的FLOPs,例如Mobile-Former-294M, Mobile-Former-96M。这些Mobile-Former模型的网络架构细节如下表。
三、主要实验结果及可视化效果
1. ImageNet Classification
在 ImageNet 分类上从 25M 到 500M FLOPs 的低 FLOPs 机制下优于 MobileNetV3。例如,它在 294M FLOP 下实现了 77.9% 的 Top-1 准确率,比 MobileNetV3 提高了 1.3%,但节省了 17% 的计算量。
2. Object Detection
四、总结及讨论
Mobile-Former由11个不同输入分辨率的Mobile-Former模块构成,所有Mobile-Former均具有6个维度为192的全局Token。Stem由卷积+轻量Bottleneck构成,分类头则采用以局部特征全局均值池化与全局Token的首个元素拼接作为输入并通过两个全连接层预测。
相关资源
参考文献
[1] Hanting Chen, Yunhe Wang, Chunjing Xu, Boxin Shi, Chao Xu, Qi Tian, and Chang Xu. Addernet: Do we really need multiplications in deep learning? In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020
[2] Yinpeng Chen, Xiyang Dai, Mengchen Liu, Dongdong Chen, Lu Yuan, and Zicheng Liu. Dynamic convolution: Attention over convolution kernels. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2020
[3] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-toend object detection with transformers. In ECCV, 2020.
原文作者:Yinpeng Chen Xiyang Dai Dongdong Chen Mengchen Liu Xiaoyi Dong
Lu Yuan Zicheng Liu
撰稿:林炜丰
免责声明:(1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
往期精彩内容回顾
[CVPR 2022] TATT:用于场景文本图像超分辨率的文本注意力网络
[CVPR2022] CG-GAN: 基于部件级感知的one-shot字体生成
[CVPR 2022] 通过字符上下文解耦的开放集文本识别新方法(有源码)
[CVPR 2022] SimAN: 基于生成式模型的文本图像自监督表征学习
[AAAI 2022] 用于场景文本识别的视觉语义辅助文本推理(有源码)
[ACM MM 2021] JokerGAN: 低参数量的具有文本行感知的手写文本生成模型
[CVPR 2022] 基于场景文字知识挖掘的细粒度图像识别算法(有源码)
[CVPR 2022] 特征采样与分组:基于Transformer的场景文字检测方法
[AAAI 2022 Oral] ABM: 基于注意力聚合和双向交互学习的手写数学公式识别(有源码)
[CVPR 2022] SwinTextSpotter: 基于文本检测与识别更好协同的场景文本识别(有源码)
[ACM MM 2021]显示、阅读和推理:基于灵活上下文聚合器的表格结构识别
欢迎加入中国图象图形学学会!(附入会攻略)
扫描二维码,关注我们:
发表于广东