论文推荐| Slimmable Neural Networks
(1)网络结构
Fig.1. Illustration of slimmable neural networks. The same model can run at different widths(number of active channels), permitting instant and adaptive accuracy-efficiency trade-offs.
作者对上述的Slimmable Neural Networks进行联合训练,发现即使训练过程很稳定,测试结果却很糟糕,在ImageNet上的top-1准确率只有0.1%,如Figure 2中naïve training曲线所示。作者推断这是由于BN层在训练和测试时的统计量差异导致的。BN层在训练阶段使用当前batch的均值和方差进行归一化,并对每一次迭代的均值和方差以滑动平均的方式进行叠加最终得到对整个训练集的均值和方差的估计;在测试阶段,BN层使用整个训练集的估计的均值和方差进行归一化。
在Slimmable Neural Network中,每一个子网络对应不同的输入通道个数,导致相对应的特征具有不同的均值和方差,而这些不同分布的均值和方差仍以滑动平均的方式加入到对整体的均值和方差的估计当中。因此,测试阶段BN层的统计量是所有子网络的均值和方差估计的加权之和,而在训练阶段,BN层的统计量是通过每个子网络的单独计算。BN层统计量在训练和测试阶段的不一致导致了网络性能在这两个阶段的分裂表现。
因此,作者提出了Switchable Batch Normalization (SBN),也即对不同的子网络使用独立的BN层。对每个子网络的总体均值和方差分别进行估计,从而使得训练和测试阶段BN统计量一致。需要注意的是,BN层的参数也是根据不同子网络独立训练的。采用SBN训练的网络性能如Figure 2所示,每个子网络的测试误差均有了稳定的下降。
本文的主要目的之一在于优化所有宽度的网络的平均性能。因此作者提出了以下训练策略:每一次迭代,累加所有子网络的反向传播梯度后,再更新网络权重。
本文设置了每个子网络单独训练作为baseline (MobileNet v1 1.0x, MobileNet v1 0.75x等),与之对照的是相同主干网络的Slimmable Neural Networks (S-MobileNet v1, S-MobileNet v2等)。对比结果如Table 1所示,我们将有提升效果的均以黄色方块标示。从表格中可知,一部分的Slimmable Neural Networks在ImageNet数据集上的准确率具有提升,一部分以MobileNet v2作为backbone的模型准确率有所下降。
Slimmable Neural Network在COCO 2017上的检测、分割、关键点检测结果如Table 2所示。相比较于单独训练的baseline,Slimmable Neural Networks中的各个子网络的性能均有所提升,而且越小的模型提升的越明显。这是因为Slimmable Neural Networks中各个模型是联合训练的,其中大模型为小模型的提供了更好的初始化特征和更丰富的监督信号。
本文进一步对网络作可视化分析。针对不同子网络中的某个特定通道,分别找到令该通道的响应值最高的前10张图片。如Figure 3所示,每一行代表一个子网络的通道3_9的强响应图片,其中红色框表示该图被该模型错误识别,绿色框则表示可被正确识别的图片。可以看到,随着网络宽度的增加,通道3_9所负责识别的图片逐渐从白色(RGB值[255,255,0])转为黄色(RGB值[255,255,255])。这说明,即使共享一组参数,同样的神经元在不同的子网络里扮演着不同的角色。
本文提出了一种有效的根据计算资源动态调整模型复杂度的方法,也即Slimmable Neural Networks。这是一种不同网络宽度的子网络的集合,这些子网络共享一组参数,并通过联合训练获得了比单独训练更高的性能。 本文提出了Switchable Batch Normalization,即不同的子网络使用单独的BN层,保证了训练和测试时统计量的统一分布,使测试性能稳定提升。
[1] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and JianSun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp.770–778, 2016.
[2] Andrew G Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, WeijunWang, TobiasWeyand, Marco Andreetto, and Hartwig Adam. Mobilenets: Efficient convolutional neural networks for mobile vision applications. arXiv preprint arXiv:1704.04861, 2017.
[3] Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov, and Liang-Chieh Chen. Inverted residuals and linear bottlenecks:Mobile networks for classification, detection and segmentation. arXiv preprint arXiv:1801.04381, 2018.
[4] Xiangyu Zhang, Xinyu Zhou, Mengxiao Lin, and JianSun. Shufflenet: An extremely efficient
convolutional neural network for mobile devices. arXiv preprint arXiv:1707.01083, 2017.
原文作者:JiahuiYu, Linjie Yang, Ning Xu, Jianchao Yang, Thomas Huang
撰稿:林洛君
编排:高 学
审校:殷 飞
发布:金连文
免责声明:(1)本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。
[CVPR 2019] Look More Than Once:An Detector for Text of Arbitrary Shape CAAI AIDL 演讲实录丨金连文:“场景文字检测与识别:现状及展望” [IJCAI 2019] BDN:一种利用顺序无关定位盒分解的任意方向场景文本检测方法(有源码) [TPAMI 2019] Mask TextSpotter:An End-to-End Trainable Neural Network [CVPR 2019] Character region awareness for Text Detection (有源码)
征稿启事:本公众号将不定期介绍一些文档图像分析与识别领域为主的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布。请发Word版的图文介绍材料到:xuegao@scut.edu.cn
(扫描识别如上二维码加关注)