查看原文
其他

【源头活水】特征提取网络HS-ResNet

“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。

者:知乎—MaLiXiao.G

地址:https://www.zhihu.com/people/tianyuan.ma

HS-ResNet: Hierarchical-Split Block on Convolutional Neural Network

这篇HS-resnet是百度扔出来的一篇文章,官方也在飞浆主页上贴出来了。先看下结果图:
先写在前边,在看文章的时候那个公式,我研究了好一阵子,所以我也找了一下好多人写的分析,好多文章把那个公式,就一步一步的给推出来,看着好神奇。
首先看到这篇文章,感觉就和Res2Net一摸一样,但是有点点不一样,就是Res2Net组合时用的是相加,HS-ResNet是通道连接。这里文中解释道是受了GhostNet的启发。
既然提到了,链接就一并贴上:
https://arxiv.org/abs/2010.07621
https://arxiv.org/abs/1911.11907
https://arxiv.org/abs/1904.01169

既然很像,那就先从Res2Net说起

在许多视觉任务中,多尺度的表示特征是非常重要的。最新的研究在不断的提升着 backbone 网络的多尺度表达能力,在很多任务上都提高了算法性能。然而,大多数现有的深度学习方法是利用CNN的不同层的感受野不同,来表达网络多尺度特征。
这篇文章的作者提出了一种新的卷积网络构造方式 Res2Net,通过在单个残差块里面构建层次化的连接实现。Res2Net 是在更细粒度级别上来表示多尺度特征,并且增加了每层网络的感受野范围。它可以无缝插入现有的ResNet,ResNeXt等网络结构。并且在多个视觉任务的基准数据集上,与 baseline 模型进行了对比,都它优于当时的 SOTA 方法。
在多个视觉任务中,如图像分类,目标检测,动作识别,语义分割等,设计一个好的多尺度特征是非常重要的。有以下三点原因:
  1. 如上图所示,在一张图片里面,同一目标可能有不同的大小,比如图上的沙发。
  2. 待检测目标的上下文信息可能比它本身占的区域更多,例如,我们需要使用大桌子作为上下文信息来判断放在上面的是杯子还是笔筒。
  3. 从不同尺度的感知信息来理解如分类和语义分割的任务是非常重要的。
因此,多尺度的特征在传统方法和深度学习里面都得到了广泛应用。通常我们需要采用一个大感受野的特征提取器来获得不同尺度的特征描述,而卷积神经网络通过一堆卷积层可以很自然的由粗到细多尺度的提取特征。如何设计更高效的网络结构是提升卷积神经网络性能的关键。
So. 作者提出了一种简单有效的多尺度提取方法。与现有的增强单层网络多尺度表达能力的 CNNs 方法不同,它是在更细的粒度上提升了多尺度表征能力。
Res2Net——以更细粒度(granular level)表示多尺度特征,并增加每个网络层的感受野(receptive fields)
如上图,该网络改自bottleneck,将原本的3*3卷积层替换成右图所示的,多层级的阶梯卷积。
普通特征金字塔的不同stage形成了感受也不同的尺度层级,而作者在每个stage内,形成多层级感受野,来达到更细粒度的多尺度的。说白了就是把这一层一大堆通道,分成几个小堆,不同堆之前又形成了不同的感受野层级。

再说下GhostNet


论文是发表于CVPR2020的一篇轻量级网络的论文,作者是华为诺亚方舟实验室。

文章的总体思路比较清晰,为了减少网络计算量,作者将传统的卷积分成两步进行,首先利用较少的计算量通过传统的卷积生成channel较小的特征图,然后在此特征图的基础上,通过cheap operation(depthwise conv逐通道卷积 (Depthwise Convolution) Depthwise Convolution的一个卷积核负责一个通道,一个通道只被一个卷积核卷积,这个过程产生的feature map通道数和输入的通道数完全一样。也就是以较少的计算量,生成新的特征图,最后将两组特征图拼接到一起,得到最终的output。
Depthwise Convolution
简单点说就是上半部分得到了特征图中较为基础的部分,剩下的一些细化的可以通过基础特征图简单变换得到的Ghost特征,就由一些计算量小,简单的(Deepwise)卷积来进行。
最终实验效果还不错,相同计算量的情况下比MobileNet- V3的效果还要更好一些。
个人理解名字里的(Ghost -/鬼影),就其实网络中表达图像基础信息的通道没有那么多,就会有冗余,冗余的那些通道看起来好像是由基础的那些通道变换得到的,那部分特征图是可以从已有特征图上生成,所以就起了Ghost吧~

下面是作者提出的HS-ResNet,可以看到他和Res2Net十分相似

Res2Net在讲瓶颈结构中间层的通道等分,进行卷积之后,X2传到隔壁X3的特征两者是进行像素相加的方式。而HS-ResNet则是把上一部分的通道直接连接到下一部分。
因为作者认为,add求和运算很可能会改变,甚至破坏原有的特征表示,而连接运算则会整体地维护特征表示,因此这里选择去链接而不是add。
还有就是说这个结构怎么受到Ghostnet的启发???
没有怎么看出来,也许是奖卷积后的一块对半分的时候,上一半看成是原有特征,后一半继续接到下一部分继续卷积,相当于鬼影????????????
不知道,我没有看懂·,文章里也没有解释,估计是这么改了之后,结构和人家的结构有那么点相似,提了一下?
先进行拆分,进行卷积,之后,在拆分,一组直接传出,另一部分concat到下一层在进行卷积,之后的结果再拆分,。。。。。。依此类推
后边作者推了下公式想证明参数量少~结果我感觉那块可能不对。应该少了个平方(画问号的部分)~结论因该也得不到参数少~后边实验的表格显示的数据也是参数多了~

Experiment

基本的特征提取网络,所以在各种CV任务上做了实验:

最后总结一下~

1. 首先它和Res2net类似进行层内更加细粒度的多尺度
2. Res2Net的add的操作可能会改变,甚至破坏特征表示,而连接运算则会整体地维护特征表示,
3. 卷积后的上一层特征拆分成了两部分,一部分保留其固有特征,另一部分送到下一层,去捕捉更精细的特征
4. 感受野较小的输出特征图可以聚焦细节,这对识别小物体或物体关键部位非常重要,感受野大的部分对识别大的物体更有帮助。

本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。


“源头活水”历史文章


更多源头活水专栏文章,

请点击文章底部“阅读原文”查看



分享、在看,给个三连击呗!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存