查看原文
其他

卷积神经网络有哪些大胆又新奇的网络结构?

极市平台 2021-09-19

The following article is from 有三AI Author 言有三

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动!

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。关注 极市平台 公众号 ,回复 加群,立刻申请入群~


作为深度学习中的一大重要板块,模型架构始终是大家研究的热点,除了AutoML技术,有哪些突破常规比较新奇的网络架构?



1


作者:言有三
来源:https://www.zhihu.com/question/337470480/answer/766380855
本文已由作者授权转载,未经允许,不得二次转载。


你大概已经见惯了基本的卷积结构,对残差网络也了如指掌,对分组卷积也烂熟于心,也知道模型压缩的一些技巧,不过今天这里要说的,大部分同学可未必知道噢。


大众的模型结构咱们不讲,今天从卷积方式,通道变化,拓扑结构等各方面给大家介绍几个模型,立志于在这个方向发文章的同学,可要看仔细了。


1 渐变的宽度-金字塔结构


这是一个通道数的变化方式相关的网络结构。


Pyramidal Residual Networks


通常来说,网络结构的通道数量变化是突变的,那有没有网络的增加是缓慢变化的呢?这就是金字塔结构了,名为Pyramidal Residual Networks。


大家都知道,CNN等结构在特征图尺度减小的时候,通常会随之增加特征图的通道数目来增加高层的表达能力,这是模型性能的保证,大部分的模型其特征图通道数的增加是跳变的,比如从128增加到256。


之前我们讲述过随机删减深度的残差网络证明了深度残差网络的深度其实没有想象中那么深,在文章“Residual networks behave like ensembles of relatively shallow networks[C]”中的研究也表明删除掉一些block并不会显著降低性能,但是降采样的网络层除外。


本篇文章基于这个现象,认为要降低降采样的敏感性,必须要让通道的变化是缓慢的,即随着层数增加,每一层都慢慢增加宽度,命名为金字塔结构,如下。


这里a图是线性增加,b图是指数级增加。


那么到底性能如何呢?首先看下训练曲线对比:



这里两个网络的参数差不多,都是1.7M左右,从曲线上看,性能也相当。


另一个要关注的问题是,金字塔ResNet有没有实现它的初衷,即改善降低分辨率的网络层被删除时带来的性能下降,结果如下:



从结果看来,错误率确实降低了。更加具体的实验结果,大家自己去看论文吧。

[1] Han D, Kim J, Kim J. Deep pyramidal residual networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 5927-5935.


2 分支众多-分形结构


这是一个多分支结构相关的网络结构。


FractalNet


残差网络可以使得上千层的网络结构设计成为可能,但并不是只有残差网络可以做到,FractalNet(分形网络)便是如此。


分形是一个数学概念,指的是具有以非整数维形式填充空间的形态特征,也就是说它的有效维度不是整数。不过我们这里可以不用关注它的数学定义,而是关注它的,分形几何结构的一部分具有和整体相似的结构,即自相似,如下图形:



分形网络,顾名思义也是这样的特点了,局部的结构和全局相似,如下图:



可以看到包含了各种长度不同的子路径,从左到右:


第一列路径只有一条,长度l。

第二列路径两条,长度l/2。

第三列路径四条,长度l/4。

第二列路径八条,长度l/8。


它与残差网络的不同之处在于,绿色模块表示的非线性变换,即下一层不可能直接得到上一层的信号,而是经过了变换。


这样的一种包含了不同深度的子网络,与之前提过的stochastic depth有异曲同工之妙,它也可以被看作是不同深度的网络的ensemble。


作者们通过随机丢弃某些深度的方法也做了实验,丢弃的样例如下:



上面展示了两种路径,训练时混合使用。


Global: 只选择一条路径,且是同一列,这条路径就是独立的强预测路径。


Local:包含多个路径,但是保证每一层至少要有一个输入。


那么结果如何呢?



如上,与各种网络进行了对比,性能很好。在添加了drop-path技术后,还有极大提升,并且单独只拿出其中最深的一条路径所得的网络,都有接近最好的模型的性能。


与残差网络的相关研究一样,分形网络的研究也表明路径的有效长度才是训练深度网络的真正影响因素,不论是分形网络,还是残差网络,都拥有更短的有效的梯度传播路径,从而使得深层网络训练更不容易过拟合。

[1] Larsson G, Maire M, Shakhnarovich G. Fractalnet: Ultra-deep neural networks without residuals[J]. arXiv preprint arXiv:1605.07648, 2016.


3 一切可连-环形网络


这是一个基于跳层的复杂拓扑网络结构。


CliqueNet


DenseNet通过复用不同层级的特征图,提高了通道的利用率,不过它的连接是前向的,即信息只能从浅层向深层传递,而CliqueNet则更进一步,信息的传递是双向的。


结构如上图所示,CliqueNet不仅有前传的部分,还有后传,这种网络架构同时受到了RNN等循环网络和注意力机制的启发,使得特征图重复使用而且更加精炼。


CliqueNet的训练包含两个阶段。第一个阶段与 DenseNet 相同,即图中的Stage-1,此时浅层特征向深层进行传递,这可以视为初始化过程。


第二个阶段中每一层不仅接受前面所有层的特征图,也接受后面层级的特征图反馈。可以看出这是一种循环的反馈结构,可以利用更高级视觉信息来精炼前面层级的特征,实现空间注意力的效果。实验结果表明,它有效地抑制了背景和噪声的激活。



整体的网络架构如上:网络由很多的block组成,每一个block的stage II的特征通过global pool串接生成最终的特征。与DenseNet的不同之处在于,随着网络架构,每一个block的输入输出特征图不需要增加,从而更加高效,结果如下:



从上表可以看出,参数量和精度是非常具有优势的。

[1] Yang Y, Zhong Z, Shen T, et al. Convolutional neural networks with alternately updated clique[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 2413-2422.


4 不规则的卷积核-可变形网络


这是一个卷积核的形状相关的网络结构。


Deformable Convolution


卷积操作本身具有非常固定的几何结构,标准的卷积操作是一个非常规矩的采样,通常是正方形,如果卷积核采用非规矩的采样,即它的形状不再是标准的方形,而是任意形状,则称之为可形变卷积(Deformable Convolution)。


要描述上面的卷积核,不仅仅需要权重系数,还需要每一个点的偏移量,可变形卷积的思想最早以Active Convolution的形式被提出。


在Active Convolution中,卷积核的各个分量都有自己的偏移量,对于一个3*3的卷积,就包含了18个系数,其中X方向和Y方向的偏移量各9个。不过各个通道共享该系数,所以与输入输出通道数无关。


对于输入通道为M,输出通道为N,使用3*3的卷积的Active Convolution,权重参数量为M*N*3*3,偏移参数量为2*3*3,远远小于权重参数量,所以增加的参数量几乎可以忽略不计。


在Deformable convolutional networks,每一个通道不共享偏移量,偏移参数量为2*M*3*3,增加的参数量比Active Convolution更多,但是相比卷积核权重参数量M*N*3*3,仍然小很多,所以不会大幅度增加模型的大小,而且实际实现时可以对输出通道进行分组。



从上图就可以看出可变形卷积有更灵活的感受野。


可变形卷积的实现只需要增加偏移量的学习,实际就是多了一个offset层,给offset输出通道数变量,我们还可以对输出进行分组,控制要学习的变形的种类。



最后看一下参数对比和性能。




实验了各个网络层的结果,参数量的增加很小,性能也是提升的。具体的效果如何,大家不妨用自己的实验结果来验证。

[1] Jeon Y , Kim J . Active Convolution: Learning the Shape of Convolution for Image Classification[J]. 2017.
[2] Dai J, Qi H, Xiong Y, et al. Deformable Convolutional Networks[J]. 2017.


5 测试可变的网络-可分叉网络


这是一个推理时动态变化的网络结构。


BranchyNet


通常来说模型训练完之后结构就是固定的,测试时图片沿着固定的通路进行计算。然而测试样本本身有不同的难度,简单的样本只需要少量的计算量就可以完成任务,困难的样本则需要更多的计算量。


如上图所示,它在正常网络通道上包含了多个旁路分支,这样的思想是基于观察到随着网络的加深,表征能力越来越强,大部分简单的图片可以在较浅层时学习到足以识别的特征,如上图中的Exit 1通道。一些更难的样本需要进一步的学习,如上图中的Exit 2通道,而只有极少数样本需要整个网络,如Exit3通道。这样的思想可以实现精度和计算量的平衡,对于大部分样本,可以用更小的计算量完成任务。


那么如何判断是否可以提前结束呢?在提出该网络的论文中,作者采用分类信息熵,一旦该通道的分类信息熵低于某一个阈值,说明已经以很高的置信度获得了分类的结果,直到最终的通道。


在训练的时候,每一个通道都会对损失有贡献,越靠近浅层的网络权重越大。多通道的损失不仅增强了梯度信息,也在一定程度上实现了正则化。


将BranchyNet的设计思想用于LeNet,AlexNet,ResNet结构后,在维持性能的前提下,加速效果明显。



对于拥有N个分支的网络,需要的就是N-1个阈值,因为最后一个分支不需要阈值。

LeNet系列网络可以让超过90%的样本在第一个分支提前终止,AlexNet提前终止样本比例也超过一半,ResNet提前终止样本比例超过了40%。

[1] Teerapittayanon S, McDanel B, Kung H T. Branchynet: Fast inference via early exiting from deep neural networks[C]//2016 23rd International Conference on Pattern Recognition (ICPR). IEEE, 2016: 2464-2469.


2



作者:人民艺术家
来源:https://www.zhihu.com/question/337470480/answer/824132026
本文仅供学习参考,著作权归作者所有,如有侵权,请私信删除。

  • 总结

    • changelog

    • 多路径特征处理

    • 组卷积的演变

    • 花式卷积

    • 卷积混搭

    • 图像领域的注意力结构

    • 多尺度特征提取

      • ASPP新花样

    • 扩张卷积的讲究

    • 深监督

    • SE/SK/M&R

    • 新奇的结构

    • 相关资料


多路径特征处理


  • Identity mapping (https://www.yuque.com/lart/architecture/db7i2a#sNMiq)

  • (arxiv 2016)RESNET IN RESNET: GENERALIZING RESIDUAL ARCHITECTURES (https://www.yuque.com/lart/architecture/db7i2a#BBwPC)
  • (ICLR 2018)LOG-DENSENET: HOW TO SPARSIFY A DENSENET (https://www.yuque.com/lart/architecture/db7i2a#2r6Xt)
  • (ECCV 2018)Sparsely Aggregated Convolutional Networks (https://www.yuque.com/lart/architecture/db7i2a#Z015s)
  • Multi-branch (https://www.yuque.com/lart/architecture/db7i2a#MHuqj)

  • (ICCV 2019)Drop an Octave: Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution (https://www.yuque.com/lart/architecture/db7i2a#dNFUy)

  • (CVPR 2019)ELASTIC: Improving CNNs with Dynamic Scaling Policies (https://www.yuque.com/lart/architecture/db7i2a#wIMKs)

  • (CVPR 2019)Deep High-Resolution Representation Learning for Human Pose Estimation(HRNet) (https://www.yuque.com/lart/architecture/db7i2a#XDV4W)

  • (arxiv)High-Resolution Representations for Labeling Pixels and Regions(HRNetV2) (https://www.yuque.com/lart/architecture/db7i2a#RFPoS)

  • (CVPR 2017)Multigrid Neural Architectures (https://www.yuque.com/lart/architecture/db7i2a#2jve3)

  • (arxiv 2016)Deeply-Fused Nets (https://www.yuque.com/lart/architecture/db7i2a#BVMXu)

  • (IJCAI 2018)Deep Convolutional Neural Networks with Merge-and-Run Mappings (https://www.yuque.com/lart/architecture/db7i2a#pfrES)



组卷积的演变


  • AlexNet(2012) (https://www.yuque.com/lart/architecture/group#7mobe)

  • (CVPR 2017)ResNeXt (https://www.yuque.com/lart/architecture/group#7phku)

  • (MMM 2017)Logarithmic Group Convolution (https://www.yuque.com/lart/architecture/group#cGiXD)

  • (CVPR 2017)Deep Roots (https://www.yuque.com/lart/architecture/group#eIk8T)

  • (arixv 2014)Rigid-Motion Scattering for Texture Classification (https://www.yuque.com/lart/architecture/group#ALoI3)

  • (ICCV 2017)Factorized Convolutional Neural Networks (https://www.yuque.com/lart/architecture/group#NaHZ4)

  • (arixv 2016)Xception (https://www.yuque.com/lart/architecture/group#4o328)

  • (arxiv 2017)MobileNet (https://www.yuque.com/lart/architecture/group#k0YUN)

  • (ICCV 2019)HBONet: Harmonious Bottleneck on Two Orthogonal Dimensions (https://www.yuque.com/lart/architecture/group#74Z7o)

  • (ICCV 2017)IGCV1: Interleaved Group Convolutions for Deep Neural Networks (https://www.yuque.com/lart/architecture/group#rxMY2)

  • (CVPR 2018)IGCV2: Interleaved Structured Sparse Convolutional Neural Networks (https://www.yuque.com/lart/architecture/group#CnFUw)

  • (BMVC 2018)IGCV3: Interleaved Low-Rank Group Convolutions for Efficient Deep Neural Networks (https://www.yuque.com/lart/architecture/group#GMxWY)

  • (CVPR 2018)ShuffleNetV1 (https://www.yuque.com/lart/architecture/group#Kh3DL)

  • 其他相关文章 (https://www.yuque.com/lart/architecture/group#XCSB0)


花式卷积


  • (ICLR 2015)Flatted Convolution (https://www.yuque.com/lart/architecture/conv#uGzbq)

  • (ICCV 2019)4-Connected Shift Residual Networks (https://www.yuque.com/lart/architecture/conv#VIBd6)


卷积混搭


  • MixNet: Mixed Depthwise Convolutional Kernels (https://www.yuque.com/lart/architecture/mixnet#4d9jS)

  • Res2Net: A New Multi-scale Backbone Architecture (https://www.yuque.com/lart/architecture/mixnet#w6WTr)


图像领域的注意力结构


  • Residual Attention Network for Image Classification (https://www.yuque.com/lart/architecture/vw6t5t#cNg2C)

  • Attention Augmented Convolutional Networks (https://www.yuque.com/lart/architecture/vw6t5t#xcDTJ)

  • Graph-Based Global Reasoning Networks (https://www.yuque.com/lart/architecture/vw6t5t#TeeOb)

  • SRM : A Style-based Recalibration Module for Convolutional Neural Networks (https://www.yuque.com/lart/architecture/vw6t5t#fHk1g)

  • Spatial Group-wise Enhance: Improving Semantic Feature Learning in Convolutional Networks (https://www.yuque.com/lart/architecture/vw6t5t#5yiAM)

  • Non-local Neural Networks (https://www.yuque.com/lart/architecture/vw6t5t#1rIG9)

  • Asymmetric Non-local Neural Networks for Semantic Segmentation (https://www.yuque.com/lart/architecture/vw6t5t#HHV2p)

  • Compact Generalized Non-local Network (https://www.yuque.com/lart/architecture/vw6t5t#eIgbE)

  • A2-Nets: Double Attention Networks (https://www.yuque.com/lart/architecture/vw6t5t#f1LV0)

  • GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond (https://www.yuque.com/lart/architecture/vw6t5t#iHP1x)

  • CBAM: Convolutional Block Attention Module (https://www.yuque.com/lart/architecture/vw6t5t#VL9QW)

  • BAM: Bottleneck Attention Module (https://www.yuque.com/lart/architecture/vw6t5t#tH1FF)

  • A Relation-Augmented Fully Convolutional Network for Semantic Segmentationin Aerial Scenes (https://www.yuque.com/lart/architecture/vw6t5t#8aEEw)

  • Dual Attention Network for Scene Segmentation (https://www.yuque.com/lart/architecture/vw6t5t#1e4w5)

  • 相关链接 (https://www.yuque.com/lart/architecture/vw6t5t#0pYLl)

  • 参考资料 (https://www.yuque.com/lart/architecture/vw6t5t#EuuVn)

  • 综述论文 (https://www.yuque.com/lart/architecture/vw6t5t#LZ7gr)


多尺度特征提取


  • PPM (https://www.yuque.com/lart/architecture/mutli#A095s)

  • ASPP (https://www.yuque.com/lart/architecture/mutli#x7GOY)

  • GPM (https://www.yuque.com/lart/architecture/mutli#xrRq4)

  • FPA (https://www.yuque.com/lart/architecture/mutli#REGYY)

  • Omni-Scale Residual Block (https://www.yuque.com/lart/architecture/mutli#E2GkI)


ASPP新花样


  • DenseASPP (https://www.yuque.com/lart/architecture/moreaspp#A2Lp6)


扩张卷积的讲究


  • HDC (https://www.yuque.com/lart/architecture/moredilated#4lXNe)

  • Dilated Residual NetWorks (https://www.yuque.com/lart/architecture/moredilated#J0CcE)

  • Smoothed Dilated Convolutions (https://www.yuque.com/lart/architecture/moredilated#BgmZO)


深监督


  • DSN (https://www.yuque.com/lart/architecture/dsn)


SE/SK/M&R


  • SE (https://www.yuque.com/lart/architecture/upvx1p#bMTs0)

  • SK (https://www.yuque.com/lart/architecture/upvx1p#bzKZs)

  • M&R (https://www.yuque.com/lart/architecture/upvx1p#KJWYv)


新奇的结构


  • FRACTALNET: ULTRA-DEEP NEURAL NETWORKS WITHOUT RESIDUALS (https://www.yuque.com/lart/architecture/arch#uplDt)

  • Deep Pyramidal Residual Networks (https://www.yuque.com/lart/architecture/arch#I57ao)

  • Deep Layer Aggregation (https://www.yuque.com/lart/architecture/arch#iuakf) 

  • UNet++: A Nested U-Net Architecture for Medical Image Segmentation (https://www.yuque.com/lart/architecture/arch#492Mv)


相关资料


  • DEEP CONVOLUTIONAL NEURAL NETWORK DESIGN PATTERNS:[https://arxiv.org/pdf/1611.00847.pdf (https://arxiv.org/pdf/1611.00847.pdf)



-END-



点击 阅读原文,可跳转浏览本文内所有网址链接



*延伸阅读


添加极市小助手微信(ID : cv-mart),备注:研究方向-姓名-学校/公司-城市(如:目标检测-小极-北大-深圳),即可申请加入目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割等极市技术交流群,更有每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流一起来让思想之光照的更远吧~




△长按添加极市小助手


△长按关注极市平台


觉得有用麻烦给个在看啦~  


: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存