多尺度深度特征(下):多尺度特征学习才是目标检测精髓(论文免费下载)
计算机视觉研究院专栏
作者:Edison_G
深度特征学习方案将重点从具有细节的具体特征转移到具有语义信息的抽象特征。它通过构建多尺度深度特征学习网络 (MDFN) 不仅考虑单个对象和局部上下文,还考虑它们之间的关系。
1
多尺度深度特征(上):多尺度特征学习才是目标检测精髓(干货满满,建议收藏)
SSD框架
ASPP网络
Cascaded
2
新框架
那我们现在接着上一期的继续说多尺度深度特征学习。
上一期我们得出的结论是:浅层和深层的特征对于目标识别和定位起着必不可少的作用。为了有效地利用检测到的特征信息,应考虑另一约束条件,以防止特征被改变或覆盖。
新框架提出了一种创新的目标检测器,它利用在高级层中学习到的深层特征。与较早层产生的特征相比,深层特征更擅长表达语义和上下文信息。所提出的深度特征学习方案将重点从具有细节的具体特征转移到具有语义信息的抽象特征。它通过构建多尺度深度特征学习网络 (MDFN) 不仅考虑单个目标和局部上下文,还考虑它们之间的关系。MDFN通过将信息平方和立方初始模块引入高层来有效地检测目标,它采用参数共享来提高计算效率。
MDFN通过集成多边界框、多尺度和多层次技术提供多尺度目标检测器。尽管MDFN采用了一个具有相对较小基础网络(VGG-16)的简单框架,但与具有更深或极宽的宏观层次结构的具有更强特征提取能力的那些相比,它获得了更好或具有竞争力的检测结果。所提出的技术在KITTI、PASCAL VOC和COCO数据集上进行了广泛的评估,在KITTI上取得了最佳结果,在PASCAL VOC和COCO上取得了领先的性能。这项研究表明,深层特征提供了突出的语义信息和各种上下文内容,这有助于其在检测小目标或被遮挡目标方面的卓越性能。此外,MDFN 模型计算效率高,在精度和速度之间取得了很好的平衡。
Deep feature learning inception modules
深度特征学习初始模块捕获来自基础网络的直接输出。新框架的基本初始模块通过激活多尺度感受野来充分利用深度特征图。在每个模块中,通过1×1过滤直接利用来自前一层的输出特征信息。然后进行3×3、5×5和7×7过滤以激活特征图上的各种感受野,从而在相应的输入图像上捕获不同范围的场景。
研究者在实践中仅使用1×1和3×3滤波器实现多尺度滤波,以尽量减少参数数量。为高层构建了两种类型的幂运算初始模块:一种是信息方初始模块,另一种是信息立方初始模块,如上图所示。通过为不同的过滤器分配权重来构建这两个模块:在以下等式中给出:
上表达式实际上可以分别通过以下信息平方和三次运算来近似。
Parameter Sharing:
通过共享参数,可以有效地实现所提出的信息平方和立方初始模块。例如,通过从5×5单元的第一个3×3过滤器中提取输出并将其与3×3过滤单元的并行输出连接起来,在3×3和5×5过滤单元之间共享参数。然后,3×3过滤操作的输出通道数量隐式加倍,而过滤器集仅使用一次,如上图(b)中的红色箭头所示。这种参数共享可以进一步用于cubic inception模块,如上图(c)所示。3×3滤波操作的输出分别来自3×3、5×5和7×7滤波单元,如上图(c)中三个红色箭头所示。同样,5×5滤波操作的输出分别来自5×5和7×7滤波单元,如两个绿色箭头所示。
Multi-Scale object detection scheme
在新框架模型中,给每个给定位置k个边界框,计算c类分数和每个边界框四个顶点相对于默认边界框的四个偏移量。最终,为特征图内的每个位置提供了总共k(c + 4)个过滤器。因此,每个尺寸为m×n的特征图的输出数量应为k(c + 4)mn。已证实,使用各种默认的框形状将有助于为单发网络预测框的任务,从而提高了目标定位和分类的准确性。 研究者采用这种多边界框技术作为多尺度方案的第一个属性。
深度特征学习起始模块被应用在四个连续的高级层单元中。这四个层单元将其输出深度特征直接传输到最终预测层,这将信息传输完全缩短。
从训练的角度来看,这些缩短的连接使网络的输入和输出彼此更接近,这有益于模型的训练。高级层和最终预测层之间的直接连接缓解了梯度消失的问题,并增强了特征传播。另一方面,四个高级层单元的序列通过语义和上下文信息获取两种方式最大化了深度特征提取和表示的能力。首先,它使后三个高层从先前的较低层获取上下文信息。其次,同一级别的层可以提供不同范围的上下文信息,以及可以在当前层输出中自然构建的更精确的语义表达。这个过程是多尺度方案的第二个特性。
研究者使用多尺度过滤器来激活各种大小的感受野,以增强语义和上下文信息的提取。要注意的另一个方面是要素图的大小。在大多数网络中,特征图的大小会随着深度的增加而逐渐减小。这考虑到系统的内存有限以及功能的比例不变。因此,由于其输入特征图的分辨率比在较早的层中产生的分辨率小得多,因此在网络深处接受的多尺度滤波器将具有较少的计算负担。这抵消了滤波操作增加带来的计算负担。这是拟议的多尺度方案的第三个特性。
Layer structure of deep inception module
提出了两种深度特征学习网络体系结构,分别成为MDFN-I1和MDFN-I2. 它们都具有四个high-level deep feature Inception单元。
3
实验及可视化
Average precision(%) on KITTI validation set
from left to right, represent the results from SSD, MDFN-I1 and MDFN-I2
PASCAL VOC2007 test detection results
Detection results on COCO test-dev
从上往下分别是SSD、MDFN-I1和MDFN-I2检测结果
基于作者提出的框架,在pytorch框架中实现了作者的基本思想,在COCO数据集中简单训练,最终结果比SSD结果好一点,具体效果如下:
转载请联系本公众号获得授权
计算机视觉研究院学习群等你加入!
扫码关注
计算机视觉研究院
公众号ID|ComputerVisionGzq
学习群|扫码在主页获取加入方式
源代码|关注回复“最佳检测”获取
往期推荐
🔗