多目标检测:基于YoloV4优化的多目标检测(附论文下载)
关注并星标
从此不迷路
公众号ID|ComputerVisionGzq
学习群|扫码在主页获取加入方式
计算机视觉研究院专栏
作者:Edison_G
为了解决目标检测任务中小目标检测精度低、误检、漏检率高等问题,有研究者提出了一种新的目标检测方法。
为了解决目标检测任务中小目标检测精度低、误检、漏检率高等问题,有研究者提出了一种基于YOLOv4卷积神经网络的多目标检测方法。 多目标检测作为目标检测领域的一个重要研究方向,一直受到研究人员的广泛关注。目前,在智能交通、智能辅助驾驶和视频监控等领域已经产生了深入的研究。
二、概要
三、新框架
新的模型架构如上图所示。它由三部分组成:用于特征提取的前端网络、特征融合模块和用于分类和回归操作的检测模块。在输入处将输入图像的尺寸resize为416×416,输入到网络中进行训练和检测。 基本卷积块是一个卷积层,它结合了批量归一化 (BN) 并使用Mish和leakyRelu激活函数。
模型前端使用CSPDarknet模块组成的主干网络,由卷积层和残差模块叠加,有效防止在网络层数加深的基础上梯度消失或爆炸,获得更丰富的语义信息特征图,并且在主干网络中,特征图维度的减少是通过卷积层的5倍下采样实现的,其步长为2,内核大小为3;对网络neck处进行2次上采样,浅层采用PAN+SPP模型结构实现浅层特征与高层语义特征的融合以及多尺度感受野的融合,充分利用了浅层网络,改善小目标特征丢失的问题;检测头采用回归+分类的思想,将输入图像分别划分为76×76、38×38、19×19三种不同尺寸的网格图像,分别实现小目标、中目标和大目标的检测目标。
SPP模块:
该模型在主干网络后面添加了SPP模块,如下图所示。输入特征图经过一个卷积层后,经过5×5、9×9、13×13三个核进行最大池化, 然后concat得到的特征图进行通道拼接,输出通道数变成原来通道数的4倍,特征图大小保持不变。
输出特征图大小为:
其中n是输入特征图的大小,p是padding,s是步长,这意味着向下取整。SPP模块通过使用不同大小核的Maxpool层获取特征图局部区域的感受野信息和接近全局的感受野,并进行特征融合。这种融合不同尺度感受野的操作可以有效丰富特征图的表达能力,增强骨干网络输出特征的接受范围,分离重要的上下文信息。
四、实验及可视化
转载请联系本公众号获得授权
计算机视觉研究院学习群等你加入!
扫码关注
计算机视觉研究院
公众号ID|ComputerVisionGzq
学习群|扫码在主页获取加入方式
往期推荐
🔗