AI综述专栏 | CVPR2019目标检测方法进展综述
The following article is from SIGAI Author 陈泰红
目标检测是很多计算机视觉应用的基础,比如实例分割、人体关键点提取、人脸识别等,它结合了目标分类和定位两个任务。现代大多数目标检测器的框架是 two-stage,其中目标检测被定义为一个多任务学习问题:1)区分前景物体框与背景并为它们分配适当的类别标签;2)回归一组系数使得最大化检测框和目标框之间的交并比(IoU)或其它指标。最后,通过一个 NMS 过程移除冗余的边界框(对同一目标的重复检测)。
本文首先综述近年来二维目标检测的优化方向,之后介绍CVPR2019目标检测最新进展,包括优化IoU的GIoU,优化anchor设计的GA-RPN,以及single-stage detection的FSAF。
作者:陈泰红出处:SIGAI人工智能平台
公众号:SIGAI
二维目标检测的优化方向
二维目标检测实现和优化方向包括backbone、IoU、损失函数、NMS、anchor、one shot learning/zero shot learning等。基于目标检测的backbone和特征提取
基于优化的算法
基于优化损失函数的方法
基于优化NMS的方法
GIoU
MotavationGA-RPN
GA-RPN[4]是香港中文大学,商汤和亚马逊联合提出,在COCO Challenge 2018 检测任务的冠军方法中,在极高的 baseline 上涨了1个点。1.alignment,为了用卷积特征作为anchor的表示,anchor的中心需要和特征图的像素中心比较好地对齐
2.consistency,不同位置(不同卷积层)对应的anchor的形状和大小应该一致。
位置预测
形状预测
Feature Adaption
缺点:
FSAF
论文来自于CMU,基于single-stage提出的FSAF模型[6],在COCO目标检测数据集实现single-stage state-of-the-art,44.6% mAP,且推断延时没有增加。文章提出的FSAF以RetinaNet为主要结构,添加一个FSAF分支图 5和原来的class subnet、regression subnet并行,可以不改变原有结构的基础上实现。在class subnet分支添加3x3卷积层(K个滤波器),得到WxHxK的特征图,预测K类目标所属类别的概率。regression subnet分支添加3x3卷积层(4个滤波器),得到WxHx4的特征图,预测回归框的偏移量。
FSAF还可以集成到其他single-stage模型中,比如SSD、DSSD等。FSAF的设计就是为了达到自动选择最佳Feature的目的,如图 6所示,最佳Feature是由各个feature level共同决定。在训练过程,每个anchor通过FPN各卷积层,经过anchor-free计算focal loss和IoU loss,最佳的pyramid level通过最小化focal loss和IoU loss实现。
在推断时,直接选择高置信度的特征金字塔的level即可实现。论文提出的FSAF模型在COCO数据集实现single-stage state-of-the-art,44.6% mAP,且推断时延没有增加,详细实验数据可参看原论文。参考文献
[1]B. Jiang, R. Luo, J. Mao, T. Xiao, and Y. Jiang. Acquisition of localization confidence for accurate object detection.In Proceedings, European Conference on Computer Vision (ECCV) workshops, 2018.
长按二维码了解CCAI 2019大会信息
历史文章推荐
CCAI 2019 | 这是一封来自2019中国人工智能大会的邀约
CVPR2019 |《胶囊网络(Capsule Networks)综述》,附93页PPT下载
AiLearning:一个 GitHub万星的中文机器学习资源
Multi-task Learning(Review)多任务学习概述
医学图像处理与深度学习入门
AI综述专栏 | 多模态机器学习综述
深度学习中不得不学的Graph Embedding方法
学习率和batchsize如何影响模型的性能?
旷视研究院新出8000点人脸关键点,堪比电影级表情捕捉
你正在看吗?👇