【每周CV论文推荐】 初学目标检测必须要读的文章

查看原文

其他

【每周CV论文推荐】初学目标检测必须要读的文章

Original 言有三有三AI 2020-09-07

收录于话题

#CV论文推荐

24个

欢迎来到《每周CV论文推荐》。在这个专栏里，还是本着有三AI一贯的原则，专注于让大家能够系统性完成学习，所以我们推荐的文章也必定是同一主题的。

目标检测作为计算机视觉的基础任务之一，应用非常广泛，今天给大家推荐初学目标检测必读的一些文章。

作者&编辑 | 言有三

1 OverFeat

传统的目标检测如V-J人脸检测算法需要使用多尺度的滑动窗口技术来提取候选检测区域然后提取特征，OverFeat作为ILSVRC2013年目标检测和定位的冠军网络，它把分类过程中提取到的特征同时又用于定位检测任务，将滑动窗口从图像空间转移到了特征空间，大大降低了计算代价。

文章引用量：3000+

推荐指数：✦✦✦✦✦

[1] Sermanet P, Eigen D, Zhang X, et al. Overfeat: Integrated recognition, localization and detection using convolutional networks[J]. arXiv preprint arXiv:1312.6229, 2013.

2 Cascade CNN

Cascade CNN是级联的结构和深度卷积神经网络结合的代表，与V-J框架思想相同。具体实现是将分类网络最后的全连接层修改成卷积层得到全卷积网络，从而可以接受任意大小的输入图像。这样由粗到精的框架是目标检测中很常见的思路，以后还会看到很多的研究。

文章引用量：600+

推荐指数：✦✦✦✦✦

[2] Li H, Lin Z, Shen X, et al. A convolutional neural network cascade for face detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 5325-5334.

3 RCNN

基于候选区域的RCNN框架是卷积神经网络做目标检测中影响巨大的研究，引领了一个系列的发展，这也是传统算法和CNN的一个结合。

文章引用量：9000+

推荐指数：✦✦✦✦✦

[3] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2014: 580-587.

4 SPPNet与Fast RCNN

SPPNet提出的Spatial Pyramid Pooling层实现了将输入的任意尺度的特征图转换为特定维度的输出，从而去掉了RCNN框架中原始图像上的crop/warp等操作的约束。

Fast RCNN借鉴了SPPNet的思想，使用了一个简化的SPP层，即RoI（Region of Interesting）Pooling层，通过RoI pooling反投影回原来的图像空间，实现获取任意图像区域特征的目标。它有点类似于VJ算法中的积分图，实现了一次特征提取，处处可以使用，从而大大降低了计算量。

文章引用量：3000+

推荐指数：✦✦✦✦✦

[4] He K, Zhang X, Ren S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(9): 1904-1916.

[5] Girshick R. Fast r-cnn[C]//Proceedings of the IEEE international conference on computer vision. 2015: 1440-1448.

5 Faster RCNN与R-FCN

Faster RCNN方法提出了Region Proposal Networks，实现了神经网络自己学习生成候选区域，充分利用了feature maps的价值，去除了耗时的selective search，使得目标检测框架达到了实时的性能。

R-FCN使用了全卷积的架构，去除了Faster RCNN中每一个区域进行分类时需要单独使用全连接层进行特征提取的方案，进一步降低了计算代价。

文章引用量：11000+

推荐指数：✦✦✦✦✦

[6] Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks[C]//Advances in neural information processing systems. 2015: 91-99.

[7] Dai J, Li Y, He K, et al. R-fcn: Object detection via region-based fully convolutional networks[C]//Advances in neural information processing systems. 2016: 379-387.

6 FPN

为了解决Faster RCNN系列不能很好地适用多尺度目标预测的问题，FPN框架将高层的特征与低层的特征进行融合，分别对每一层进行预测，多尺度从此是一个性能强劲的目标检测框架中必不可少的元素。

文章引用量：1000+

推荐指数：✦✦✦✦✦

[8] Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 2117-2125.

8 如何获取文章与交流

找到有三AI开源项目即可获取。

https://github.com/longpeng2008/yousan.ai

文章细节众多，阅读交流在有三AI知识星球中进行，感兴趣可以加入。

总结

以上就是初次进入目标检测领域要读的文章，下一次，我们将介绍初次进入图像分割领域要读的文章。

有三AI夏季划

有三AI夏季划进行中，欢迎了解并加入，系统性成长为中级CV算法工程师。

转载文章请后台联系

侵权必究

往期精选

反向激励，在加速这个社会的黑化

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

豪放女乘客扯掉裤子当场“硬要”，的哥乖乖“束手就擒”……

瘦皇被指“爱C女主播”！破防诅咒“小SS父母”：煤气厂爆炸！鱼皇下场开喷！

斗鱼老板已经“Q保H审”？多家知名媒体爆料！律师预计进去五到七年！