从Grid R-CNN到Grid R-CNN Plus:基于网格的目标检测演化
作者丨孙明珊
学校丨哈尔滨工业大学(深圳)硕士生
研究方向丨目标检测
研究动机
Grid R-CNN 是一种将传统两阶段检测算法中对于矩形框坐标回归转换成由 FCN 构建物体网格点的方法,由于同一水平线上网格点的互相纠正作用以及相邻网格点空间信息的融合,其探测结果质量高。然而,其速度并不理想,因此 plus 版本在该基础上作了速度和精度提升。
在 Grid R-CNN 中对于一个物体来说,它所有的网格点共享一个相同的特征表达区域,并且此区域过于冗余。为此,Grid R-CNN Plus 将网格分支的输入尺度从原来的 56x56 降低为 28x28,对于每个网格点,新的输出代表了原来大概四分之一的区域,该方法较 Grid R-CNN 不仅提升了速度还提升了精度,除此之外,还从网格分支网络的结构减重、RoI 采样策略以及 NMS 等方面下手来提升模型速度。
研究方法
如上图 (b) 的 3x3 个点,网格点的位置由像素级确定。因此,较之前的回归算法,网络就可以获得更多监督信息。但是由于点位置的预测和局部特征没有直接的关系,比如矩形框左上角的点和其相邻的背景区域点拥有类似的特征,也就是超出物体的角点像素的局部特征相似性。
针对上述问题,采用了多点监督的方式,通过在一个网格中定义目标点,可以获得更多信息来减少一些由于单点监督导致的不准确性。比如左上角的点可以由上边界中点和左边界中点进行校准。
除此之外,为了充分利用网格点的信息,提出了一种信息融合的策略。具体来说,对一个网格点来说,其多个相邻点的特征会被融合成一个特征图,这个融合后的特征图用于相应网格点的预测,使网格点的位置更加精准。
最后,为了弥补真实网格点超出 proposal 范围的问题,将 proposal 区域扩大以包含绝大多数网格点,扩大的计算公式由下图左边方式转换成右边方式:
总而言之,Grid R-CNN 的三个创新点:
多点监督策略
网格点特征融合策略
增大区域映射
网格点特定表示区域
为了解决这个特征表达区域的问题,首先,将 grid branch 的输入尺度从原来的 56x56 降低为 28x28,对于每个 grid point,新的输出代表了原来大概四分之一的区域。经过这样处理后,每个 grid point 的表达可以近似的视为一个归一化的过程。
另外一个好处是,由于我们对每个 grid point 的表达进行了归一化,因此他们变得更加 closer, 导致在特征融合时不需要使用很多的卷积层来覆盖这个间隙。在 Plus 版本,只使用了一个 5x5 depth-wise 卷积层来代替原来的 3 个连续的卷积层。
在 Plus 版本,作者使用了跨图片的采样策略,具体讲,从两个图片中一共采集 192 个 positive proposal,而不再是每张图片采集 96 个 positive proposal。这样就会使训练更具有鲁棒性。
实验结果
总结
原版的 Grid R-CNN 对 Faster RCNN 做了很多精度上的优化,但是速度却慢于 Faster R-CNN,于是 Grid R-CNN Plus 就速度优化在四个方面进行了改进:
网格点特定表示区域
轻量网格分支
跨图片采样策略
一次性 NMS
点击以下标题查看更多往期内容:
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
📬 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
▽ 点击 | 阅读原文 | 下载论文 & 源码