查看原文
其他

【源头活水】用概率分布评估检测框质量的 Generalized Focal Loss V2

“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。

作者:知乎—有童心的老王

地址:https://www.zhihu.com/people/wang-shi-geng-57



01

Summary
1. Motivation
定位质量评估(Localization Quality Estimation,LQE)在目标检测中越来越流行和重要,因为它可以给检测框提供精确的rank分数,从而提高非极大抑制处理的效果以及模型的性能。过去预测LQE都是简单地通过卷积层的特征图得来,这些特征图本来是用来做目标的分类和回归任务的,过于简陋。因此作者提出一种全新的方式来获得LQE,使用学习到的bbox的分布来指导LQE的生成。所谓bbox的分布来自于Generalized Focal Loss,即学习到的bbox形状(边框)不是一个清晰明确的标量,而是在某个范围内的分布,作者发现bbox的分布和真实的LQE具有较强的相关性。因此作者提出了一个轻量级的分布指导质量检测器(Distribution-Guided Quality Predictor,DGQP),借助GFLV1的bbox分布统计来生成可靠的LQE,作者称为GFLV2。不了解GFLV1的同学可以看我这篇笔记或者李翔老师的讲解。
https://zhuanlan.zhihu.com/p/310229973
https://zhuanlan.zhihu.com/p/147691786
2. Methods
作者提出使用bbox方框的概率分布生成的全新检测头,其主要结构如下:
1)常规的分类任务分支,用于生成分类置信度。
2)在GFLV1中提出的bbox概率分布回归分支,用于生成bbox的概率分布。
3)添加一条从回归分支到分类分支的通路,从bbox的概率分布生成对bbox的定位质量分数IoU,与前面得到的分类分数融合得到最终的分类-IoUl联合表示。
GFLV2 检测头
3. Performance
GFLV2(ResNet-101)在COCO test-dev数据集上实现了46.2AP的精度并且有14.6FPS的速度。超过了ATSS的43.6AP+14.5 FPS.

02

Key words

  • Localization Quality Estimation(LQE)
  • General Distribution of Bounding Box Representation
  • Input Features for LQE
  • Distribution-Guided Quality Predictor(DGQP)
  • Benefit for Non maximum suppression


03

Introduction
1. Localization Quality Estimation(LQE)
最早的模型并没有对检测框的质量做一个单独表示,而是简单地把分类任务的置信度作为检测框质量的评估。而在FCOS和ATSS使用一种专门的表征centerness来评估检测框定位的质量,centerness也是单独使用一个分支来进行预测,如下图。事实证明,定位质量评估(LQE)的引入显著地提高了模型的性能。

FCOS的检测头,输出三种Representation
IoU是一种被广泛使用的度量预测bbox质量的方法,其方法是计算预测bbox与GT重叠部分(交集)与并集的比值,当IoU=1时,bbox就与GT完全重合。GFLV1中介绍了一种将分类分数和IoU合并的更高效的联合representation,这种表示方法可以消除训练和测试过程的不一致性。因此作者的GFLV2就基于classification-IoU联合表示,建立一种新的LQE表示形式。
2. General Distribution of Bounding Box Representation
过去的检测器通常预测的方框是一个确切的常量,然而现实中很多目标的边界是并不明晰的。相较于预测一个绝对的常量,预测检测框的边界为一个宽范围的概率分布更为合理。

预测出的方框边界并不明确,而是一个概率分布
作者使用softmax函数可以很容易实现离散形式的任意分布,如下图所示。对于检测框某个边界的预测y, 其中, 即从y可能存在的区间[]中均匀采样。这样就从一个回归问问题变为一个“多分类问题”。

预测值y是一个离散概率分布
3. Input Features for LQE
过去的模型和方法,都是从不同维度的卷积特征来获得对检测框的评估,如下图所示。但是无论是从特征图的关键点(a)、某个区域(b)、边界密集点(c)、边界中心点(d)、边界极端点(e)、规则采样点(f)、变形采样点(g),总之它们都是从空间卷积特征的角度生成LQE的,本质上是不同类型的空间采样。
从卷积特征生成LQE
而作者则是通过bbox的概率分布的统计量来得到LQE,这是一种全新的角度和视角,如下图所示。

从概率分布得到LQE
使用bbox的概率分布来得到LQE的原理主要如下:
1)bbox的任意分布和真实的LQE具有较强的相关性,如下图所示。作者可视化出bbox任意分布top-1值和真实的定位IoU,发现其基本具有线性函数的趋势。
2)通常更高的IoU的bbox,其概率分布图像是集中而尖锐的。而具有更低的IoU的bbox,其概率分布通常是分散而平坦的。
真实IoU与分布top-1值具相关性
4. Distribution-Guided Quality Predictor(DGQP)
如下图所示,GFLV2的网络结构如下。在检测头部分,除了常规的分类任务分支以及预测bbox概率分布的回归分支。作者添加了从bbox概率分布生成LQE的操作(红色方框部分),然后再将生成的LQE与分类结果合并得到最终的分类-IoUl联合表示。
GFLV2 网络结构
从bbox概率分布生成LQE的过程如下:
1)首先从离散的概率分布中选出最高的k个概率值并计算均值,从而得到一个维度很低的特征向量。选择最高的k个概率值一方面这些值最能代表整个分布(尤其是分布足够集中和尖锐时);另一方面,这样还可以使选择的特征与对象的scale尽可能无关(如下图,左右两个尺度不同但“形状”相同的分布,具有相同的特征向量)。

2)然后将得到的特征向量接两个全连接层,得到IoU分数,与分类分数相乘得到最终的分类-IoU联合表征分数。

从概率分布生成IoU
5. Benefit for Non maximum suppression
作者通过实验可视化证明,GFLV2可以帮助在NMS处理中,提供更精确的rank分数排名。如下图所示,其他模型生成的bbox有一些也非常精准地符合GT,但是它们被错误地给予了较低的rank分数,从而被可惜地丢弃(劣币驱逐良币)。而GFLV2也并非生成的所有bbox都很好,但是却能正确地基于它们正确rank分数,从而挑选出来最佳的检测框。

GFLV2 有利于给生成的bbox以公正的分数排名


04

Comments
最近看完ATSS,GFLV1,GFLV2,感觉在训练过程中正负样本的选择与评估还是有不少能够挖掘的地方。我们一直研究如果从数据中挖掘更丰富的特征信息来生成bbox或者其他任务的表征,但是这些挖掘出来的特征信息可能我们都并没有充分利用到,提高对生成样本的评估精度,也许能够改善模型的性能。
文章创新总结:
  1. 首次建立了bbox分布统计量与bbox定位质量评估的联系,使用前者指导后者的生成。
  2. GFLV2是一个轻量化的即插即用的方法,可以方便地改造其他网络而获得性能提升,而不带来额外的训练推断开销。


05

Reference
【1】Generalized Focal Loss V2: Learning Reliable Localization Quality Estimation for Dense Object Detection
【2】Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection
【3】FCOS: Fully Convolutional One-Stage Object Detection
【4】Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection
【5】知乎:大白话 Generalized Focal Loss V 来自 https://zhuanlan.zhihu.com/p/313684358

本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。


“源头活水”历史文章


更多源头活水专栏文章,

请点击文章底部“阅读原文”查看



分享、点赞、在看,给个三连击呗!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存