IoU是一种被广泛使用的度量预测bbox质量的方法,其方法是计算预测bbox与GT重叠部分(交集)与并集的比值,当IoU=1时,bbox就与GT完全重合。GFLV1中介绍了一种将分类分数和IoU合并的更高效的联合representation,这种表示方法可以消除训练和测试过程的不一致性。因此作者的GFLV2就基于classification-IoU联合表示,建立一种新的LQE表示形式。2. General Distribution of Bounding Box Representation过去的检测器通常预测的方框是一个确切的常量,然而现实中很多目标的边界是并不明晰的。相较于预测一个绝对的常量,预测检测框的边界为一个宽范围的概率分布更为合理。
3. Input Features for LQE过去的模型和方法,都是从不同维度的卷积特征来获得对检测框的评估,如下图所示。但是无论是从特征图的关键点(a)、某个区域(b)、边界密集点(c)、边界中心点(d)、边界极端点(e)、规则采样点(f)、变形采样点(g),总之它们都是从空间卷积特征的角度生成LQE的,本质上是不同类型的空间采样。而作者则是通过bbox的概率分布的统计量来得到LQE,这是一种全新的角度和视角,如下图所示。
5. Benefit for Non maximum suppression作者通过实验可视化证明,GFLV2可以帮助在NMS处理中,提供更精确的rank分数排名。如下图所示,其他模型生成的bbox有一些也非常精准地符合GT,但是它们被错误地给予了较低的rank分数,从而被可惜地丢弃(劣币驱逐良币)。而GFLV2也并非生成的所有bbox都很好,但是却能正确地基于它们正确rank分数,从而挑选出来最佳的检测框。
Reference【1】Generalized Focal Loss V2: Learning Reliable Localization Quality Estimation for Dense Object Detection【2】Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection【3】FCOS: Fully Convolutional One-Stage Object Detection【4】Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection【5】知乎:大白话 Generalized Focal Loss V 来自 https://zhuanlan.zhihu.com/p/313684358