CVPR 2020 | MS COCO上达SOTA，目标检测实用trick：ATSS

极市平台 2021-09-20

The following article is from 晓飞的算法工程笔记 Author VincentLee

加入极市专业CV交流群，与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流！
同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。关注 极市平台 公众号，回复 加群，立刻申请入群~

导读：论文指出one-stage anchor-based和center-based anchor-free检测算法间的差异主要来自于正负样本的选择，基于此提出ATSS(Adaptive Training Sample Selection)方法，该方法能够自动根据GT的相关统计特征选择合适的anchor box作为正样本，在不带来额外计算量和参数的情况下，能够大幅提升模型的性能。

论文地址：https://arxiv.org/abs/1912.02424
代码地址：https://github.com/sfzhang15/ATSS

Introduction

在仔细比对了anchor-based和anchor-free目标检测方法后，结合实验结果，论文认为两者的性能差异主要来源于正负样本的定义，假如训练过程中使用相同的正负样本，两者的最终性能将会相差无几。为此，论文提出ATSS( Adaptive Training Sample Selection)方法，基于GT的相关统计特征自动选择正负样本，能够消除anchor-based和anchor-free算法间的性能差异。

论文的主要贡献如下：

指出anchor-free和anchor-based方法的根本差异主要来源于正负样本的选择
提出ATSS( Adaptive Training Sample Selection)方法来根据对象的统计特征自动选择正负样本
证明每个位置设定多个anchor是无用的操作
不引入其它额外的开销，在MS COCO上达到SOTA

Difference Analysis of Anchor-based and Anchor-free Detection

论文选取anchor-based方法RetinaNet和anchor-free方法FCOS进行对比，主要对比正负样本定义和回归开始状态的差异，将RetinaNet的anchor数改为1降低差异性，方便与FCOS比较，后续会测试anchor数带来的作用。

Inconsistency Removal

由于FCOS加入了很多trick，这里将RetinaNet与其进行对齐，包括GroupNorm、GIoU loss、限制正样本必须在GT内、Centerness branch以及添加可学习的标量控制FPN的各层的尺寸。结果如表1，最终的RetinaNet仍然与FCOS有些许的性能差异，但在实现方法上已经基本相同了。

Essential Difference

在经过上面的对齐后，仅剩两个差异的地方：(i) 分类分支上的正负样本定义 (ii) 回归分支上的bbox精调初始状态(start from anchor box or anchor point)

Classification

RetinaNet使用IoU阈值(,)来区分正负anchor bbox，处于中间的全部忽略。FCOS使用空间尺寸和尺寸限制来区分正负anchor point，正样本首先必须在GT box内，其次需要是GT尺寸对应的层，其余均为负样本

Regression

RetinaNet预测4个偏移值对anchor box进行调整输出，而FCOS则预测4个相对于anchor point值对anchor box进行调整输出

Conclusion

对上面的差异进行交叉实验，发现相同的正负样本定义下的RetinaNet和FCOS性能几乎一样，不同的定义方法性能差异较大，而回归初始状态对性能影响不大。所以，基本可以确定正负样本的确定方法是影响性能的重要一环。

Adaptive Training Sample Selection

Description

论文提出ATSS方法，该方法根据目标的相关统计特征自动进行正负样本的选择，具体逻辑如算法1所示。对于每个GT box ，首先在每个特征层找到中心点最近的个候选anchor boxes(非预测结果)，计算候选box与GT间的IoU ，计算IoU的均值和标准差，得到IoU阈值，最后选择阈值大于的box作为最后的输出。如果anchor box对应多个GT，则选择IoU最大的GT。

ATSS的思想主要考虑了下面几个方向：

Selecting candidates based on the center distance between anchor box and object

在RetinaNet中，anchor box与GT中心点越近一般IoU越高，而在FCOS中，中心点越近一般预测的质量越高

Using the sum of mean and standard deviation as the IoU threshold

均值表示预设的anchor与GT的匹配程度，均值高则应当提高阈值来调整正样本，均值低则应当降低阈值来调整正样本。标准差表示适合GT的FPN层数，标准差高则表示高质量的anchor box集中在一个层中，应将阈值加上标准差来过滤其他层的anchor box，低则表示多个层都适合该GT，将阈值加上标准差来选择合适的层的anchor box，均值和标准差结合作为IoU阈值能够很好地自动选择对应的特征层上合适的anchor box

Limiting the positive samples’ center to object

若anchor box的中心点不在GT区域内，则其会使用非GT区域的特征进行预测，这不利于训练，应该排除

Maintaining fairness between different objects

根据统计原理，大约16%的anchor box会落在，尽管候选框的IoU不是标准正态分布，但统计下来每个GT大约有个正样本，与其大小和长宽比无关，而RetinaNet和FCOS则是偏向大目标有更多的正样本，导致训练不公平。

Keeping almost hyperparameter-free

ATSS仅有一个超参数，后面的使用会表明ATSS的性能对不敏感，所以ATSS几乎是hyperparameter-free的

Verification

将ATSS应用到RetinaNet和FCOS上测试效果：

将RetinaNet中的正负样本替换为ATSS，AP提升了2.9%，这样的性能提升几乎是没有任何额外消耗的
在FCOS上的应用主要用两种：lite版本采用ATSS的思想，从选取GT内的anchor point改为选取每层离GT最近的top 个候选anchor point，提升了0.8%AP；full版本将FCOS的anchor point改为长宽为的anchor box来根据ATSS选择正负样本，但仍然使用原始的回归方法，提升了1.4%AP。两种方法找到的anchor point在空间位置上大致相同，但是在FPN层上的选择不太一样。从结果来看，自适应的选择方法比固定的方法更有效

Analysis

参数k在区间几乎是一样的，过大的设置会到导致过多的低质量候选anchor，而过小的设置则会导致过少的正样本，而且统计结果也不稳定。总体而言，参数是相对鲁棒的，可以认为ATSS是hyperparameter-free

在FCOS的full版本中使用了的anchor box，论文对不同的尺寸进行了对比，如表5所示，也在基础上对不同的长宽比进行了对比，如表6所示。从结果来看，性能几乎对尺寸和长宽比无关，相对鲁棒

Discussion

前面的RetinaNet实验只用了一个anchor box，论文补充测试了不同anchor数下的性能，实验中的Imprs为表1中的提升手段。从结果来看，在每个位置设定多个anchor box是无用的操作，关键在于选择合适的正样本

Comparison

实现的是FCOS版本的ATSS，在相同的主干网络下，ATSS方法能够大幅增加准确率，十分有效。

Conclusion

论文指出one-stage anchor-based和center-based anchor-free检测算法间的差异主要来自于正负样本的选择，基于此提出ATSS(Adaptive Training Sample Selection)方法，该方法能够自动根据GT的相关统计特征选择合适的anchor box作为正样本，在不带来额外计算量和参数的情况下，能够大幅提升模型的性能，十分有用。

-END-

推荐阅读：

极市平台视觉算法季度赛，提供真实应用场景数据和免费算力，特殊时期，一起在家打比赛吧！

添加极市小助手微信（ID : cv-mart），备注：研究方向-姓名-学校/公司-城市（如：目标检测-小极-北大-深圳），即可申请加入目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割等极市技术交流群，更有每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、行业技术交流，一起来让思想之光照的更远吧~

△长按添加极市小助手

△长按关注极市平台，获取最新CV干货

觉得有用麻烦给个在看啦~

: ， . Video Mini Program Like ，轻点两下取消赞 Wow ，轻点两下取消在看

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

比国产光刻机更重要的IPO要来了！

CVPR 2020 | MS COCO上达SOTA，目标检测实用trick：ATSS

Introduction

Difference Analysis of Anchor-based and Anchor-free Detection

Inconsistency Removal

Essential Difference

Classification

Regression

Conclusion

Adaptive Training Sample Selection

Description

Selecting candidates based on the center distance between anchor box and object

Using the sum of mean and standard deviation as the IoU threshold

Limiting the positive samples’ center to object

Maintaining fairness between different objects

Keeping almost hyperparameter-free

Verification

Analysis

Discussion

Comparison

Conclusion

极市直播| (CVPR2020 Oral) 陈昊：超越Mask RCNN的BlendMask，实例分割新标杆

ICLR 2020 | NAS evaluation is frustratingly hard

干货 | 让算法解放算法工程师——NAS 综述

您可能也对以下帖子感兴趣

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下 一生守护”慈善项目捐赠仪式圆满举行！

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

比国产光刻机更重要的IPO要来了！

生成图片，分享到微信朋友圈

CVPR 2020 | MS COCO上达SOTA，目标检测实用trick：ATSS

Introduction

Difference Analysis of Anchor-based and Anchor-free Detection

Inconsistency Removal

Essential Difference

Classification

Regression

Conclusion

Adaptive Training Sample Selection

Description

Selecting candidates based on the center distance between anchor box and object

Using the sum of mean and standard deviation as the IoU threshold

Limiting the positive samples’ center to object

Maintaining fairness between different objects

Keeping almost hyperparameter-free

Verification

Analysis

Discussion

Comparison

Conclusion

极市直播| (CVPR2020 Oral) 陈昊：超越Mask RCNN的BlendMask，实例分割新标杆

ICLR 2020 | NAS evaluation is frustratingly hard

干货 | 让算法解放算法工程师——NAS 综述

您可能也对以下帖子感兴趣

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！