加入极市专业CV交流群,与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度 等名校名企视觉开发者互动交流!
同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。关注 极市平台 公众号 ,回复 加群,立刻申请入群~
目前很多研究表明目标检测中的分类分支和定位分支存在较大的偏差,论文从sibling head改造入手,跳出常规的优化方向,提出TSD方法解决混合任务带来的内在冲突,从主干的proposal中学习不同的task-aware proposal,同时结合PC来保证TSD的性能,在COCO上达到了51.2mAP
Introduction
经典RoI-based定位算法使用sibling head(2-fc)对proposal同时进行分类和回归,由于任务的本质不同,分类任务和定位任务是完全不同的,关注的特征也不一样,如图1所示。分类任务往往需要平移不变性,而定位任务则需要平移可变性。
具体属性的表现如公式10所示,,为IoU阈值,为共用的特征提取器。因此,共用的特征提取器以及相同的proposal都是目标检测学习的主要障碍。与以往的方法不同,论文观察到限制定位算法的根本问题在于分类分支和定位分支在空间维度上存在偏差,不是通过设计特征提取器或更好的结构能解决的。因此,论文提出TSD方法,从空间维度和特征提取两方面同时对分类任务和定位任务进行拆解,并且结合精心设计的渐进约束(PC)帮助学习。- 深入探讨RoI-based检测算法中混合任务带来的障碍,并揭示限制检测性能的瓶颈
- 提出TSD(task-aware spatial disentanglement)解决混合任务的冲突,能够学习到task-specific特征表达能力
- 提出PC(progressive constraint)来扩大TSD和sibling head间的性能间隔
- 在COCO和OpenImage上验证了有效性,单模型最高可达51.2mAP
方法
如图2所示,在训练时,TSD和原来的结构共存,定义主干输出的预测框为,TSD输出最终的定位结果和最终的分类结果,原sibling head输出的结果为,GT为,类别为TSD (task-aware spatial disentanglement)
经典的Faster RCNN基于同时最小化预测框的分类误差和损失误差,如公式1,,,为特征提取,和为分别从特征进行分类和定位的预测函数。由于分类和定位所用到的特征不太一样,一些研究将特征提取拆分为和,尽管这样的拆分能带来一些提升,但任务混合在空间上的内在冲突仍然潜在(分类和定位所需的bbox其实不一样)
为了解决这个潜在的问题,TSD直接在空间上对分类和定位进行分解,如公式2,从原预测框中预测出分类框以及定位框,为pointwise的形变,为proposal-wise的变化,具体如图2(b)所示。然后再通过不同的特征提取和head进行分类和定位的预测,,。由于分解了分类和定位的预测区域,TSD能够学习task-aware的特征表达。
对于定位,使用三层全连接来生成proposal-wise变化用于将转换为,每层的输出为,为预设的调节标量。的计算如公式4,即将进行整体移动,新点的值使用双线性插值计算,使得可微。
对于分类,将规则的变形为不规则的,为三层全连接层,每层的输出为,为了减少参数,首层全连接与共用。为pointwise的x坐标和y坐标变化,为池化后特征的大小,根据公式6使用生成池化后的特征图,这里的池化操作跟Deformable Convolution的一样。为像素总数,具体大小跟池化前后的特征图大小有关,为区域中的坐标,为双线性插值,使可导。
Progressive constraint
在训练阶段,使用公式1对TSD和sibling head进行联合训练,此外还设计了渐进约束(progressive constraint, PC)来辅助TSD的学习,如图2(c)。
对于分类分支,PC如公式7,为类的置信度,约预设的间隔,类似于ReLU函数,即约束TSD的预测置信度需要比sibling head至少高,否则即学习不够,产生损失
对于定位分支,PC如公式8,为原方式的最终预测结果,为TSD转换后的最终预测结果,仅对正样本进行计算,即约束TSD的预测结果的IoU需要比sibling head至少高
最终的损失函数为公式9,结合了所有的损失,推理的时候把sibling head分支和PC去掉。
论文在此处提出的约束方法很好,但是会存在一个问题,若sibling head学习充分了,留给TSD的提升空间本身就小于间隔,这样产生的损失显然有些不合理,所以是否在这种情况应该调整间隔,在可提升空间和预设间隔之间去个最小值。实验
Ablation studies
Task-aware disentanglement
这里对比了TSD与不同的分解策略,比如即从stride为8的特征图开始分解。Joint training with sibling head
Derived proposal learning manner for
Delving to the effective PC
Applicable to variant backbones
基于Faster R-CNN + TSD替换不同主干网络的结果Applicable to Mask R-CNN
Generalization on large-scale OpenImage
Comparison with state-of-the-Arts
Analysis and discussion
Performance in different IoU criteria
Performance in different scale criteria
从图5可以看出,TSD的定位能够学习不易回归的边界,而分类则专注于局部特征以及目标的上下文信息,这里的点为区域转换后的中心点。结论
目前很多研究表明目标检测中的分类分支和定位分支存在较大的偏差,论文从sibling head改造入手,跳出常规的优化方向,提出TSD方法解决混合任务带来的内在冲突,从主干的proposal中学习不同的task-aware proposal,同时结合PC来保证TSD的性能,在COCO上达到了51.2mAP的不错成绩。传递门
https://arxiv.org/abs/2003.07540在极市平台公众号后台回复TSD即可获得论文网盘下载链接。
-END-
*延伸阅读
极市独家福利40万奖金的AI移动应用大赛,参赛就有奖,入围还有额外奖励
添加极市小助手微信(ID : cv-mart),备注:研究方向-姓名-学校/公司-城市(如:AI移动应用-小极-北大-深圳),即可申请加入AI移动应用极市技术交流群,更有每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、行业技术交流,一起来让思想之光照的更远吧~
△长按添加极市小助手
△长按关注极市平台,获取最新CV干货
觉得有用麻烦给个在看啦~