其他
CVPR 2020 | 南大提伪监督目标定位方法,弱监督目标定位的最新SOTA
The following article is from 晓飞的算法工程笔记 Author VincentLee
弱监督目标定位应该分为类不可知目标定位和目标分类两个独立的部分,提出PSOL算法 尽管生成的bbox有偏差,论文仍然认为应该直接优化他们而不需要类标签,最终达到SOTA 在不同的数据集上,PSOL算法不需要fine-tuning也能有很好的定位迁移能力
这里需要说明一下,弱监督目标定位(WSOL)与弱监督目标检测(WSOD)是不一样的,WSOL假设图片中只有一个目标,而WSOD则没有这种假设,所以WSOD一般需要额外的方法去生成region proposal。
A paradigm shift from WSOL to PSOL
学习目标不明确,导致定位任务性能下降。独立的CNN不能同时进行定位和分类任务,因为定位需要目标的全局特征,而分类只需要目标的局部特征 CAM(Class Activation Mapping)存储一个三维特征图用于计算类别的heatmap,再用阈值过滤,但是一般阈值十分难确定
The PSOL Method
Bounding Box Generation
WSOL methods
DDT recap
Localization Methods
Experimental Setups
Datasets,使用ImageNet-1k和CUB-200,测试数据的bbox是准确标注的,而训练集上的bbox则通过前面提到的方法进行生成。 Metrics,验证3个指标:知道GT类别的定位准确率(GT-known Loc),当预测与GT的时正确;Top-1定位准确率(Top-1 Loc),Top-1的分类正确且GT-known Loc正确;Top-5定位准确率(Top-5 Loc),Top-5结果中存在分类正确且GT-known Loc正确。 Base Models,有VGG16/Inception V3/ResNet50/DenseNet161,没有增大图片输入,一些WSOL方法要用到类别信息的权重(单层全连接)来生成heatmap,而PSOL不用。为了公平起见,增加VGG-GAP,将所有全连接层换成单层全连接,而对于回归模型,仍然使用双层全连接层加对应的ReLU。 Joint and Separate Optimization,对于联合优化模型(-Joint),在原来的基础上加入bbox回归分支,然后同时训练模型的分类和定位。对于独立优化模型(-Sep),单独训练两个模型。
Ablation Studies on How to Generate Pseudo Bounding Boxes
Comparison with State-of-the-art Methods
DDT本身就已经比WSOL方法要好,说明类不可知是有用的,WSOL应该分为两个独立的模型。 所有PSOL方法分开训练都比联合训练要好,说明定位和分类学习到的内容不一样。 POSL在CUB-200上都具有较大的优势,由于类别相似度较大,类别标签不一定能帮助定位,反而协同定位的DDT更占优。 CNN有能力去处理有噪声的数据并且得到更高的准确率,PSOL模型的GT-Known Loc基本都比DDT-VGG16高。 WSOL里的一些约束没有带到PSOL中,例如只允许单层全连接层以及更大的输出特征图,去掉常见的三层全连接层会影响准确率,VGG-Full比VGG-GAP要好。还有WSOL方法在复杂的网络上效果不好,如DenseNet,主要由于DenseNet使用多层进行分类,不仅仅是最后一层,最后一层的语义不如VGG等明确,而PSOL-DenseNet则避免了这个问题,达到最高准确率。
Transfer Ability on Localization
Combining with State-of-the-art Classification
Comparison with fully supervised methods
【end】
◆
精彩推荐
◆
即日起至 3月21日,千万流量支持原创作者更有专属【勋章】等你来挑战
推荐阅读
你点的每个“在看”,我都认真当成了AI