CVPR 2019开源论文 | BASNet:关注边界的显著性检测
作者丨文永亮
学校丨哈尔滨工业大学(深圳)硕士生
研究方向丨目标检测、GAN
概要
这是一篇发表于 CVPR 2019 的关于显著性目标检测的 paper,BASNet:Boundary-Aware Salient Object Detection 显而易见就是关注边界的显著性检测,主要创新点在 loss 的设计上,使用了交叉熵、结构相似性损失、IoU 损失这三种的混合损失,使网络更关注于边界质量,而不是像以前那样只关注区域精度。在单个 GPU上 能跑 25 fps,在六种公开数据集上能达到 state-of-the-art 的效果。作者也在 Github 上放出了源码:
https://github.com/NathanUA/BASNet
模型架构
▲ Figure 1. BASNet的网络结构
这个网络结构的特点:
采用深层编码器-解码器的结构得到一个粗糙的结果
采用 RRM(Residual Refinement Module)修正结果,使用了残差模块
▲ Figure 2. (a)红色:GT(Ground Truth,以下都简称GT)的概率图,(b)绿色:粗糙边界与GT不对齐,(c)蓝色:粗糙区域内部判定概率也低,(d)紫色:粗糙的预测通常都有这两个问题。
其中“粗糙“定义为两个方面:
如 Fig 2(b) 所示,粗糙表现在边界无法与 GT 对齐。
如 Fig 2(c) 所示,粗糙表现在不均匀的区域预测概率。
而经过前面步骤的得到的真正的粗糙结果通常都是带有以上两个问题。
loss上的设计
三种 loss 的叠加对应三个层次(这让我想起了之前的 Libra R-CNN 也是三个平衡对应三个层次):
作为结构相似性理论的实现,结构相似度指数从图像组成的角度将结构信息定义为独立于亮度、对比度的,反映场景中物体结构的属性,并将失真建模为亮度、对比度和结构三个不同因素的组合。用均值作为亮度的估计,标准差作为对比度的估计,协方差作为结构相似程度的度量 [2]。
简单的来说,就是要计算两张图的结构相似性,我们需要开一个局部窗口(N x N 大小的),计算窗口内的结构相似性损失,以像素为单位滑动,最后取所有窗口的结构相似性损失的平均。
具体计算方式就是令两张图片的对应像素点表示为 x 和 y,其中
SSIM 损失作用于 patch-level 的,关键在于它着眼于边界,但是这个标准真的能着眼于边界吗?具体地讲,就是会对边界对不上的地方加大惩罚吗?作者用热力图(heatmap)可视化了整个训练过程损失的变化,用来阐述各种 loss 的作用。
▲ Figure 3. P_fg和P_bg是表示预测为前景或背景的概率
可以看到 Fig 3 的这三行热力图变化,颜色越红代表损失对待该像素点的权重越大,也就是越重视该点,越蓝表示权重对待越小。从第一行的 BCE 损失变化可以看出,BCE 损失是 pixel-wise 的,它是一个非常公平的损失函数,对待前景和背景一开始区别不大,训练过程中几乎达到了任何像素点都一视同仁。
而第二行关于结构相似性损失的变化,可以看到无论
第三个损失是 IoU损失,就是交叠率损失,数学表达式如下:
其中的 S(r,c),G(r,c) 都与
实验结果
对于 RRM 模块,作者在对比实验中用了下面三种,(c) 是文章所用的结构:
▲ Figure 4. (a) local boundary refinement module RRM_LC; (b) multi-scale refinement module RRM_MS; (c) our encoder-decoder refinement module RRM_Ours
对于不同的结构和不同的损失函数做了组合对比实验,得到下面的表格:
其中的
各种方法的对比下,在
总结
BASNet 该方法主要的亮点在于引入结构相似性损失,最后三种损失(BCE 损失,SSIM 损失,IoU 损失)相加,同时考虑,着眼于解决边界模糊问题,更注重边界质量,因为在结构相似性损失下,边界的损失会比显著性物体内部或其他地方赋予的权重更高。文章也尝试从三种层次上解答为什么设计三个损失,结构还算清晰。但是个人认为主要还是结构相似性损失的引入比较有价值。
参考文献
[1]. Xuebin Qin, Zichen Zhang, Chenyang Huang, Chao Gao, Masood Dehghan, Martin Jagersand. BASNet: Boundary-Aware Salient Object Detection. The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 7479-7489.
[2]. Zhou Wang, Eero P Simoncelli, and Alan C Bovik. Multiscale structural similarity for image quality assessment. In The Thrity-Seventh Asilomar Conference on Signals, Systems & Computers, 2003, volume 2, pages 1398–1402. IEEE, 2003.
[3]. Marc Ehrig and J´erˆome Euzenat. Relaxed precision and recall for ontology matching. In Proc. K-Cap 2005 workshop on Integrating ontology, pages 25–32. No commercial editor., 2005.
点击以下标题查看更多往期内容:
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
📬 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
▽ 点击 | 阅读原文 | 下载论文 & 源码