现在就要开始正式地讲解这篇论文了。题目已经直入主题:“What is an object?”什么算是一个物体?对于上图中三个颜色的框,我们应该都同意只有绿色的框才算是框住了物体,红色的框完全歪了,而蓝色的框却偏大了。那么是什么让我们做出了这个判断呢?作者提出了四个清晰直观,并且符合常理的四个度量,分别是:多尺度下的显著性(Multi-scale Saliency),框内外颜色对比度(Color Contrast),靠近框边界的边缘密度(Edge Density),跨越超像素的程度(Superpixels Straddling)。可能现在看起来有点懵,但是接下来我会详细地逐个介绍。
01
Multi-scale Saliency(MS)
这个度量用来找到图像中的显著物体,其中使用的方法来自一篇论文《Saliency Detection A Spectral Residual Approach》,这篇论文发现图像中的显著物体会在频域有着显著响应,所以可以通过谱残差的方式找到这些显著物体。具体怎么做的我们可以不用管,作者在这篇论文的基础上拓展到了多尺度,说白了就是将一张图像resize到多个尺寸,然后分别进行显著性检测,效果如下图所示:所以包含了越多显著像素的框得分就越高。