查看原文
其他

字节跳动新框架:图片中遮挡关系如何判断?新方法刷新SOTA(附源代码)

Edison_G 计算机视觉研究院 2023-01-25

关注并星标

从此不迷路

计算机视觉研究院


公众号ID|ComputerVisionGzq

学习群|扫码在主页获取加入方式

  • 论文链接:https://arxiv.org/abs/2108.05722

  • 代码链接:https://github.com/fengpanhe/MT-ORL

计算机视觉研究院专栏

作者:Edison_G

到底是谁挡住了谁?遮挡边界又在哪里?对于人类来说,物体之间的遮挡关系非常容易判断,但对于 AI 来说,这个任务就没那么简单了。


转自于《机器之心》

从现实世界中的 3D 场景拍摄得到 2D 图片时,会不可避免地产生「遮挡」,即距离相


传统方法存在哪些问题?

新方法有何创新之处?

遮挡共享和路径分离网络

本文提出的遮挡共享和路径分离网络(OPNet)如下图所示:

遮挡方向的正交遮挡表示法

下图展示了四种基于边界的遮挡方向表示示意图。

图 (a) 是抽象的图片中遮挡发生的示意图,图中显示了在图像中指示前景和背景的「左手规则」,即遮挡边界用箭头表示,其左侧是前景。

图 (b) 是基于人工特征和机器学习的传统方法常用的基于完整边界的标签分类方法,但由于对完整边界的强依赖,其难以直接应用到基于卷积神经网络深度学习中。

图 (c) 是 DOC 中提出的像素级方向变量表示,它通过预测一个连续的在 $(-\pi,\pi]$ 的方向变量来预测边界方向图像中的每个像素。像素级方向变量表示可以很好地适应预测属性密集的卷积块,但是依旧存在两个问题,一是这种方式对每个像素都预测了一个准确的角度,造成了不必要的负担,二是角度本身存在周期性,DOOBNet 强制将预测角度的范围限制在 $(-\pi,\pi]$,会在区间的两端产生不自然的预测,从而导致大量的端点值错误。

作者提出遮挡方向的正交遮挡表示(Orthogonal Occlusion Representation,OOR)。如图 (d),他们使用一对正交向量(即沿水平轴的向量 a 和沿垂直轴的向量 b)来表示遮挡方向。两个向量都指向遮挡边界附近的背景。OOR 通过在水平和垂直方向同时指出背景来简化遮挡方向的预测,大大增强了预测的鲁棒性。与之前的方向变量表示相比,研究者提出的 OOR 更简单,效果更好,绕过了角度周期性和端点误差的问题。 

下图是使用不同遮挡方向预测方式的取出的 decoder 阶段的特征图的可视化表示。网络都采用了本文的 OPNet,第一行使用了 DOOBNet 预测遮挡方向的方法,第二行使用了本文提出的 OOR。很明显,本文提出的 OOR 进行表示和预测遮挡方向的方式产生了前后景区分强烈的特征度,或者说使网络学习到了更好的遮挡信息。

为了证明 OOR 对于角度区间 $(-\pi,\pi]$ 端点值预测的优化,作者分别对三种遮挡方向预测方式的预测结果进行了分角度区间的遮挡方向预测召回率的比较。从下图可以看到,相比于之前最好的 DOOBNet 的遮挡方向预测,本文的方法在两端分别提升了 0.23 和 0.18。这证明了之前采用区间预测方式存在严重的端点值错误的问题,而本文的 OOR 有效地解决了这一问题。

实验结果

作者分别在 PIOD 和 BSDS ownership 两个数据集上评估了模型和方法的有效性。

其中,OPNet + dor/dbr 为在作者网络上使用 DOC 方向 loss 或 DOOBNet 方向 loss 的结果。通过比较 OPNet + dor/dbr 和之前方法的结果,可以证明作者的网络在遮挡关系推理中明显优于先前的网络结构。在使用了作者提出的 OOR 作为方向预测的方式后,结果相比于之前最优的方法 OFNet 在 AP 上甚至有 6.5%/10% 的提升。并且在与单独训练边界和方向任务的比较中,最终在同一网络中联合训练两子任务的方式获得了更优的结果,这也证明了作者设计的 OPDecoder 可以使两任务相互促进,更好地联合学习、预测。

与之前方法在两数据集下的 PR 曲线的对比,作者的方法均优于先前方法。

下图是预测结果的可视化比较。如图,作者的方案在边界和遮挡关系的预测上都有明显的提升。

总结

本文针对多任务学习遮挡关系提出了一种新的遮挡共享和路径分离网络(OPNet)和 用于预测遮挡方向的正交遮挡表示法(OOR)。OPNet 使得两个任务通过有限的共享 encoder 阶段的特征相互促进,获得更好的遮挡边界和遮挡方向。OOR 则是解决了遮挡方向预测的角度周期性难题和端点误差的问题。大量实验表明作者的方法极大的提升了遮挡关系推理的性能,在 AP 上相比于之前的方法甚至有 6.5%/10% 的提升。

© THE END 

转载请联系本公众号获得授权


计算机视觉研究院学习群等你加入!


计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

扫码关注

计算机视觉研究院

公众号ID|ComputerVisionGzq

学习群|扫码在主页获取加入方式


 往期推荐 

🔗

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存