查看原文
其他

ECCV18 | UC伯克利提出基于自适应相似场的语义分割

52CV 我爱计算机视觉 2019-03-28

(欢迎关注“我爱计算机视觉”公众号,一个有价值有深度的公众号~)
本文来自于ECCV2018的论文《Adaptive Affinity Fields for Semantic Segmentation》,UC伯克利大学的研究人员提出了一种自适应相似场(Adaptive Affinity Fields )来辅助语义分割的方法,增强了网络对目标结构推理的能力,取得了非常显著的性能提升,代码已开源。
作者信息:

图像语义分割不仅仅是对图像每个像素的简单分类问题,在一些语义信息不明的像素区域,直接对像素分类往往难以奏效,所以基于目标结构推理的方法就变得很重要。
近年来,语义分割问题(Semantic Segmentation)通过越来越强大的图像分类器,类似的结合条件随机场(Conditional Random Fields,CRF)或生成对抗网络(GAN)等结构先验模型而取得了许多进展。
以条件随机场方法后处理为例,对网络预测的图像像素标签进一步根据原始像素值调整,以消除明显的视觉上相似但标签不一致的问题,改进了语义分割的结果。
在这篇论文中,作者寻求将标签的结构推理直接引入网络建模中,提出一种更简单的替代方案,在训练期间教导网络验证分割的空间结构。
与在单个像素上强制学习语义类别并在相邻像素之间匹配类别的现有方法不同,提出的自适应相似场(Adaptive Affinity Fields, AAF)的概念来匹配标签空间中的相邻像素之间的语义关系。

请看下图,直接使用Softmax对像素分类和引入结构推理的AAF方法的对比,在摩托车的透明挡风玻璃和车轮区域有明显的改善。

同时本文使用对抗性学习为每个语义类别选择最佳的亲和力范围。将此概念转化为一个极小极大的优化问题,利用最好的最坏情况学习(best worst-case learning)情境优化语义分割神经网络。

AAF算法仅在训练期间多了一些步骤,不需要额外的参数,也易于训练。

实验结果
AAF 将空间结构解析为以个别像素为中心关系的集合,比 CRF 或 GAN 都更容易训练且更有效。论文在PASCAL VOC 2012,Cityscapes 和 GTA5 等数据集上证明了AAF语义分割的优越性能和跨域的强大泛化能力。
使用PSPNet作为基准模型,将AAF与其结合验证AAF的改进效果。为更有说服力、更全面的评估算法有效性,评价标准包括,pixel-wise mIoU、instance-wise mIoU、boundary detection metrics。

因为模型是在数据集上提取结构先验知识,为验证跨数据集的推广能力,而不是在训练数据集上的过拟合,作者使用Cityscapes训练模型,在GTA5测试,与基准模型相比较,依然取得了明显的改进。

一些分割示例:

值得一提的事,该方法实则是一种新的深度学习结构建模的方法,不仅仅可以用于语义分割,理论上可以推广到图像深度估计、光流计算等对图像进行像素级理解的任何场景。
期待各位读者此基础上探索更加有趣的应用。

代码地址:
https://github.com/twke18/Adaptive_Affinity_Fields


论文&代码&模型下载:
原预训练模型在Google Drive上,国内无法下载。我已经将其搬到百度云。
转发本文到朋友圈,并在“我爱计算机视觉”公众号对话界面回复AAF,即可收到论文、代码、模型的百度云下载地址。

(欢迎关注“我爱计算机视觉”公众号,一个有价值有深度的公众号~)

【本文由“我爱计算机视觉”发布,2018年08月27日】

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存