查看原文
其他

SegNet:图片的语义分割网络



昨天发送的《SegNet:图片的语义分割网络》一文中出现排版错误,影响了大家的阅读。在此向原文作者和广大读者表示抱歉!今天重新发送此文,请大家见谅。

成大事不在于力量多少,而在于坚持多久

Great events do not lie in strength,but for how long


计算机视觉和机器学习的研究人员对图像语义分割越来越感兴趣。越来越多的应用如无人驾驶、室内导航甚至虚拟现实或增强现实等都需要准确的、有效的分割机制。这种需求与深度学习方法在计算机视觉,包括语义分割或场景理解等有关的应用领域的兴起相一致。

目前,应用于二维图像,视频,甚至三维数据的语义分割是计算机视觉领域的关键问题之一。语义分割是完成场景理解任务的必要步骤。场景理解是计算机视觉的核心问题。

在这篇论文中展示了一种新奇的有实践意义的深度全卷积神经网络结构,用于逐个像素的语义分割。



论文:《SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation》




论文链接:https://ieeexplore.ieee.org/document/7803544/

论文出处:IEEE Transactions on Pattern Analysis and Machine Intelligence



参考

本文前言部分引用了Steven的《深度学习技术应用于语义分割综述》


本文参考了Fate_fjh的博客 

《卷积神经网络CNN(4)—— SegNet》







SegNet网络




SegNet是用于逐个像素的语义分割。

具有良好的分割性能的同时在内存与准确性方面也有不错的权衡。

SegNet的主要动机是场景理解应用。在可训练参数的数量上与其他计算架构相比具有明显优势。



网络需要对外观(道路,建筑物)、形状(汽车,行人)拥有建模的能力,并了解不同类别(如道路和侧面行走)之间的空间关系(上下文)。

在典型的道路场景中,大多数像素属于大型类,如道路、建筑物,因此网络必须产生平滑的分段。引擎还必须具有根据其形状来描绘对象的能力,尽管它们的尺寸很小。因此,在提取的图像表示中保留边界信息是重要的。





SegNet编码网络



每个编码器由卷积层、批归一化层(batch normalization)、ReLU组成,之后,执行具有2×2窗口和步幅2(非重叠窗口)的最大池化,输出结果相当于系数为2的下采样。




01


卷积网络



SegNet中的编码网络和VGG16的卷积层是拓扑上相同的。我们移除了全连接层,有利于在最深的编码器输出处保留较高分辨率的特征图,这样可以使SegNet显著的小并且训练起来更容易。



02


批归一化



算法就是要解决在训练过程中,中间层数据分布发生改变的情况。



03


ReLU



ReLU函数是分段线性函数,把所有的负值都变为0,而正值不变,这种操作被成为单侧抑制。



04


池化



为了高效,在这里我们通过记忆max-pooling indices来存储图像的边界信息,对于每个2×2池化窗口,使用2位来完成,因此与浮动精度的记忆特征图相比,存储效率更高。










SegNet解码网络



SegNet的关键部件是解码器网络,由一个对应于每个编码器的解码器层次组成。

解码网络的角色是映射低分辨率的编码后的特征图到输入分辨率的特征图。



01


上采样



解码器使用在相应编码器的最大合并步骤中计算的池化索引来执行非线性上采样。


重用池化索引的好处


(1)它改进了边界划分。

(2)减少了实现端到端训练的参数数量。

(3)这种upsampling的形式可以仅需要少量的修改而合并到任何编码-解码形式的。



02


卷积




上面的上采样与可训练的滤波器卷积可以产生密集的特征图。



03


softmax



最后一个解码器产生一个K通道的特征图,然后输入softmax分类器。softmax独立地分类每个像素。



04


损失函数



利用随机梯度下降算法训练网络。








与其它网络的对比


在受控基准设置下,SegNet与一些较大模型相比显示出优越的性能。


1.道路场景

在图中定性结果显示了所提出的SegNet架构在道路场景中分割较小类别的能力,同时产生整个场景的平滑分割。




2.室内场景


SegNet对卧室、客厅、实验室、会议室、卫生间等不同类型的室内场景样本的定性结果如图所示。



我们看到SegNet在类别大小不同时得到合理的预测观点。

图中也可以看出像台灯、椅子和桌子的腿等分的比较好。然而,与室外场景相比,分割质量显然更加嘈杂。当杂波增加时,质量显着下降。


由于SegNet网络在训练时保存了边界信息,所以它的边界信息保存比较完全,这也是它优于别的网络的一个原因。



01


与非深度学习方法的比较



表中的结果显示,SegNet优于所有其他方法,包括那些在大多数类中使用深度、视频或CRF的方法。



02


与完全卷积体系结构的比较



从表可以看出,当端到端训练以相同的固定学习速率进行时,像SegNet这样的小型网络学习在更短的时间内表现更好。 与其他竞争模型相比,SegNet、DeconvNet测量类间边界划分精度的BF分数显着较高。DeconvNet与SegNet的指标相匹配,但计算成本更高。



03


计算时间和硬件资源比较



表中对不同深度架构所需的计算时间和硬件资源的比较,显示SegNet在推理模型中存储效能最好。









结论

SegNet背后的主要动机是需要设计一个高效的道路和室内场景理解架构,这在内存和计算时间方面都是有效的。我们分析了SegNet并将其与其他重要变体进行比较,以揭示设计用于分割的体系结构所涉及的实际权衡,特别是训练时间、内存与准确性。那些存储编码器网络特征映射的体系结构在执行时间内表现最好,但消耗更多内存。另一方面是SegNet因为它只存储特征映射的最大汇集指数并在解码器网络中使用它们以实现良好的性能,所以效率更高。




未来的发展

我们选择使用批处理标准化来执行受控基准测试,以使用同一解算器(SGD)进行端到端训练。然而,我们注意到这种方法不能完全解决模型与求解器(优化)在实现特定结果时的影响。

这主要是因为训练这些网络涉及不完善的梯度后向传播,并且优化在非常大的尺寸中是非凸问题。承认这些缺点,我们希望这种受控分析可以补充其他基准,并揭示不同著名架构中涉及的实际权衡。

对于未来,我们希望利用我们对从分析中收集的分割体系结构的理解,为实时应用设计更高效的体系结构。我们也有兴趣估计来自深度分割体系结构的预测模型的不确定性。




编辑:贾江江 、陈颖颖、 朱  宇


: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存