FCN-语义分割深度模型的先驱
温馨提示:为了让大家能更理解深度模型,文章中会尽量避免使用专业术语和繁琐的公式,尽力采用形象、准确的故事去理解它。小狐狸目的是让大家都学会人工智能模型,能学会学习的方法然后和小狐狸一起去发现新世界。
语义分割
简单地说,分割就是抠图。语义分割,就是按图像中物体表达的含义进行抠图。现在ps已经集成很多自动分割的功能,相比旧版本软件,新软件提高了美工人员的抠图和美图的效率。如果我们能在更复杂的环境下,完成自动分割图像进行分析,这将降低多少人工?这类场景我们很熟悉,比如现在快速发展的自动驾驶。
摄像头采集到车前景象,通过模型分析,我们可以自动筛选出地面、交通线、人行道、行人、建筑、树、还有其他基础设施。相比传统的目标识别,语义分割它更强大。语义分割模型不仅可以识别简单的类别,而且还可以进行多目标、多类别、复杂目标以及分割目标。比如图中我们可以看到路面和交通标识线有清晰的分割,路面和人行道也同样如此,甚至路灯和建筑也可以清楚地分离出来。
这项技术在医学上也同样作用巨大,我们可以识别病灶并将其与正常组织分割,大脑神经系统内我们可以分离出同一组功能的神经结构,这些如何依赖人工去完成,所需的时间至少为数小时,而交给机器,那么数秒钟即可完成。
因此依靠分离模型,我们可以把重复性的劳动交给它去完成,人工只需要对输出结果进行二次分析和筛选,大大加快了提取过程和分析精度。
通过上面的介绍和例子,我们可以总结下优秀的语义分割摸应该具有的几个特性:
分割出来的不同语义区域对某种性质如灰度、纹理而言具有相似性,区域内部比较平整相邻语义区域对分割所依据的性质有明显的差异
不同语义区域边界上是明确和规整的
语义分割模型方法进阶
图像分割的历史
所有的发展都是漫长的技术积累,加上一些外界条件满足时就会产生质变。我们简单总结了图像分割的几个时期:
2000年之前,数字图像处理时我们采用方法基于几类:阈值分割、区域分割、边缘分割、纹理特征、聚类等。
2000年到2010年期间, 主要方法有四类:基于图论、聚类、分类以及聚类和分类结合。
2010年至今,神经网络模型的崛起和深度学习的发展,主要涉及到几种模型
参考文献:http://www/arocmag.com/article/02-2017-07-064.html
2010年前,CNN是非常高效的视觉处理工具,因为它能够学习到层次化的特征。研究人员将全连接层替换为卷积层来输出一种空间域映射(反卷积)而非简单输出类别的概率,从而将图像分割问题转换为端对端的图像处理问题。
端对端
知识也是一步一步地积累的,学到这儿,我们就会产生新的疑问,什么是端对端?可能大家都对这个概念有一些心得,我简单想了想大概是:解决问题时,输入问题的原始数据,然后模型输出所需结果,中间过程我们不加以考虑,这应该就是端对端最通俗的解释。我们详细看一下模型的发展,了解下什么是端对端,如下图:
2015年Dilated Convolutions(空洞卷积),更广范围内提高了内容的聚合并不降低分辨率。
2016年DeepLab v1&v2。
2016年RefineNet使用残差连接,降低了内存使用量,提高了模块间的特征融合。
2016年PSPNet模型。
2017年Large Kernel Matters。
2017年DeepLab V3。
以上几种模型可以按照语义分割模型的独有方法进行分类,如专门池化(PSPNet、DeepLab),编码器-解码器架构(SegNet、E-Net),多尺度处理(DeepLab)、条件随机场(CRFRNN)、空洞卷积(DiatedNet、DeepLab)和跳跃连接(FCN)。
FCN
CNN最后输出的是类别的概率值。
CNN的强大之处在于它的多层结构能自动学习特征,并且可以学习到多个层次的特征:较浅的卷积层感知域较小,学习到一些局部区域的特征。较深的卷积层具有较大的感知域,能够学习到更加抽象一些的特征。这些抽象特征对物体的大小、位置和方向等敏感性更低,从而有助于识别性能的提高。
全卷积神经网络主要使用了三种技术:
卷积化(Convolutional)
上采样(Upsample)
跳跃结构(Skip Layer)
传统CNN有几个缺点:
1.存储开销大,滑动窗口较大,每个窗口都需要存储空间来保存特征和判别类别,而且使用全连接结构,最后几层将近指数级存储递增。
2.计算效率低,大量重复计算。
3.滑动窗口大小是相对独立的,末端使用全连接只能约束局部特征。
为了解决上面的部分问题,FCN将传统CNN中的全连接层转化成卷积层,对应CNN网络FCN把最后三层全连接层转换成为三层卷积层(4096,4096,1000)。虽然通过上面两个图观察,卷积核全连接数值没有变化,但是卷积核全连接概念不一样,所以表达的含义就截然不同。
我们不禁想问,将全连接层换成卷积有什么好处呢?
这里我们要理解一句比较专业的话:如果卷积核的kernel_size和输入feature maps的size一样,那么相当于该卷积核计算了全部feature maps的信息,则相当于是一个kernel_size∗1的全连接。
我们怎么去理解这句话?大概意思为:当我们输入的图片大小和卷积核大小一致时,其实等价于建立全连接,但是还是有区别。全连接的结构是固定的,当我们训练完时每个连接都是有权重的。而卷积过程我们其实为训练连接结构,学习了目标和那些像素之间有关系,权重较弱的像素我们可以忽略。全连接他不会学习过滤,他会给每个连接分权重并不会修改连接关系。卷积则是会学习有用的关系,没用得到关系它会弱化或者直接dropout。这样卷积块可以共用一套权重,减少重复计算,还可以降低模型复杂度。
反卷积
数学概念太多就不写公式,我们直接看图理解。
a图是输入图像,b图是经过卷积得到的特征图,分辨率明显下降。经过上采样(反卷积)提升分辨率得到同时,还保证了特征所在区域的权重,最后将图片的分辨率提升原图一致后,权重高的区域则为目标所在区域。
FCN模型处理过程也是这样,通过卷积和反卷积我们基本能定位到目标区域,但是,我们会发现模型前期是通过卷积、池化、非线性激活函数等作用输出了特征权重图像,我们经过反卷积等操作输出的图像实际是很粗糙的,毕竟丢了很多细节。因此我们需要找到一种方式填补丢失的细节数据,所以就有了跳跃结构。
跳跃结构
不知道大家是否还记得我在lstm的那篇文章中讲过小本本的记录功能?没有看过的同学可以去查看之前的文章。我们通过回查学习过的知识,可以帮助理解当前的知识。这里的原理也有些许类似,我们正向过程的卷积、池化等操作都会输出每个层的特征,我们使用反卷积然后和历史中的池化和卷积数据结合,利用它们的数据填补我们缺失的数据。
三个技术都已经构建如模型之中,通过一定标记数据的训练后,模型已经学会了如何识别类别,并且能反卷积得到对应类别所在的像素区域。输出的效果如下图
我们复习一下:
卷积化:全连接层(6,7,8)都变成卷积层,适应任意尺寸输入,输出低分辨率的分割图片。
反卷积:低分辨率的图像进行上采样,输出同分辨率的分割图片。
跳层结构:结合上采样和上层卷积池化后数据,修复还原的图像。
FCN的缺点:
1.分割的结果不够精细。图像过于模糊或平滑,没有分割出目标图像的细节。
2.因为模型是基于CNN改进而来,即便是用卷积替换了全连接,但是依然是独立像素进行分类,没有充分考虑像素与像素之间的关系。
也是因为每个模型都有自己的不足,所以才会出现各式各样的模型来解决它们的问题。大家如果能分析出每个模型的缺点,那我们也可以构建新的模型去完善他们的模型,这其实就是创新的过程。