活动 | 深度学习Meetup演讲速记——深度学习在图像处理中的应用简介
以下为演讲正文:
今天的演讲主要是我自己平时的探索和分析,在这里和大家总结分享一下。
1. 图像增强
第一,就是图像增强,简单来说就是从图像到图像。第一个方面主要介绍超分辨,也就是把低分辨率的图像转化成高分辨率的图像。用在视频里,就是把标清视频转化成高清视频,通常是2x,其实也可以实现4x,比如我把流畅直接转化成高清。
接下来这个超分辨的算法SRCNN是15年由Chao Dong、Chen Change Loy、Kaiming He和Xiaoou Tang在paper中提出来的,利用神经网络做超分辨,FCN的全卷积网络结构,输入是标准的缩放过的图像,输出是原始高分辨率的图像。我们就可以通过这个网络训练出这样的效果。
1.2灰度图彩色化
接下来来看图像增强的第二个方面,灰度图彩色化。这里的算法是基于CNN实现,下面有个链接,里面有网络的结构。我利用这个方法做了简单的实验,结果就是左图中的效果。总的来说还是有一定效果的。
1.3 2D到3D的转换
1.4 图像改善
1.5小结
2.1 A Neural Algorithm of Artistic Style
效果最好的由德国人在2015年8月份做出,
左侧分别为Content image和Style image,Style image过卷积网络形成一定
response,reconstruction过程通过一定可视化手段实现,处理过程中并不能看到这样的效果。作者设计了一个很巧妙函数,在卷积网络前几层中保持input图面原来的样子,在最后几层学习成Style image的样子。
算法关键是Gram矩阵的应用,消除了分辨率差异,融合了全局风格。(详细内容可参见论文)以下为neural style的开源完整实现,由李飞飞的在读博士生完成。
2.2 Texture Networks
(ref: https://github.com/DmitryUlyanov/texture_nets)
这个方法最大的毛病是需要多次迭代,1000-2000次左右,后来有人想为何不直接做一个网络,从Input到Output直接拿到结果,而这正是著名的Texture Networks: Feed-forward Synthesis of Textures and Stylized Images 。算法由一位俄罗斯小哥实现,据推测Prisma APP 最有可能来自这个算法。
与德国人的算法相比,Prisma的实现效果较为局域性,纹理较浅,很难学出很深的效果。两种方法的区别在于,第二种是训练以后直接生成的方法。这些方法已经比传统基于Photoshop等方法要实际很多,这也是Prisma引爆朋友圈的原因。
2.3 利用位置信息的方法
上图左右两张图为相同尺寸,都有眼睛、鼻子、脸,既然如此那能否基于像素位置进行定位?之前的方法都是全局的,这种方法是在函数或feature map里面定位信息,即两图眼睛与眼睛,鼻子与鼻子的风格尽量接近,得出效果不是纹理上整体的相似,因为处理过程考虑了位置信息。眼睛学习眼睛位置的风格,而不是头发的风格。由于要计算MIF,这个方法非常慢,好的一点是MIF的匹配是半交互的。效果特殊也是这一方法的好玩之处。
2.4小结
这里介绍了三种图像修改的思路。第一种方法是通过BP操作,修改原图,迭代过程很慢,但好处是不需要任何模型,只需要选定风格,无需预先训练,即用户可指定Style image,Prisma显然无法做到国画或者固定肖像的分格。第二种类Prisma方法,直接设计一个前向网络。第三种方法则利用图像位置信息且可交互,目前还没有app实现。
第三部分是更为神奇的图像生成领域。
3.1 CPPN ( Compositional Pattern Producing Network )
第一种神经网络很不起眼。随机输入一个向量Z,二维三维任意;在输入x、y和半径r,最终输出一个值C。输出值为图像灰度,如果是彩色就输出是三个值。换而言之,输入坐标,输出坐标对应像素的值。假设我们采用一个简单网络,随机化其参数,x、y、r从坐上到右下依次生成像素值,并拼成一幅画,或产生怎样的效果?
3.2 Deep Dream
第二种方法是Google做出的,首先有一个风格图目标,在feature map上随机制定若干神经元,通过修改原图得到很多梦幻效果,也是一个很好玩的效果。 3.3 VAE
第三种方法是用VAE(变分自编码器)生成图像,与CPPN有相似之处。输入数据,得到指定分布的采样,即所谓变分法。训练好网络之后,经过各种各样的采样,可以生成期没有见过的图像。通俗的讲,看了10万只猫,画出与这十万只猫不同的猫的图像。这是一种典型的Unsupervised Learning,即看了一大堆样本,将其分布映射到某几个指定纬度,通过分布上的采样生成新的采样。
(Ref: http://bamos.github.io/2016/08/09/deep -completion/)效果是这样的:眼镜的图像-人脸+女人效果,即将眼镜效果加到女人照片上。
下面这些图是根据算法生成的CD封面,生成模型都是一个意思,训练了很多样本,无论通过何种建模方法,生成未见过的图像。
4. 展望
大量实践表明,不论PS还是美工,实际上都是“非常体力的重复劳动”,运用深度学习的方法,无论是图像增强、修改还是生成,一定有办法加快并智能化图像处理过程,这是非常有意义的事。
新的模型新的方法新的应用不断涌现,但哪些能存活下来,还不得而知。(演讲内容到此结束)
活动速记2:活动 | 深度学习Meetup演讲速记——使用 CUDA 加速R的应用
活动速记3:活动 | [修订版]深度学习Meetup演讲速记——Deep Learning for Recommender Systems