【技术综述】“看透”神经网络
本文是深度神经网络可视化的一点东西
言有三
毕业于中国科学院,计算机视觉方向从业者,有三工作室等创始人
作者 | 言有三
编辑 | 言有三
大家最诟病深度学习的一点就是理论基础不够系统,模型就像一个黑盒子,这就更加凸显了深度学习模型可视化的重要性了。
本文以实战经验为主,除去数据的可视化部分,我们说以下几个主要的方向(1)模型结构的可视化(2)卷积参数的可视化(3)激活区域的可视化(4)训练过程的可视化。
01
模型结构的可视化
所谓模型结构的可视化,就是为了方便更直观的看到模型的结构,从而方便进行调试,下面对2个主流的框架进行展示。
1.1 caffe网络结构可视化
定义一个简单的3层的模型(模型可以查看我们git,代码太长此处不展示),我们可以采用几种方案进行可视化;第一种,利用caffe自带的可视化方法;第二种,利用开源项目netscope;由于netscope可视化效果更好,因此我们采用netscope进行可视化,工具网址如下
相关链接:
http://ethereon.github.io/netscope/#/editor
可视化后的结果如上图,可以看到网络的结构是通过卷积+激活函数的堆叠,同时网络的数据输入层和最后的全连接层作为了loss层和acc层的输入。
当我们想要看每一层的参数时,就可以将鼠标放上相应的结构块;
当然,还可以使用caffe自带的脚本进行可视化,在caffe根目录下的python目录下有draw_net.py这个脚本。
draw_net.py执行的时候带三个参数,第一个参数是网络模型的prototxt文件,第二个参数是保存的图片路径及名字,第三个参数是rankdirx,他有四种选项,分别是LR, RL, TB, BT。用来表示网络的方向,分别是从左到右,从右到左,从上到小,从下到上。默认为LR。
1.2 tensorflow网络结构可视化
在tensorflow中要进行可视化,必须使用name scope来确定模块的作用范围,添加部分名称和作用域,否则网络图会非常复杂。与上面类似,我们同样定义一个三层的卷积网络(代码还是看git)。
要想利用tensorboard进行可视化,必须在session中通过summary存储网络图,只需要在训练代码中添加命令即可,summary = tf.summary.FileWriter("output", sess.graph)
最后利用tensorboard命令来查看训练结果和可视化结果,网络的可视化结果如下。
可以看出,网络的结构可视化和caffe的差不多。除了caffe的网络结构可视化是输入模型配置文件,大部分的深度学习框架都使用了python进行开发,模型结构的可视化与tensorflow结果差不多。相比较来说,caffe的模型可视化方法更加简单直接,独立于代码,可以更便捷地看到每一层的参数配置。
02
卷积参数可视化
前面我们可视化了网络的结构,从而对要训练的网络就有了整体的把握。当我们得到了训练结果之后,一个模型常有百万千万级别的参数,我们能否通过可视化的方法,来评判一下这个网络结构的好坏呢?通常情况下,我们希望网络结构学习到的权重,模式足够丰富,这样才有强大的表征能力。
2.1 浅层卷积参数可视化
网络的早期卷积学习到的是通用的特征,由于大部分网络的输入都是彩色图,所以数据层的通道数为3。正好我们平时用的彩色图的通道就是3维,这时候如果直接将这3组通道转换为一个彩色图,我们就可以很直观的可视化这第一层的卷积参数,对于任意以输入图为3通道彩色图的网络结构来说,这都是通用的。
下面是alexnet学习到的权重的第一层卷积的可视化。
这其中有一些卷积核为灰度图,说明三个通道的对应参数相近,学习到的是与颜色无关的特征。有的为彩色图,说明3个通道的特征差异大,学习到的是与颜色有关的特征。这与上面人眼和感知特性也是相通的,在底层,学习到的是边缘,形状,颜色等敏感等信息。
细心的读者应该可以注意到,上面的参数,具有一定的互补性和对称性。
2.2 高层卷积参数可视化
到了高层,由于输入的通道数不再为3,所以无法像第一层那样,将其投射到图像空间进行直观的可视化。
这时候就有了两种思路。分别是dataset-centric和network-centric方法。他们的区别就是,第一个要可视化核函数,必须要使用真实的输入数据。第二个,则是通过生成一个随机图片,然后进行迭代的方法,来最大化响应层的神经元的激活,这个时候为使得输入的图片更加平滑,可以考虑使用GAN等方法。
主要的研究方法包括两种,反卷积法【2】和梯度计算法【3】。
反卷积方法的核心思想就是利用上采样从特征空间逐步恢复到图像空间。假设我们要可视化第1个feature map的一个unit,即特征图的一个像素的activation,则首先从数据集中计算一下多个输入图像各自经过前向传播后在这个unit上产生的activation,取出activation最大的一些图像,这些图像作为输入图。
然后将输入图分别在这个unit上产生的activation进行反向传播,其他位置置为零。其中与pooling对应的就是uppooling,它通过在max pooling的时候记录下最大激活位置,在反卷积的时候进行恢复。与卷积对应的操作就是转置卷积操作,这是被用于图像分割的方法,也是通常意义上所说的反卷积。
反卷积的结果,就是一个重建的图。
梯度计算法包括标准的梯度计算法以及它的一些改进版本integrated gradients,guided backprop,基本原理如下,在训练的过程中固定网络的参数不变,学习输入。
反卷积法和梯度计算法可视化出来的结果,可以反映出神经元学习到的类别的轮廓,但是结果不够精细。GoogleBrain团队的deep dream【4】研究,对inception网络进行了逐层的特征可视化,揭示了每一个网络层的特性。该项目是通过输入随机噪声和想让网络学习的图像的先验知识,最后可视化网络学习到的该类的结果,虽然不是现实存在的图像,但是却具有该类别的特性,如同人类梦境中生成的不真实却又有辨识度的场景一样。
下面展示了layer 4c层的一个神经元的结果。
03
激活热图可视化
可视化了卷积参数,它可以反映出所学习到的网络的参数本身有什么样的特点,它是从神经元的角度解释了 CNN,而激活热图可视化考虑从输入图像的角度解释CNN。它从输入图像中找出激活卷积层中特定神经元的选择性模式,来反应网络到底学习到了什么信息。
特征图可视化的结果是sensitivity map,也叫saliency maps,以CAM(Class Activation Mapping)【5】方法及其变种为代表。
CAM利用GAP(Global Average Pooling)替换掉了全连接层,将输出通道调整为输出类别数,再加权然后通过softmax层得到结果,可视化原理图如下:
看上图,最后输入softmax的特征图,等于k个featuremap的加权和,其中w系数包括c维,c等于类别数目。等到了热力图之后,直接上采样到原图中就能得到激活区域,因为featuremap保留了原图的空间关系。
04
训练过程可视化
最后,我们通过tensorflow可视化开源框架来展示在项目中的可视化,由于我们前面已经有许多期文章讲述过可视化的各个模块细节,所以此处就不再做技术细节展示,而只展示结果。
项目是这个:
https://github.com/carpedm20/DCGAN-tensorflow,我们用来生成了一批嘴唇数据。
4.1 loss可视化
loss等标量指标可视化可以反应网络的学习情况,是必须关注的。
4.2 中间结果可视化
对于图像生成任务,没有什么比查看中间结果更加有说服力的了。
4.3 网络结构可视化
tensorflow可视化网络结果虽然比caffe更加复杂,但也更加细致,关注关注没有坏处。
另外,还可以查看权重的直方图分布等等,对于网络的性能判断也有辅助作用。
5
总结
正所谓一图胜千言,可视化起来high啊,这个坑远远没有这么简单。
如果你想了解更多,有一篇综述文章【6】做了分类,不过对于大部分人来说那个分类并不好理解,所以我还是按照本文的组织形式。
参考文章
[1] Erhan D, Bengio Y, Courville A, et al. Visualizing higher-layer features of a deep network[J]. University of Montreal, 2009, 1341(3): 1.
[2] Zeiler M D, Fergus R. Visualizing and Understanding Convolutional Networks[J]. 2013, 8689:818-833.
[3] Simonyan K, Vedaldi A, Zisserman A. Deep inside convolutional networks: Visualising image classification models and saliency maps[J]. arXiv preprint arXiv:1312.6034, 2013.
[4] https://distill.pub/2017/feature-visualization/
[5] Zhou B, Khosla A, Lapedriza A, et al. Learning deep features for discriminative localization[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 2921-2929.
[6] How convolutional neural network see the world - A survey of convolutional neural network visualization methods
十月开始,我们有三AI学院开启了“稷”划和“济”划,帮助想入行以及想取得更多实战经验的同学。内容覆盖从自动驾驶到美颜直播等领域的实战项目,从图像基础到深度学习理论的系统知识,欢迎关注。
如果想加入我们,后台留言吧
微信
Longlongtogo
公众号内容
1 图像基础|2 深度学习|3 行业信息
往期综述精选
往期学员分享
往期开源框架