汪张扬:深度学习中潜藏的稀疏表达
王杨卢骆当时体,轻薄为文哂未休。 尔曹身与名俱灭,不废江河万古流。— 唐 杜甫《戏为六绝句》(其二)
【不要问我为啥放这首在开头,千人千面千理解吧】
深度学习:概述和一孔之见
1)空前庞大的参数(parameter)量(动辄成百上千万),远远超过以往任何模型的参数数量级,使得模型对于复杂映射(mapping)的表达能力极大增强;
2)端到端(end-to-end)的训练方式,克服了以往模型分模块训练(hierarchical)、各模块没有彼此优化的劣势;
3)前两点主要是理念上的升华,而实际中最重要的进步,是终于找到了能有效训练这样巨大模型的一套手段。尽管这些手段(如后向传播算法)不免simple & naïve,很多也缺乏严格的证明和解释;然而在大数据的东风、GPU高性能计算的魔力、及无穷无尽的tricks(如dropout、batch normalization等)加持下,这条荆棘路还是硬生生被踏出来了。
应用上的巨大成功并不能掩盖DNN本身理论缺失、“沙上筑塔”的隐忧。传统方法的优良性质和可解释性,在DNN中损失殆尽:原因既归咎于DNN本身函数的高度非线性和非凸性,也不免受困于求解算法本身的粗糙和经验化。深度学习结构过于错综复杂、性质难以分析的“黑盒子”特质,引发了学术界的众多顾虑和好奇。从2013年开始,已经有学者陆续从不同的角度,研究DNN和各类传统机器学习模型之间(如小波分析、稀疏表示、高斯过程、条件随机场 )的内在关系,以期理解DNN的工作原理,甚至可能从传统模型的分析方法中掘得金矿,为DNN的理论框架添砖加瓦。本文以下,仅撷沧海之一珠,主要从稀疏编码(sparse coding)角度,初步分析和解释DNN中的一些经验性成功。
从正则回归模型谈起
当然,我们也可以考虑卷积(convolution)情况下的带正则回归问题:
深度网络中潜藏的稀疏表示
再进一步,上面那个对应非负稀疏编码的“展开&截断”前向结构,如果我们想避免那些不“特别典型”的中间连接(事实上,这些“捷径”的设计正在成为DNN的新热点,参加ResNet等工作)和权重共享(被重复展开),一个选择是只保留最开始的一部分计算而删掉后面,即让迭代算法从初始值开始只跑一步近似:
最后,简单讲讲另外两种形式的稀疏性。其一是将稀疏编码中1范数换成0范数:
总结一下,我们在这一部分都目击了些什么:
DNN中全连接层/卷积层,和线性/卷积回归模型间的密切结构对应关系
ReLU神经元隐含对特征“非负稀疏性”的要求
池化操作隐含对特征“强稀疏性”(特征选择)的要求
参数层偏置隐含对特征“稀疏度“的调节
总结
DNN和稀疏编码的关系深刻且本质;同样,它和其余众多传统机器学习模型间也逐渐被揭示出了千丝万缕的联系。作者组的最近工作还发掘了传统的一阶/二阶优化算法的结构,和今年大火的residual learning、fractal net等特殊网络结构和学习策略,同样有令人吃惊的精巧对应。除了作者组以外,诸如小波(wavelet)祖师Stéphane Mallat教授,压缩感知宗师Richard Baraniuk教授,约翰霍普金斯大学Rene Vidal教授,杜克大学Guillermo Sapiro教授,微软亚洲研究院Daivd Wipf博士...等多个一线研究组,近期也都对本方向投以极大关注,并陆续有优秀工作问世;方兴未艾,可以预见。 限于篇幅,无法尽述,部分参考文献列于文后以飨读者。从以往的特征工程/人工设计特征(feature engineering / crafted feature), 走到今天的以DNN为代表的特征学习(feature learning) + 人工设计结构(crafted architecture), 到未来潜在的特征学习(feature learning) + 结构学习(architecture learning),我们处在变革的时代,但不是“魔法”的时代;而且这变革和进步显然才到半途,亟待提升。上述工作的核心,是从传统机器学习的角度“解释”DNN中诸多经验性的结构缘何而来;在“解释“的基础上,下一步便是”分析“结构性质,和有的放矢地”创造“新的结构。作者君本人坚信,万事非偶然;这一系列经验性的对应,实实在在向我们展示了历史的螺旋上升,车轮转过同样的辐条。随着更多此类结构对应关系的发掘,将极大帮助我们理解和选择DNN的最优结构,创造新的可用结构,以及引入理论分析工具。
注:本文符号按照计算机科学领域习惯,统计学科同学务必注意和统计学习惯符号间的对应关系。此外,文中公式较多,点击文末“阅读原文”可前往COS主站阅读完美公式版文章。
作者简介
汪张扬,男,1991年出生于安徽巢湖;2012年中国科学技术大学电子通信工程本科毕业;2016年伊利诺伊大学香槟分校电子计算机工程博士毕业;2016年加入德州A&M大学计算机科学系任Assistant Professor。更多信息见主页:www.atlaswang.com
K. Gregor and Y. LeCun. Learning Fast Approximations of Sparse Coding, ICML 2010.
P. Sprechmann, A. M. Bronstein, and G. Sapiro, Learning Efficient Sparse and Low Rank Models, IEEE T-PAMI, 2015.
Z. Wang, Q. Ling, and T. Huang, Learning Deep ℓ0 Encoders, AAAI 2016.
Z. Wang, S. Chang, J. Zhou, M. Wang and T. Huang, Learning A Task-Specific Deep Architecture for Clustering, SDM 2016.
B. Xin, Y. Wang, W. Gao, D. Wipf, Maximal Sparsity with Deep Networks? arxiv.org
Z. Wang, D. Liu, J. Yang, W. Han, and T. Huang, Deep Networks for Image Super-Resolution with Sparse Prior, ICCV 2015.
Z. Wang, D. Liu, S. Chang, Q. Ling, Y. Yang and T. Huang, D3: Deep Dual-Domain Based Fast Restoration of JPEG-Compressed Images, CVPR 2016.
J. Bruna, Joan, S. Mallat. Invariant scattering convolution networks, IEEE T-PAMI, 2013.
A. Patel, T. Nguyen, R. G. Baraniuk. "A probabilistic theory of deep learning." arXiv 2015.
S. Zheng, S. Jayasumana, B. Romera-Paredes, Vi. Vineet, Z. Su, D.Du, C. Huang, and P. Torr, Conditional Random Fields as Recurrent Neural Networks, ICCV 2015.
Z. Wang, Y. Yang, S. Chang, Q. Ling, and T. Huang, Learning A Deep ℓ∞Encoder for Hashing, IJCAI 2016.
R. Liu, Z. Lin, W. Zhang, and Z. Su, Learning PDEs for image restoration via optimal control, ECCV 2010.
R. Liu, G. Zhong, J. Cao, Z. Lin, S. Shan, and Z. Luo, Learning to Diffuse: A New Perspective to Design PDEs for Visual Analysis, IEEE T-PAMI,2016.
U. Schmidt and S. Roth, Shrinkage Fields for Effective Image Restoration, CVPR 2014.
W. Zuo, D Ren, S. Gu, L. Lin, and L. Zhang, Discriminative Learning of Iteration-wise Priors for Blind Deconvolution, CVPR 2015.
W. Zuo, D Ren, D. Zhang, S. Gu, and L. Zhang, Learning Iteration-wise Generalized Shrinkage–Thresholding Operators for Blind Deconvolution, IEEE T-IP, 2016.
Y. Chen, Wei Yu, T. Pock, On learning optimized reaction diffusion processes for effective image restoration, CVPR 2015.
Y. Chen and T. Pock, Trainable Nonlinear Reaction Diffusion: A Flexible Framework for Fast and Effective Image Restoration, arxiv 2015.
统计之都:专业、人本、正直的中国统计学门户网站。
关注方式:扫描下图二维码。或查找公众帐号,搜索 统计之都 或 CapStat 即可。
往期推送:进入统计之都会话窗口,点击右上角小人图标,查看历史消息即可。
统计之都欢迎诸位看官积极投稿,投稿信箱contact@cos.name