查看原文
其他

IJCAI16论文速读:Deep Learning论文选读(上)

2016-10-17 朱鹏飞 深度学习大讲堂
点击上方“深度学习大讲堂”可订阅哦!
深度学习大讲堂是高质量原创内容的平台,邀请学术界、工业界一线专家撰稿,致力于推送人工智能与深度学习最新技术、产品和活动信息!

IJCAI16会议介绍:

国际人工智能联合会议( International Joint Conference on Artificial Intelligence,IJCAI )是聚集人工智能领域研究者和从业者的盛会,也是人工智能领域中最主要的学术会议之一。1969 年到 2015 年,该大会在每个奇数年举办,现已举办了 24 届。随着近几年来人工智能领域的研究和应用的持续升温,从 2016 年开始,IJCAI 大会将变成每年举办一次的年度盛会;今年是该大会第一次在偶数年举办。第 25 届 IJCAI 大会于 7 月 9 日- 15 日在纽约举办。

Guest Editor导读:

本届会议的举办地在繁华喧嚣的纽约时代广场附近,正映衬了人工智能领域几年来的火热氛围。此次大会包括7场特邀演讲、4场获奖演讲、551篇同行评议论文的presentation,41场workshop、37堂tutorial、22个demo等。深度学习成为了IJCAI 2016的关键词之一,以深度学习为主题的论文报告session共计有3个。本期我们从中选择了两篇篇深度学习领域的相关论文进行选读,组织了相关领域的博士研究生,介绍论文的主要思想,并对论文的贡献进行点评。

1. Weight Features for Predicting Future Model Performance of Deep Neural Networks

IBM东京研究院的研究者研究了一个有趣且非常实用的问题,在深度学习的调参中如何快速的丢弃一些超参数的组合来加速调参。传统的方法只利用了网络训练过程中的learning curve(不同训练epoch的模型在测试集上最终性能构成的曲线), 却没有考虑网络模型参数与最终模型性能的相关性。本文提出利用网络训练阶段的参数作为特征,采用random forest学习回回归函数,直接建模参数和参数变化与最终模型性能的关系,预测网络的最终性能。
方法框架:特征设计和性能预测函数。特征设计部分参考了手工描述子的设计方式,比如对卷积核权重提取了等均值、方法、峰度、散度等特征,性能预测函数部分则直接使用了随机森林算法。通过在已有的learning curve上训练分类器器,可以在其他超参数组合训练的早期(比如前10个epoch)预测其最终模型的性能。

部分实验设计如表1,给出了ImageNet数据集上的超参数搜索空间。需要指出的是,在实践中,卷Act. func会默认为ReLU,大量实验表明ReLU效果更好。
下图所示为在三个数数据集的实验,虽然相比learning curve的方式,该方法的性能有显著的提高,但是分类正确率或者top-1错误率估计的均方误差(RMSE)还是达到0.13,这对于锱铢必较的细粒度调参来说暂时还达不到实用程度。但是一定意义上,通过文中方法early stop掉一些明显最终性能预期不好的超参数组合对于加速超参数搜索依旧有其实用价值。
总结起来文章提供了一个通过模型参数来预测模型最高性能的方法,提供了超参数选择的一种思路。但是目前的实验结果尚不足以代精细化的调参,比如learning rate 0.01, 0.02….的细粒度调整。

本文方法的未来改进的空间在于由目前手工设计特征+分类器的两段式方法到非端到端的深度学习方法。此外,考虑实际应用中细粒度调参的需要也是本文方法的一个可能改进方向。

2. Towards Convolutional Neural Networks Compression via Global Error Reconstruction

大规模深度卷积神经网络,例如VGGNet面临参数量大和计算复杂度高两个问题,现有的网络压缩方法如low-rank分层分解会带来层间的累积误差问题,影响网络全局逼近的精度。厦门大学纪荣嵘组的这篇论文设计了一种两段式网络压缩方法,首先对全连接层进行low–rank分解,接着引入了一个全局重构误差最小化的策略,通过最小化网络的重构误差来对压缩后的网络进行fine-tune,从而有效缓解了分层逼近带来的累积误差问题。

方法框架:全连接层low-rank分解的方法图示如下,全连接矩阵W被分解为矩阵P和Q。
Low-rank分解的形式化如下:

进一步的,基于全局误差最小化的优化目标,对low-rank分解后每一层的参数P1和Q1用误差反向传播算法进行更新。

在VGGNet上的实验结果如下图所示,文章提出的GER算法取得了state-of-the-art的性能。当然高压缩率情况下的GER明显的性能优势,理论上的意义更大一些,因为此时的性能损失已经太大。
VGGNet上不同压缩方法的比较,GER算法在大压缩率时有明显的优势
从实用性的角度,单独压缩全连接层虽然可以显著减少参数,但是理论意义更大,原因有两点:1)实践中已经越来越少使用全连接层,例如ResNet中就没有全连接层(分类器层除外)。2)卷积层占了主要的计算量,虽然显著压缩了参数,但并不能明显改善速度。

本文的潜在优势在于,卷积层的运算实际上可以写成patch展开后的矩阵(Caffe中的Im2Col操作)和kernel matrix的矩阵相乘,也可以采用low-rank的方法逼近,因此本文方法如果扩展到卷积层,则可以直接降低卷积层计算量和参数量,这也是GER在实际问题中的潜力所在。


参与人员:胡兰青,中科院计算所VIPL研究组博士研究生尹肖贻,中科院计算所VIPL研究组博士研究生刘昊淼,中科院计算所VIPL研究组博士研究生刘   昕,中科院计算所VIPL研究组博士研究生

该文章属于“深度学习大讲堂”原创,如需要转载,请联系loveholicguoguo。

Guest Editor:
 朱鹏飞,天津大学机器学习与数据挖掘实验室副教授,硕士生导师。分别于2009和2011年在哈尔滨工业大学能源科学与工程学院获得学士和硕士学位,2015年于香港理工大学电子计算学系获得博士学位。目前,在机器学习与计算机视觉国际顶级会议和期刊上发表论文20余篇,包括AAAI、IJCAI、ICCV、ECCV以及IEEE Transactions on Information Forensics and Security等。


往期精彩回顾
深度学习在文本简化中的应用进展
深度学习解决机器阅读理解任务的研究进展
技术揭秘:海康威视PASCAL VOC2012目标检测权威评测夺冠之道
美国人文与科学院Poggio院士谈神经科学与人工智能
近期GAN的模型和理论发展
基于深度学习的视觉实例搜索研究进展
 
  
欢迎关注我们!
深度学习大讲堂是高质量原创内容的平台,邀请学术界、工业界一线专家撰稿,致力于推送人工智能与深度学习最新技术、产品和活动信息!
深度学习大讲堂

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存