NeurIPS 2018 | 腾讯AI Lab参与提出构建非局部模块的新方法
感谢阅读腾讯AI Lab微信号第63篇文章。AI领域顶会 NeurIPS 正在加拿大蒙特利尔举办,腾讯AI Lab实验室每日将深度解读一篇入选论文,今天是第7篇。Enjoy!
NeurIPS (Conference on Neural Information Processing Systems,神经信息处理系统进展大会)与ICML并称为神经计算和机器学习领域两大顶级学术会议。今年为第32届会议,将于 12月3日至8日在加拿大蒙特利尔举办。
腾讯AI Lab第三次参加NeurIPS,共20篇论文入选,位居国内企业前列。会议期间,我们选取7篇论文进行深度解读。今天解读论文为: Nonlocal Neural Networks, Nonlocal Diffusion and Nonlocal Modeling。
论文链接:https://arxiv.org/pdf/1806.00681.pdf
在这篇由腾讯AI Lab与哥伦比亚大学合作完成的论文中,作者对经过良好训练的网络的权重矩阵进行了谱分析, 从而探索理解了非局部网络的扩散和抑制效应的本质,并基于此提出了一种新的非局部模块的构建方法。 以下为论文详细解读。
非局部神经网络最初由[1]提出。非局部模块能与一般的神经网络 (例如残差神经网络)合并。如果我们将若干非局部模块插入残差神经网络 (residual network), 得到的新网络可以定义为如下表达式:
其中
本文首先对与残差网络合并后的非局部网络在CIFAR-10数据集上进行训练。为了理解非局部模块在该网络中的性质, 本文接着对非局部模块对应的(对称化)权重矩阵进行了谱分析,并对得到的特征值根据绝对值从大到小排序。实验结果表明, 当连续加入1-3个非局部模块时,排序靠前的大部分特征值为负数,如下图所示:
这也说明了非局部模块在本质上具有扩散特性 (diffusion)和抑制效应 (damping effect)。但当连续加入4个非局部模块时,神经网络的训练在原参数下很难收敛。良好训练后的神经网络中非局部模块对应的 (对称化)权重矩阵有很多大绝对值的正特征值,如下图所示:
这同时也说明了[1]提出的非局部神经网络对连续插入非局部模块不具有鲁棒性。 因此, 本文提出了一种新的非局部模块构建方式:将连续插入的非局部模块视作一个非局部阶段 (nonlocal stage),在一个阶段中的非局部模块可以表达为:
其中为此非局部阶段的输入,即同一个非局部阶段中的非局部模块使用同一个相关性函数(affinity function)
实验结果表明,这种新模块不仅能学习非局部的交互,而且还有稳定的动态特性,因此支持更深度的非局部结构——从而可以堆叠更多非局部模块以充分利用其优势。
此外,为了说明新的构建方法的合理性,本文还从通用型非局部建模的角度将新提出的非局部网络与非局部扩散过程与非局部马尔可夫跳变过程等其它非局部模型联系到了一起。非局部运算与卷积和循环模块不同,可以通过直接计算特征空间中每对位置之间的交互来实现长程依赖。这项研究对图像或视频分类、文本摘要和金融市场分析等诸多实际机器学习问题有重要的指导意义。
[1] Wang, X., Girshick, R., Gupta, A., & He, K. Non-local neural networks. CVPR 2017.
精彩解读回顾