其他

谷歌大脑通过动态等距「复活」深度学习中的sigmoid

2017-11-17 雷克世界

图:pexels


原文来源:arXiv

作者:Jeffrey Pennington、Samuel S. Schoenholz、Surya Ganguli

「雷克世界」编译:嗯~阿童木呀


众所周知,深度神经网络中权重的初始化会对学习速度产生深远影响。例如,确保网络输入—输出雅可比矩阵(Jacobian)的均方奇异值(the mean squared singular value)是O(1),对于避免梯度的指数消失或爆炸来说是必不可少的。雅可比矩阵的所有奇异值都集中在1附近的更为强壮的条件是一个被称之为动态等距(dynamical isometry)的性质。对于深度线性网络来说,动态等距可以通过正交权重(orthogonal weight)初始化来实现,并且已经显示出能够显著加快学习速度。然而,目前还不清楚该如何将这些结果扩展到非线性环境中。而这个问题,我们可以通过使用自由概率理论的强大工具来分析性地计算深度网络的输入—输出雅可比矩阵的整个奇异值分布得以解决。我们探索了奇异值分布对网络深度、权重的初始化以及非线性选择的依赖性。有趣的是,我们发现ReLU网络不具备动态等距。另一方面,sigmoid网络可以实现等距,但只能通过正交权重初始化得以实现。此外,根据经验可以证明,能够实现动态等距的深度非线性网络学习数量级(orders of magnitude)的速度要比不能够实现动态等距的网络快得多。事实上,研究结果表明,正确初始化的深度sigmoid网络的性能表现一直优于深度ReLU网络。总的来说,我们的分析结果表明,控制雅可比奇异值的整体分布是深度学习中一个重要的设计考量因素。

 


大家都知道,现如今,深度学习在许多领域都取得了最先进的性能表现,比如计算机视觉、机器翻译、人类游戏、教育以及神经生物学建模等。对深度网络进行成功训练的一个主要决定性因素在于适当地选择初始权重。实际上,深度学习的根源是建立于最初的观察之上的,即无监督的预训练为随后通过反向传播进行的微调提供了一组好的初始权重。此外,在深度学习领域的开创性研究结果表明,适当比例的高斯权重可以防止梯度以指数形式进行爆炸或消失,而这被认为是达到合理学习速度的必要条件。


这些随机权重的初始化主要是由一个原理驱动的,即深度网络雅可比矩阵输入—输出的平均奇异值应该保持在1附近。这个条件意味着,随机选择的误差向量在反向传播时将保持其范数。然而,它无法保证误差向量在最坏情况下的增长或收缩。人们可能要求的一个更强的要求是每个雅可比奇异值都保持在1附近。在这个更强的要求下,每一个误差向量都将近似地保持其范数,而且不同误差向量之间的所有角度都将被保留。由于误差信息在网络中进行忠实地、等距地反向传播,因此这个更为强健的要求被称之为动态等距。


对深度线性网络学习的非线性动力学的精确解进行理论分析,结果表明,相较于那些没有满足动态等距的权重初始化来说,满足动态等距的权重初始化能够大大提高学习速度。对于这样的线性网络,正交权重初始化实现了动态等距,并且更为显著的是,它们的学习时间(以学习轮数的数量来衡量)变得与深度无关。相比之下,随机高斯初始化没有实现动态等距,也没有实现独立于深度之外的训练时间。


然而,遗憾的是目前尚不清楚该如何将这些结果传递到深度非线性网络中。实际上,从经验上来说,非线性网络中从高斯到正交初始化的一个简单的变化产生了不同的结果,引起了重要的理论和实际问题。首先,深度网络的输入——输出雅可比矩阵奇异值的整体分布是如何依赖于深度、随机初始权值的统计量以及非线性的形状的?其次,这些成分的什么样的组合能够实现动态等距?第三,在那些既没有梯度消失也没有梯度爆炸的非线性网络中,相较于那些不具备此条件的,它们是不是除了实现动态等距之外,还能够实现更快的学习速度?在这里,我们将对这三个问题进行解答,并在讨论中提供了一个较为详尽的总结。


总之,我们采用自由概率理论来解析计算雅可比奇异值的整个分布作为深度、随机初始化和非线性形状的函数。这个分析计算产生了几个关于这些成分的那些组合,能够使得非线性深度网络实现动态等距的观点。特别的是,深度线性高斯网络并不能实现这一点。即使二阶矩(the second moment)保持为1,雅可比奇异值的最大值也会随着深度的加深而进行线性增长。对于正交和高斯ReLU网络来说也是如此。因此,ReLU非线性破坏了正交线性网络的动态等距。相反的是,正交、但不是高斯的sigmoid网络可以实现动态等距。随着深度的增加,最大奇异值在前一种情况下可以保持为O(1),但会在后一种情况中保持线性增长。因此,正交sigmoid网络挽救了ReLU网络中的动态等距的失败。


相应地,我们在CIFAR-10上进行演示,结果证明,正交sigmoid网络可以比ReLU网络学习更快地学习。这种性能优势对各种优化器(包括SGD、冲量、RMSProp和ADAM)的选择都具有非常强健的鲁棒性。而且正交sigmoid网络还具有次线性(sublinear)学习时间。虽然不像具有独立于深度的训练时间的正交线性网络那样快,但正交sigmoid网络的训练时间会随着深度平方根的增加而增加。最后,如果动态等距在初始化时就存在的话,那么就会在训练期间持续很长的时间。而且,具有较长持续时间的等距初始化可以更快地进行学习、更好地进行泛化。


总的来说,这些结果向我们揭示了一个结果,即深度网络雅可比矩阵奇异值的整个分布形状会对学习速度产生巨大的影响。只有控制二阶矩,避免指数级的梯度消失和爆炸,才能留下显著的性能优势。此外,通过秉持将整体分布密集集中在1附近的设计原理,我们发现,具有sigmoid非线性的非常深的前馈网络,实际上性能表现要优于ReLU网络,即如今使用的最为通用的非线性深度网络。


在将来的研究中,如果能够将我们的方法扩展到其他类型的网络中,包括跳跃式连接或卷积体系架构等,都会是非常有趣的。更为普遍地看,伴着动态等距的学习中的性能优势表明,在基于强化学习的体系结构搜索中对该性质进行明确的优化也应该是非常有趣的。


论文链接:https://arxiv.org/pdf/1711.04735.pdf


 回复「转载」获得授权,微信搜索「ROBO_AI」关注公众号


中国人工智能产业创新联盟于2017年6月21日成立,超200家成员共推AI发展,相关动态:

中新网:中国人工智能产业创新联盟成立

ChinaDaily:China forms 1st AI alliance

证券时报:中国人工智能产业创新联盟成立 启动四大工程搭建产业生态“梁柱”

工信部网站:中国人工智能产业创新联盟与贵阳市政府、英特尔签署战略合作备忘录


点击下图加入联盟


下载中国人工智能产业创新联盟入盟申请表


关注“雷克世界”后不要忘记置顶

我们还在搜狐新闻、雷克世界官网、腾讯新闻、网易新闻、一点资讯、天天快报、今日头条、雪球财经……

↓↓↓点击阅读原文查看中国人工智能产业创新联盟手册

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存