查看原文
其他

《神经网络和深度学习》系列文章四十二:其他深度学习的障碍

Nielsen 哈工大SCIR 2021-02-05

出处: Michael Nielsen的《Neural Network and Deep Learning》,点击末尾“阅读原文”即可查看英文原文。

声明:我们将在每周四连载该书的中文翻译。

本节译者:朱小虎 、张广宇。转载已获得译者授权,禁止二次转载。


  • 使用神经网络识别手写数字

  • 反向传播算法是如何工作的

  • 改进神经网络的学习方法

  • 神经网络可以计算任何函数的可视化证明

  • 为什么深度神经网络的训练是困难的

    • 梯度消失问题

    • 什么导致了梯度消失问题?神经网络中的梯度不稳定性

    • 在更加复杂网络中的不稳定性梯度

    • 其他深度学习的障碍

  • 深度学习


本章我们已经聚焦在消失的梯度上,并且更加一般地,不稳定梯度——深度学习的一大障碍。实际上,不稳定梯度仅仅是深度学习的众多障碍之一,尽管这一点是相当根本的。当前的研究集中在更好地理解在训练深度神经网络时遇到的挑战。这里我不会给出一个详尽的总结,仅仅想要给出一些论文,告诉你人们正在寻觅探究的问题。

 

首先,在 2010 年 Glorot 和 Bengio 1发现证据表明 sigmoid函数的选择会导致训练网络的问题。特别地,他们发现 sigmoid 函数会导致最终层上的激活函数在训练中会聚集在 0,这也导致了学习的缓慢。他们的工作中提出了一些取代 sigmoid 函数的激活函数选择,使得不会被这种聚集性影响性能。

 

第二个例子,在 2013 年 Sutskever, Martens,Dahl 和 Hinton 2 研究了深度学习使用随机权重初始化和基于 momentum 的 SGD 方法。两种情形下,好的选择可以获得较大的差异的训练效果。


这些例子告诉我们,“什么让训练深度网络非常困难”这个问题相当复杂。本章,我们已经集中于深度神经网络中基于梯度的学习方法的不稳定性。结果表明了激活函数的选择,权重的初始化,甚至是学习算法的实现方式也扮演了重要的角色。当然,网络结构和其他超参数本身也是很重要的。因此,太多因子影响了训练神经网络的难度,理解所有这些因子仍然是当前研究的重点。尽管这看起来有点悲观,但是在下一章中我们会介绍一些好的消息,给出一些方法来一定程度上解决和迂回所有这些困难。


注:


1.  Understanding  the difficulty of training deep feedforward neural networks (http://jmlr.org/proceedings/papers/v9/glorot10a/glorot10a.pdf ),作者为 Xavier   Glorot 和 Yoshua Bengio(2010)。还可看看 Efficient BackProp ( http://yann.lecun.com/exdb/publis/pdf/lecun-98b.pdf ) 论文中前面的关于 S 型函数的讨论,作者为 Yann LeCun, Léon  Bottou, Genevieve Orr 和 Klaus-Robert Müller(1998)。


2. On the importance of initialization and momentum in deep learning (http://www.cs.toronto.edu/~hinton/absps/momentum.pdf ),作者为 Ilya  Sutskever,James Martens, George Dahl 和 Geoffrey Hinton (2013)。




  • “哈工大SCIR”公众号

  • 编辑部:郭江,李家琦,徐俊,李忠阳,俞霖霖

  • 本期编辑:李家琦


长按下图并点击 “识别图中二维码”,即可关注哈尔滨工业大学社会计算与信息检索研究中心微信公共号:”哈工大SCIR” 。点击左下角“阅读原文”,即可查看原文。

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存