查看原文
其他

《神经网络和深度学习》系列文章四十一:在更加复杂网络中的不稳定梯度

Nielsen 哈工大SCIR 2021-02-05

出处: Michael Nielsen的《Neural Network and Deep Learning》,点击末尾“阅读原文”即可查看英文原文。

声明:我们将在每周四连载该书的中文翻译。

本节译者:朱小虎 、张广宇。转载已获得译者授权,禁止二次转载。


  • 使用神经网络识别手写数字

  • 反向传播算法是如何工作的

  • 改进神经网络的学习方法

  • 神经网络可以计算任何函数的可视化证明

  • 为什么深度神经网络的训练是困难的

    • 梯度消失问题

    • 什么导致了梯度消失问题?神经网络中的梯度不稳定性

    • 在更加复杂网络中的不稳定性梯度

    • 其他深度学习的障碍

  • 深度学习


现在已经研究了简单的网络,每一层只包含一个神经元。那么那些每层包含很多神经元的更加复杂的深度网络呢?

实际上,在这样的神经网络中,同样的情况也会发生。在前面关于反向传播的章节中,我们看到了在一个共  层的第  层的梯度:

(124) 

这里  是一个对角矩阵,每个元素是对第  层的带权输入 。而  是对不同层的权值矩阵。 是对每个输出激活的偏导数向量。


这是更加复杂的表达式。不过,你仔细看,本质上的形式还是很相似的。主要是包含了更多的形如  的对 (pair)。而且,矩阵  在对角线上的值挺小,不会超过 。由于权值矩阵  不是太大,每个额外的项 会让梯度向量更小,导致梯度消失。更加一般地看,在乘积中大量的项会导致不稳定的梯度,和前面的例子一样。实践中,一般会发现在 sigmoid网络中前面的层的梯度指数级地消失。所以在这些层上的学习速度就会变得很慢了。这种减速不是偶然现象:也是我们采用的训练的方法决定的。




  • “哈工大SCIR”公众号

  • 编辑部:郭江,李家琦,徐俊,李忠阳,俞霖霖

  • 本期编辑:李家琦


长按下图并点击 “识别图中二维码”,即可关注哈尔滨工业大学社会计算与信息检索研究中心微信公共号:”哈工大SCIR” 。点击左下角“阅读原文”,即可查看原文。

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存