【强基固本】神经网络反向传播的数学原理

人工智能前沿讲习 2022-05-20

收录于合集 #强基固本 111个

“强基固本，行稳致远”，科学研究离不开理论基础，人工智能学科更是需要数学、物理、神经科学等基础学科提供有力支撑，为了紧扣时代脉搏，我们推出“强基固本”专栏，讲解AI领域的基础知识，为你的科研学习提供助力，夯实理论基础，提升原始创新能力，敬请关注。

来源：知乎—李飞腾

地址：https://zhuanlan.zhihu.com/p/22473137

如果能二秒内在脑袋里解出下面的问题，本文便结束了。

已知：

，其中

。

求：

。

到这里，请耐心看完下面的公式推导，无需长久心里建设。

首先，反向传播的数学原理是 “求导的链式法则” :

设和为的可导函数，则

。

接下来介绍

矩阵、向量求导的维数相容原则

利用维数相容原则快速推导反向传播

编程实现前向传播、反向传播

卷积神经网络的反向传播

快速矩阵、向量求导

这一节展示如何使用链式法则、转置、组合等技巧来快速完成对矩阵、向量的求导

一个原则维数相容，实质是多元微分基本知识，没有在课本中找到下列内容，维数相容原则是我个人总结：

维数相容原则：通过前后换序、转置使求导结果满足矩阵乘法且结果维数满足下式：

如果

，

，那么

。

利用维数相容原则解上例：

step1：把所有参数当做实数来求导，

，

依据链式法则有

，

可以看出除了

，

和

的求导结果在维数上连矩阵乘法都不能满足。

step2：根据 step1 的求导结果，依据维数相容原则做调整：前后换序、转置

依据维数相容原则

，但

中

、

，自然得调整为

；

同理：

，但

中

、

，那么通过换序、转置我们可以得到维数相容的结果

。

对于矩阵、向量求导：

“当做一维实数使用链式法则求导，然后做维数相容调整，使之符合矩阵乘法原则且维数相容” 是快速准确的策略；

“对单个元素求导、再整理成矩阵形式” 这种方式整理是困难的、过程是缓慢的，结果是易出错的（不信你试试）。

如何证明经过维数相容原则调整后的结果是正确的呢？直觉！简单就是美...

快速反向传播

神经网络的反向传播求得 “各层” 参数和的导数，使用梯度下降（一阶 GD、SGD，二阶 LBFGS、共轭梯度等）优化目标函数。

接下来，展示不使用下标的记法（

）直接对和求导，反向传播是链式法则和维数相容原则的完美体现，对每一层参数的求导利用上一层的中间结果完成。

这里的标号，参考 UFLDL 教程 - Ufldl（http://t.cn/zTOSOPP）

前向传播：

（公式 1）

（公式 2）

为第层的中间结果，

为第层的激活值，其中第

层包含元素：输入

，参数

、

，激活函数

，中间结果

，输出

。

设神经网络的损失函数为

（这里不给出具体公式，可以是交叉熵、MSE 等），根据链式法则有：

这里记

，其中

、

可由公式 1 得出，

加转置符号

是根据维数相容原则作出的调整。

如何求

？可使用如下递推（需根据维数相容原则作出调整）：

其中

、

。

那么我们可以从最顶层逐层往下，便可以递推求得每一层的

注意：

是逐维求导，在公式中是点乘的形式。

反向传播整个流程如下：

1) 进行前向传播计算，利用前向传播公式，得到隐藏层和输出层的激活值。

2) 对输出层 (第层)，计算残差：

（不同损失函数，结果不同，这里不给出具体形式）

3) 对于

的隐藏层，计算：

4) 计算各层参数

、

偏导数：

编程实现

大部分开源 library（如：caffe，Kaldi/src/{nnet1,nnet2}）的实现通常把

、

作为一个 layer，激活函数

作为一个 layer（如：sigmoid、relu、softplus、softmax）。

反向传播时分清楚该层的输入、输出即能正确编程实现, 如：

(公式 1)

(公式 2)

(1) 式 AffineTransform/FullConnected 层，以下是伪代码：

注: out_diff =

是上一层（Softmax 或 Sigmoid/ReLU 的 in_diff）已经求得：

（公式 1-1）

（公式 1-2）

（公式 1-3）

(2) 式激活函数层（以 Sigmoid 为例）

注：out_diff =

是上一层 AffineTransform 的 in_diff，已经求得,

在实际编程实现时，in、out 可能是矩阵 (通常以一行存储一个输入向量，矩阵的行数就是 batch_size)，那么上面的 C++ 代码就要做出变化（改变前后顺序、转置，把函数参数的 Vector 换成 Matrix，此时 Matrix out_diff 每一行就要存储对应一个 Vector 的 diff，在 update 的时候要做这个 batch 的加和，这个加和可以通过矩阵相乘 out_diff*input（适当的转置）得到。

如果熟悉 SVD 分解的过程，通过 SVD 逆过程就可以轻松理解这种通过乘积来做加和的技巧。

丢掉那些下标记法吧！

卷积层求导

卷积怎么求导呢？实际上卷积可以通过矩阵乘法来实现（是否旋转无所谓的，对称处理，caffe 里面是不是有 image2col），当然也可以使用 FFT 在频率域做加法。

那么既然通过矩阵乘法，维数相容原则仍然可以运用，CNN 求导比 DNN 复杂一些，要做些累加的操作。具体怎么做还要看编程时选择怎样的策略、数据结构。

快速矩阵、向量求导之维数相容大法已成。

本文目的在于学术交流，并不代表本公众号赞同其观点或对其内容真实性负责，版权归原作者所有，如有侵权请告知删除。

“强基固本”历史文章

请点击文章底部“阅读原文”查看

分享、点赞、在看，给个三连击呗！

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：关于加快推进起诉状、答辩状示范文本全面应用工作的通知(附下载链接)

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

【强基固本】神经网络反向传播的数学原理

目标跟踪初探（DeepSORT）

科普帖：深度学习中GPU和显存分析

深度学习笔记：常用的模型评估指标

三次样条（cubic spline）插值

运动规划丨轨迹规划丨基于改进Dijkstra算法的轨迹平滑方法

神经网络15分钟入门！足够通俗易懂了吧

5分钟理解Focal Loss与GHM——解决样本不平衡利器

详解残差网络

MMD：最大均值差异

目标跟踪系列--KCF算法

神经网络常用卷积总结

从零开始的自然语言处理（基于隐马尔可夫模型的词性标注）

写给新手炼丹师：2021版调参上分手册

机器学习-嵌入Embedding

更多强基固本专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：关于加快推进起诉状、答辩状示范文本全面应用工作的通知(附下载链接)

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

生成图片，分享到微信朋友圈

【强基固本】神经网络反向传播的数学原理

更多强基固本专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣