“强基固本,行稳致远”,科学研究离不开理论基础,人工智能学科更是需要数学、物理、神经科学等基础学科提供有力支撑,为了紧扣时代脉搏,我们推出“强基固本”专栏,讲解AI领域的基础知识,为你的科研学习提供助力,夯实理论基础,提升原始创新能力,敬请关注。
地址:https://zhuanlan.zhihu.com/p/22473137如果能二秒内在脑袋里解出下面的问题,本文便结束了。
到这里,请耐心看完下面的公式推导,无需长久心里建设。首先,反向传播的数学原理是 “求导的链式法则” :
01
这一节展示如何使用链式法则、转置、组合等技巧来快速完成对矩阵、向量的求导一个原则维数相容,实质是多元微分基本知识,没有在课本中找到下列内容,维数相容原则是我个人总结:维数相容原则:通过前后换序、转置 使求导结果满足矩阵乘法且结果维数满足下式:
可以看出除了,和的求导结果在维数上连矩阵乘法都不能满足。step2:根据 step1 的求导结果,依据维数相容原则做调整:前后换序、转置
同理:,但中、,那么通过换序、转置我们可以得到维数相容的结果。“当做一维实数使用链式法则求导,然后做维数相容调整,使之符合矩阵乘法原则且维数相容” 是快速准确的策略;
“对单个元素求导、再整理成矩阵形式” 这种方式整理是困难的、过程是缓慢的,结果是易出错的(不信你试试)。
如何证明经过维数相容原则调整后的结果是正确的呢?直觉!简单就是美...
02
神经网络的反向传播求得 “各层” 参数 和 的导数,使用梯度下降(一阶 GD、SGD,二阶 LBFGS、共轭梯度等)优化目标函数。接下来,展示不使用下标的记法()直接对 和 求导,反向传播是链式法则和维数相容原则的完美体现,对每一层参数的求导利用上一层的中间结果完成。这里的标号,参考 UFLDL 教程 - Ufldl(http://t.cn/zTOSOPP)为第 层的中间结果,为第 层的激活值,其中第层包含元素:输入,参数、,激活函数,中间结果,输出。设神经网络的损失函数为(这里不给出具体公式,可以是交叉熵、MSE 等),根据链式法则有:这里记 ,其中 、 可由 公式 1 得出,加转置符号是根据维数相容原则作出的调整。如何求?可使用如下递推(需根据维数相容原则作出调整):其中、 。那么我们可以从最顶层逐层往下,便可以递推求得每一层的1) 进行前向传播计算,利用前向传播公式,得到隐藏层和输出层 的激活值。
03
大部分开源 library(如:caffe,Kaldi/src/{nnet1,nnet2})的实现通常把、作为一个 layer,激活函数作为一个 layer(如:sigmoid、relu、softplus、softmax)。反向传播时分清楚该层的输入、输出即能正确编程实现, 如:(1) 式 AffineTransform/FullConnected 层,以下是伪代码:
注: out_diff = 是上一层(Softmax 或 Sigmoid/ReLU 的 in_diff)已经求得:
注:out_diff = 是上一层 AffineTransform 的 in_diff,已经求得,在实际编程实现时,in、out 可能是矩阵 (通常以一行存储一个输入向量,矩阵的行数就是 batch_size),那么上面的 C++ 代码就要做出变化(改变前后顺序、转置,把函数参数的 Vector 换成 Matrix,此时 Matrix out_diff 每一行就要存储对应一个 Vector 的 diff,在 update 的时候要做这个 batch 的加和,这个加和可以通过矩阵相乘 out_diff*input(适当的转置)得到。如果熟悉 SVD 分解的过程,通过 SVD 逆过程就可以轻松理解这种通过乘积来做加和的技巧。
04
卷积怎么求导呢?实际上卷积可以通过矩阵乘法来实现(是否旋转无所谓的,对称处理,caffe 里面是不是有 image2col),当然也可以使用 FFT 在频率域做加法。那么既然通过矩阵乘法,维数相容原则仍然可以运用,CNN 求导比 DNN 复杂一些,要做些累加的操作。具体怎么做还要看编程时选择怎样的策略、数据结构。
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
“强基固本”历史文章
更多强基固本专栏文章,
请点击文章底部“阅读原文”查看
分享、点赞、在看,给个三连击呗!