查看原文
其他

谈谈自动微分(Automatic Differentiation)

JermyLu PaperWeekly 2023-01-02


©作者 | JermyLu

学校 | 中国科学院大学

研究方向 | 自然语言处理与芯片验证




引言


众所周知,Tensorflow、Pytorch 这样的深度学习框架能够火起来,与其包含自动微分机制有着密不可分的联系,毕竟早期 PytorchNumpy+AutoGrad,而 AutoGrad 的基础就是自动微分机制。

常见的梯度求解方法包括:数值微分(Numerical Differentiation)、符号微分(Symbolic Differentiation)和自动微分(Automatic Differentiation)。



数值微分


在数学中,求解梯度 = 求解函数偏导数,而导数是用极限来定义的,如下所示:


其中, 表示参数 的一个很小的变化量,上式是导数的双边定义形式。如果函数 是初等函数,则可使用求导法则得到其导数。如果不能得到函数导数的解析式,则必须使用数值微分方法求解该函数在某个点的导数。

数值微分方法简单,但计算量巨大,而且会造成截断误差(Truncation Error)和舍入误差(Round-off Error)。


当用数值微分方法求解梯度时,需要用极限即无穷过程求解。然而,无穷过程在计算机中是不存在的,计算机需要将无穷过程求解截断为有限过程求解。例如,导数定义中 是一个无穷过程,在实际计算中 (不能等于 0,等于 0 就不存在变化量了),而可能令 ,这就带来了截断误差。

舍入误差是指运算得到的精确值无法被计算机存储,只能以近似值代替产生的差异。例如,当实数 超过了双精度浮点数可以表示的范围之后,计算机无法精确表示 ,而只能以其近似值 代替,就产生了舍入误差。因此,数值微分方法不适用于神经网络梯度反向传播。



符号微分


符号微分是通过建立符号表达式求解微分的方式,即借助符号表达式和求导公式,推导出目标函数关于自变量的微分表达式,最后代入数值即可得到微分结果。例如,对于表达式 ,其微分表达式 ,然后将具体数值 代入,即可得到

使用符号微分方法时,必须将目标函数转为一个完整的数学表达式,这个过程中会出现表达式膨胀(Expression Swell)的问题,大大增加系统存储和处理表达式的负担。


例如 ,则


在深层神经网络模型中,神经元数量和参数量极大,完整的损失函数的表达式会非常冗长(比示例复杂的多得多,长的多得多),不易存储和管理;再者,完整写出损失函数的微分表达式也是一项庞大的工作量;最重要的一点,在神经网络的梯度反向传播过程中,只需要微分的(中间)结果值,而不是微分表达式。因此,符号微分方法也不适用于神经网络梯度反向传播。



自动微分


自动微分是一种“原子化”的符号微分,其将一个复杂的数学运算过程分解为一系列简单的基本算子,如对数函数、三角函数等,然后对这些基本算子进行符号微分得到中间结果,再应用于整个函数。

首先,我们了解一下链式法则。


单变量函数链式法则:

的函数, 的函数, 的函数,则 。


多变量函数链式法则:

的函数, 都是 的函数,则 , 类似。

接下来,我们以三层全连接层神经网络为例,解释自动微分机制。



定义:输入层输出为 ;隐层输出为 ;输出层输出为 ;标签为 ,损失函数使用 范式,即 ;隐层激活函数为 记为 ,输出层激活函数为 记为
因此:,则 ;令 ,则 ,为了方便起见,不考虑偏置项。
这个三层神经网络中,参数只包含 ,而梯度反传参数更新,更新的就是 。因此,梯度计算的目标是
反向传播是由输出层开始计算梯度,之后逆向传播到每一层网络,直至到达输入层。

输出层发生的计算为 ,即输出层的输入 先经过线性变换右乘 转换为中间状态 ,之后 经过 激活函数变为 。最后, 计算得到损失函数值

该部分网络的前向计算中,上述过程的计算次序为 ,而反向计算中节点访问次序与之相反。

1. 计算 ,即计算损失函数 关于网络输出结果 的梯度,并将梯度向前传递。

2. 计算 记为 函数相对于其输入 的梯度,并将梯度向前传递。

3. 得到 之后,下一步的目标是计算


  1.  
  2.  
  3. 梯度 需要继续向前一层传递,用于计算其他变量的梯度;梯度 会作为参数 的梯度计算结果,用于模型参数的更新。
接下来,我们来分析隐藏层发生的计算 ,其中 分别表示隐藏层的输出、中间结果、输入和参数。该部分网络的前向计算中,上述过程的计算次序为 ,而反向计算中节点访问次序与之相反。
1. 计算 已知,而 激活函数相对于其输入 的梯度,有 ,即可获得该梯度记为 ,并向前传递。
2. 得到 之后,下一步计算
  1.   
  2.  梯度 需要继续向前一层传递,用于计算其他变量的梯度;梯度 会作为参数 的梯度计算结果,用于模型参数的更新。

综合输出层和隐藏层的反向传播方法,再根据神经网络有向计算图的拓扑结构,逆向访问每一个节点执行上述梯度计算过程即可得到神经网络中任意位置和任意参数的梯度信息。



总结

链式法则+反向传播+有向图拓扑结构,构成了自动微分机制的基础。


更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存