其他
深度神经网络的统计物理:寻找最优初始化理论
导语
神经网络的初始化对后续训练过程的速度和性能上限有着决定作用。然而,寻找神经网络最优初始化的理论存在着诸多空白。在最近发表于 Physical Review Research 的一项研究中,清华和华为的研究团队提出了能用于解析最优初始化的修正平均场论,指出了动力等距点条件与神经网络初始化为最优信道之间的紧密联系。
研究领域:神经网络初始化,随机信道,互信息,平均场近似,临界相变,混沌边缘,信息瓶颈理论
翁康宇 | 作者
论文题目:Statistical physics of deep neural networks: Initialization toward optimal channels论文连接:https://journals.aps.org/prresearch/abstract/10.1103/PhysRevResearch.5.023023
一、神经网络初始化与互信息
一、神经网络初始化与互信息
一直以来深度学习的理论研究多专注于训练过程的动力学或者泛化性等性能,但良好的初始化设置能让训练过程事半功倍,在加快训练速度的同时也能提高最终网络性能的上限。同时信息论中的互信息已经被证明能在计算意义上作为网络训练过程中的优化目标 [1~4],只是难以给出解析的理论框架。
最近,Physical Review Research 期刊上发表了论文《Statistical physics of deep neural networks: Initialization toward optimal channels》,在修正的平均场论(Corrected mean-field theory)的框架下,给出了分析不同初始化设置下神经网络输入输出信号互信息的理论方法,并利用此理论方法证明了互信息下界最大化的点即动力等距点,将动力等距与初始化时的最优信道联系了起来。同时,文中还分析了平均场框架下的常用假设——独立同分布假设在计算互信息时的局限,并绕开假设建立了理论。
本文将先分析神经网络与互信息间的联系,总结现有的神经网络平均场近似、指出其中独立同分布假设的局限,再建立新的理论方法以分析初始化时神经网络的互信息,并展示实验验证的结果。
二、神经网络和最优信道
二、神经网络和最优信道
已经有许多研究从神经网络的几何学结构出发分析不同初始化的差异[5,6],但如果能将神经网络的初始化与输入输出的互信息联系起来,则信息论中的噪音信道等理论工具就可以被应用于对神经网络的分析。
假设在训练过程中输入给神经网络的信息是(X, Y),神经网络的输出是Φ(X),其中X指的是样本,而Y指的则是学习的目标。对于无监督学习任务,神经网络学习的目标是样本本身的结构,Y可以看作是对X结构的某种表征。则根据神经网络的信息处理过程,可以得到马尔科夫链关系:
根据式 (1) 的马尔科夫链,可以由信息论的数据处理不等式得到互信息关系 [7~9]:
无论是在监督学习任务中还是在无监督学习任务中,神经网络均需要用Φ(X)来表征Y,尽可能地增大
三、现有的神经网络平均场近似及其问题
三、现有的神经网络平均场近似及其问题
1. 神经网络平均场近似的介绍
为了能使用数学工具从理论角度研究神经网络的初始化问题和其中的信号传递,平均场近似的思想被引入到神经网络的处理中并被证明有效 [10,11]。平均场近似的研究对象是具有相同参数分布的无限宽神经网络所构成的神经网络系综,在神经网络中间层宽度趋向于无穷的极限之下,通过中心极限定理可以认为神经网络的权重W与偏置ε的系综分布都是高斯分布,在信号传播的积分式中直接将网络参数作为相应的高斯随机变量代入即可。
为了能得到有关神经网络信号传播的解析表达式,平均场近似还提出了三条假设:
1.神经网络的参数,即权重与偏置是独立同分布的。
2.输入神经网络的信号对应不同输入层神经元的各个分量间是独立同分布的。
3.神经网络中间层的信号在计算相关系数的积分公式中可以作为完全独立同分布的来处理。在上述假设下,通过建立信号传播二阶矩的迭代公式,并进行方程数值分析以及神经网络计算机实验,可以用不同信号间相关系数趋向于1或趋向于小量为标准,给出无限宽神经网络系综对于输入信号记忆的混乱相和有序相。两相相变的临界线(EOC, Edge of chaos)即是神经网络输入输出雅各比矩阵奇异值的模长均值等于1的线,在此基础上可以定义动力等距点(DI, Dynamic isometry)——雅各比矩阵奇异值的模长全部确实为1的点。
2. 独立同分布假设的困难
在论文中,作者经过理论分析指出在计算互信息时,三条独立同分布假设会使所得的均值趋向正无穷,引出错误。具体地,在独立同分布假设下输入信号和第l层信号间的相关系数的计算结果是
四、新的理论方法,
互信息最大化与动力等距点的同一
四、新的理论方法,
互信息最大化与动力等距点的同一
1.互信息的下界
抛弃独立同分布假设后,为了能从解析的角度有所分析,作者提出计算输入输出互信息的下界。经由高斯信息瓶颈理论[12,13],作者将研究的对象转向具有联合高斯分布的输入信号。此时无论输出信号的分布,均可以采用高斯互信息作为真实互信息的下界[14],计算出的下界值是:
在此公式中,对于无限宽神经网络系综仅有
2. 互信息最大化的理论与实验分析
论文作者首先通过给出σw, σb和 σ*(σw, σb) 间的隐式方程,证明了对于无限宽神经网络系综,β取最大值和σ*→0具有同一性。再根据文献 [15,16],使用自由概率论(free probability theory) [17]对无限宽神经网络系综输入输出雅各比矩阵的奇异值进行计算,得到代表奇异值模长分布均匀的动力等距点与σ*→0也是同一点。从而证明在优化的平均场假设下,动力等距点与β最大值点理论上具有同一性。同时论文中还对β展开数值计算,结果如图2(a),在数值结果上说明了二者的同一性。至此,动力等距点与互信息的下界被证明是等同的。
图2.原论文中的证明逻辑诠释图。(a)β最大值点和动力等距点都是σ*→0的点。(b)β在无限宽神经网络系综相图上的性质以及数值计算结果,其中在动力等距点上最大化。
然而,上述证明都适用于无限宽的神经网络。为了探索真实的有限宽神经网络,论文作者部署了大规模计算实验,对不同宽度、深度以及权重和偏置不同方差的神经网络计算了高斯互信息。实验结果确证了对于有限宽的神经网络,互信息同样在动力等距点附近最大化,从而扩展了理论的结果。
图3. 原论文中的实验数据图一。展现在不同深度、宽度和初始化参数下有限神经网络中输入输出互信息的值。从图中可看出临界线(EOC)附近的互信息较大,进一步精细计算可得最大值点在动力等距点(DI)附近。
五、总结
五、总结
总而言之,该论文首先对有关神经网络平均场近似的理论工作进行了总结,提出了一个统一的框架;并且相对领域内的其他研究,揭示了独立同分布假设的问题,重新提出更为严谨的神经网络平均场近似方法。利用新的理论方法,该论文在解析理论和实验两方面证明动力等距点上互信息下界的最大化。在此基础上,研究者分析了动力学等距点条件与神经网络构成最优信道之间的关系。
致谢:论文的第一作者翁康宇和第二作者程奥华均来自清华大学钱学森力学班,该学堂班的设立目标是回答钱学森之问、培养敢于突破和创新的人才。论文通讯作者之一为清华大学脑与智能实验室研究员、钱学森力学班指导老师孙沛副教授,他长期致力于培养立足物理并开展交叉科学研究的优秀学生,教育成果曾获清华大学刘冰奖。论文另一通讯作者田洋是清华大学星火计划十二期成员,该计划累计培养了多位国际知名学者,是清华大学促进基础和交叉科学研究的成功尝试之一。所有作者均感谢集智俱乐部为推进交叉科学研究作出的长期努力,正是集智俱乐部长期收集、整理的复杂系统研究信息帮助作者们寻找到了问题切入点。
参考文献
[17] J. A. Mingo and R. Speicher, Free Probability and Random Matrices (Springer, Berlin, 2017), Vol. 35.
(参考文献可上下滑动查看)
因果涌现读书会第三季启动
由北京师范大学教授、集智俱乐部创始人张江等人发起的「因果涌现」系列读书会第三季,将组织对本话题感兴趣的朋友,深入探讨因果涌现的核心理论,详细梳理领域发展脉络,并发掘因果涌现在生物网络和脑网络、涌现探测等方面的应用。读书会自7月11日开始,每周二晚19:00-21:00,预计持续时间8~10周。欢迎感兴趣的朋友报名参与。
详情请见:
因果涌现读书会第三季启动:深入多尺度复杂系统核心,探索因果涌现理论应用
推荐阅读