深度神经网络的统计物理：寻找最优初始化理论

Original 翁康宇集智俱乐部 2024-03-17

导语

神经网络的初始化对后续训练过程的速度和性能上限有着决定作用。然而，寻找神经网络最优初始化的理论存在着诸多空白。在最近发表于 Physical Review Research 的一项研究中，清华和华为的研究团队提出了能用于解析最优初始化的修正平均场论，指出了动力等距点条件与神经网络初始化为最优信道之间的紧密联系。
研究领域：神经网络初始化，随机信道，互信息，平均场近似，临界相变，混沌边缘，信息瓶颈理论

翁康宇 | 作者

论文题目：Statistical physics of deep neural networks: Initialization toward optimal channels论文连接：https://journals.aps.org/prresearch/abstract/10.1103/PhysRevResearch.5.023023

一、神经网络初始化与互信息

一直以来深度学习的理论研究多专注于训练过程的动力学或者泛化性等性能，但良好的初始化设置能让训练过程事半功倍，在加快训练速度的同时也能提高最终网络性能的上限。同时信息论中的互信息已经被证明能在计算意义上作为网络训练过程中的优化目标 [1~4]，只是难以给出解析的理论框架。
最近，Physical Review Research 期刊上发表了论文《Statistical physics of deep neural networks: Initialization toward optimal channels》，在修正的平均场论（Corrected mean-field theory）的框架下，给出了分析不同初始化设置下神经网络输入输出信号互信息的理论方法，并利用此理论方法证明了互信息下界最大化的点即动力等距点，将动力等距与初始化时的最优信道联系了起来。同时，文中还分析了平均场框架下的常用假设——独立同分布假设在计算互信息时的局限，并绕开假设建立了理论。
本文将先分析神经网络与互信息间的联系，总结现有的神经网络平均场近似、指出其中独立同分布假设的局限，再建立新的理论方法以分析初始化时神经网络的互信息，并展示实验验证的结果。

图1. 原论文中各节所述内容的图形化诠释。

二、神经网络和最优信道

已经有许多研究从神经网络的几何学结构出发分析不同初始化的差异[5,6]，但如果能将神经网络的初始化与输入输出的互信息联系起来，则信息论中的噪音信道等理论工具就可以被应用于对神经网络的分析。
假设在训练过程中输入给神经网络的信息是(X, Y)，神经网络的输出是Φ(X)，其中X指的是样本，而Y指的则是学习的目标。对于无监督学习任务，神经网络学习的目标是样本本身的结构，Y可以看作是对X结构的某种表征。则根据神经网络的信息处理过程，可以得到马尔科夫链关系：

(1)

根据式 (1) 的马尔科夫链，可以由信息论的数据处理不等式得到互信息关系 [7~9]：

(2)

无论是在监督学习任务中还是在无监督学习任务中，神经网络均需要用Φ(X)来表征Y，尽可能地增大。根据所给出的式 (2)，是一个固定值，因此需要增大以创造神经网络在后续的训练过程中优化的空间。

三、现有的神经网络平均场近似及其问题

1. 神经网络平均场近似的介绍
为了能使用数学工具从理论角度研究神经网络的初始化问题和其中的信号传递，平均场近似的思想被引入到神经网络的处理中并被证明有效 [10,11]。平均场近似的研究对象是具有相同参数分布的无限宽神经网络所构成的神经网络系综，在神经网络中间层宽度趋向于无穷的极限之下，通过中心极限定理可以认为神经网络的权重W与偏置ε的系综分布都是高斯分布，在信号传播的积分式中直接将网络参数作为相应的高斯随机变量代入即可。

为了能得到有关神经网络信号传播的解析表达式，平均场近似还提出了三条假设:

1.神经网络的参数，即权重与偏置是独立同分布的。

2.输入神经网络的信号对应不同输入层神经元的各个分量间是独立同分布的。

3.神经网络中间层的信号在计算相关系数的积分公式中可以作为完全独立同分布的来处理。
在上述假设下，通过建立信号传播二阶矩的迭代公式，并进行方程数值分析以及神经网络计算机实验，可以用不同信号间相关系数趋向于1或趋向于小量为标准，给出无限宽神经网络系综对于输入信号记忆的混乱相和有序相。两相相变的临界线（EOC, Edge of chaos）即是神经网络输入输出雅各比矩阵奇异值的模长均值等于1的线，在此基础上可以定义动力等距点（DI, Dynamic isometry）——雅各比矩阵奇异值的模长全部确实为1的点。
2. 独立同分布假设的困难
在论文中，作者经过理论分析指出在计算互信息时，三条独立同分布假设会使所得的均值趋向正无穷，引出错误。具体地，在独立同分布假设下输入信号和第l层信号间的相关系数的计算结果是

(3)

由第一条假设可知(3)中加和项是独立同分布的，进而通过中心极限定理以及进一步的统计计算，得到相关系数对绝对值大于1具有可测的概率，使得互信息对于无穷发散也具有可测的概率。根本的错误在于对于无限宽神经网络，第三条独立同分布假设要求输入信号的独立维度有无穷个，而无穷的独立维度自然引出无穷的信息量。

四、新的理论方法，
互信息最大化与动力等距点的同一

1.互信息的下界
抛弃独立同分布假设后，为了能从解析的角度有所分析，作者提出计算输入输出互信息的下界。经由高斯信息瓶颈理论[12,13]，作者将研究的对象转向具有联合高斯分布的输入信号。此时无论输出信号的分布，均可以采用高斯互信息作为真实互信息的下界[14]，计算出的下界值是：

(4)

在此公式中，对于无限宽神经网络系综仅有（σ*是信号传播过程中方差的收敛值）能以可测的概率变化，并且（4）式关于β是单调递增的。至此，对于互信息下界最大值的分析转化为对积分项β最大值的分析。
2. 互信息最大化的理论与实验分析
论文作者首先通过给出σ_w, σ_b和 σ*(σ_w, σ_b) 间的隐式方程，证明了对于无限宽神经网络系综，β取最大值和σ*→0具有同一性。再根据文献 [15,16]，使用自由概率论（free probability theory） [17]对无限宽神经网络系综输入输出雅各比矩阵的奇异值进行计算，得到代表奇异值模长分布均匀的动力等距点与σ*→0也是同一点。从而证明在优化的平均场假设下，动力等距点与β最大值点理论上具有同一性。同时论文中还对β展开数值计算，结果如图2(a)，在数值结果上说明了二者的同一性。至此，动力等距点与互信息的下界被证明是等同的。

图2.原论文中的证明逻辑诠释图。(a)β最大值点和动力等距点都是σ*→0的点。(b)β在无限宽神经网络系综相图上的性质以及数值计算结果，其中在动力等距点上最大化。

然而，上述证明都适用于无限宽的神经网络。为了探索真实的有限宽神经网络，论文作者部署了大规模计算实验，对不同宽度、深度以及权重和偏置不同方差的神经网络计算了高斯互信息。实验结果确证了对于有限宽的神经网络，互信息同样在动力等距点附近最大化，从而扩展了理论的结果。

图3. 原论文中的实验数据图一。展现在不同深度、宽度和初始化参数下有限神经网络中输入输出互信息的值。从图中可看出临界线（EOC）附近的互信息较大，进一步精细计算可得最大值点在动力等距点（DI）附近。

五、总结

总而言之，该论文首先对有关神经网络平均场近似的理论工作进行了总结，提出了一个统一的框架；并且相对领域内的其他研究，揭示了独立同分布假设的问题，重新提出更为严谨的神经网络平均场近似方法。利用新的理论方法，该论文在解析理论和实验两方面证明动力等距点上互信息下界的最大化。在此基础上，研究者分析了动力学等距点条件与神经网络构成最优信道之间的关系。

致谢：论文的第一作者翁康宇和第二作者程奥华均来自清华大学钱学森力学班，该学堂班的设立目标是回答钱学森之问、培养敢于突破和创新的人才。论文通讯作者之一为清华大学脑与智能实验室研究员、钱学森力学班指导老师孙沛副教授，他长期致力于培养立足物理并开展交叉科学研究的优秀学生，教育成果曾获清华大学刘冰奖。论文另一通讯作者田洋是清华大学星火计划十二期成员，该计划累计培养了多位国际知名学者，是清华大学促进基础和交叉科学研究的成功尝试之一。所有作者均感谢集智俱乐部为推进交叉科学研究作出的长期努力，正是集智俱乐部长期收集、整理的复杂系统研究信息帮助作者们寻找到了问题切入点。

参考文献

[1] Aaron van den Oord, Y. Li, and O. Vinyals, Representation learning with contrastive predictive coding, arXiv:1807.03748 (2018).[2] O. Henaff, Data-efficient image recognition with contrastive predictive coding, in Proceedings of the International Conference on Machine Learning (PMLR, 2020), pp. 4182–4192.[3] Y. Tian, D. Krishnan, and P. Isola, Contrastive multiview coding, in Proceedings of the European Conference on Computer Vision (Springer, Berlin, 2020), pp. 776–794.[4] R. D. Hjelm, A. Fedorov, S. Lavoie-Marchildon, K. Grewal, P. Bachman, A. Trischler, and Y. Bengio, Learning deep representations by mutual information estimation and maximization, International Conference on Learning Representations (OpenReview.net, 2019).[5] B. Poole, S. Lahiri, M. Raghu, J. Sohl-Dickstein, and S. Ganguli, Exponential expressivity in deep neural networks through transient chaos, in Proceedings of the 30th Conference on Neural Information Processing Systems, Barcelona, Spain, edited by D. Lee, M. Sugiyama, U. Luxburg, I. Guyon, and R. Garnett, Vol. 29 (Curran Associates, Inc., 2016).[6] Schoenholz, S. S., Gilmer, J., Ganguli, S. & Sohl-Dickstein, J. Deep Information Propagation. arXiv:1611.01232 [cs, stat] (2017).[7] T. M. Cover, Elements of Information Theory (John Wiley & Sons, New York, NY, 1999).[8] W. Kang and S. Ulukus, A new data processing inequality and its applications in distributed source and channel coding, IEEE Trans. Inf. Theory 57, 56 (2010).[9] C. Zhou, Q. Zhuang, M. Mattina, and P. N. Whatmough, Strong data processing inequality in neural networks with noisy neurons and its implications, in Proceedings of the IEEE International Symposium on Information.[10] S. Mei, T. Misiakiewicz, and A. Montanari, Mean-field theory of two-layers neural networks: dimension-free bounds and kernel limit, in Proceedings of the Conference on Learning Theory (PMLR, 2019), pp. 2388–2464.[11] P.-M. Nguyen, Mean field limit of the learning dynamics of multilayer neural networks, arXiv:1902.02880 (2019).[12] A. Painsky and N. Tishby, Gaussian lower bound for the information bottleneck limit, J. Mach. Learn. Res. 18, 1 (2018).[13] G. Chechik, A. Globerson, N. Tishby, and Y. Weiss, Information bottleneck for Gaussian variables, in Advances in Neural Information Processing Systems, edited by S. Thrun, L. Saul, and B. Schölkopf, Vol. 16 (MIT Press, 2003).[14] G. Ughi, Studies on neural networks: Information propagation at initialisation and robustness to adversarial examples, Ph.D. thesis, University of Oxford (2022).[15] J. Pennington, S. Schoenholz, and S. Ganguli, Resurrecting the sigmoid in deep learning through dynamical isometry: Theory and practice, in Proceedings of the 31st Conferenceon Neural Information Processing Systems, Long Beach, CA, USA, edited by I. Guyon, U. Von Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and R. Garnett, Vol. 30 (Curran Associates, Inc., 2017).[16] A. M. Saxe, J. L. McClelland, and S. Ganguli, Exact solutions to the nonlinear dynamics of learning in deep linear neural networks, International Conference on Learning Representations (OpenReview.net, 2014).

[17] J. A. Mingo and R. Speicher, Free Probability and Random Matrices (Springer, Berlin, 2017), Vol. 35.

（参考文献可上下滑动查看）

因果涌现读书会第三季启动

涌现无疑是复杂系统诸多现象中最神秘莫测的一个。从鸟群聚集、萤火虫同步、蜜蜂舞蹈，到宇宙起源、生命演化、意识产生，我们生活在一个“涌现”的世界中。所谓的涌现，是指复杂系统在宏观所展现出来的，无法归约到微观的特性或规律。新兴的因果涌现理论有望为量化多尺度复杂系统中的涌现现象提供强大工具。

由北京师范大学教授、集智俱乐部创始人张江等人发起的「因果涌现」系列读书会第三季，将组织对本话题感兴趣的朋友，深入探讨因果涌现的核心理论，详细梳理领域发展脉络，并发掘因果涌现在生物网络和脑网络、涌现探测等方面的应用。读书会自7月11日开始，每周二晚19:00-21:00，预计持续时间8～10周。欢迎感兴趣的朋友报名参与。

详情请见：

因果涌现读书会第三季启动：深入多尺度复杂系统核心，探索因果涌现理论应用

推荐阅读

1. 作为因果科学家的神经系统：因果编码

2. 复杂系统的内部结构如何影响信息热力学？

3. 信息大脑如何从物理大脑中涌现？

4. 《张江·复杂科学前沿27讲》完整上线！

5. 加入集智学园VIP，获得20周年“涌现”学术年会入场券！

6. 加入集智，一起复杂！

点击“阅读原文”，报名读书会

继续滑动看下一个

集智俱乐部

向上滑动看下一个

一把短刀，怎么就让他连捅18人？！

听纪委朋友说，有的领导干部在被抽掉鞋带和皮带后，一下就崩溃了，甚至个别胆小者顿时大小便失禁……

上海超市血案：背后缘由让人揪心

为啥一线城市只有广州取消限购？是因为穷吗

野村：牛市可能重蹈2015年的崩盘

深度神经网络的统计物理：寻找最优初始化理论

一、神经网络初始化与互信息

二、神经网络和最优信道

三、现有的神经网络平均场近似及其问题

四、新的理论方法，
互信息最大化与动力等距点的同一

五、总结

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

听纪委朋友说，有的领导干部在被抽掉鞋带和皮带后，一下就崩溃了，甚至个别胆小者顿时大小便失禁……

上海超市血案：背后缘由让人揪心

为啥一线城市只有广州取消限购？是因为穷吗

野村：牛市可能重蹈2015年的崩盘

生成图片，分享到微信朋友圈

深度神经网络的统计物理：寻找最优初始化理论

一、神经网络初始化与互信息

二、神经网络和最优信道

三、现有的神经网络平均场近似及其问题

四、新的理论方法，互信息最大化与动力等距点的同一

五、总结

您可能也对以下帖子感兴趣

四、新的理论方法，
互信息最大化与动力等距点的同一