基于随机划分的小批次动量梯度下降法
高原,博士毕业于华东师范大学统计学院,现为北京大学光华管理学院博士后,主要研究方向包括统计机器学习、统计计算的方法与理论。
(封面为今年刚去世的俄罗斯数学家Boris Polyak(1935—2023)以及他在著作Introduction to Optimization[4]中为动量法绘制的示意图)
今天和大家分享的主题是小批次动量梯度下降法(Minibatch Gradient Descent with Momentum, MGDM)。内容主要包括小批次动量梯度下降法的应用背景、算法介绍以及理论性质。
一、 背景介绍
在大多数的统计学习问题中,我们通常需要通过优化一个形如的损失函数来得到未知参数的估计值。这里的表示第个观测值上的损失函数值。为了求解最优值点,我们常常会使用牛顿迭代法:
其中表示参数第步的迭代值,和则分别表示损失函数在处的一阶导数(即梯度)和二阶导数(即黑塞矩阵)。直观上,牛顿法利用损失函数的前两阶导数对原始的损失函数做了二次逼近,然后找到了该二次函数的极小值点作为参数下一步的迭代值;见图1左侧示意图。牛顿法在一定条件下可以达到二阶收敛速度:,这里的为了免于黑塞矩阵相关的计算,各类一阶优化算法走进大家的视野,其中最具代表性的就是梯度下降法(Gradient Descent, GD):
为了进一步提高GD算法的迭代效率,我们可以从全样本
二、模型和方法
现有关于MGD类算法的理论研究中,一般需要所谓的鞅差(Martingale Difference)条件(Polyak and Juditsky, 1992; Chen et al., 2020; Moulines and Bach, 2011)[5][1][2]。直观上来说,这个条件保证了小批次上计算得到的梯度应当是全样本梯度的无偏估计。为了满足这个条件,现有的很多文献会假设小批次是从全样本中通过简单随机有放回抽取得到的。然而在实际中(例如TensorFlow和PyTorch)更常见的做法是:预先将全样本随机划分成若干个互不相交的小批次,然后让算法在这些小批次上依次迭代。我们称以这种方式产生的小批次为基于随机划分的小批次。通过这种方式产生的小批次一般不再满足所谓的鞅差条件,但它能保证在每一轮(Epoch)迭代中全样本的每个样本点都可以被使用一次。然而,在这种设定下,MGDM算法的相关理论性质并没有得到很好的研究,例如数值收敛性质和所得到估计量的统计性质。本文从最简单的线性回归问题出发,希望得到一些有启发的结果。
我们考虑的模型为最简单的线性回归模型
三、理论性质
从上节的讨论我们知道,稳定解的存在性主要由矩阵
前面提到,动量法的提出是为了加速GD算法的数值收敛速度。那么在MGDM算法中,动量是如何影响数值收敛速度的呢?相关结论总结在下面的定理中。
定理3给出了MGDM算法的线性收敛形式。我们可以看到,算法的数值收敛速度主要由收敛因子以上结论考虑的都是MGDM算法的数值收敛性质,然而我们最终关心的是所得到估计量的统计性质。如果算法收敛很快,但最终得到的估计量具有很差的性质,这当然也不是我们想要的结果。我们知道,在线性回归问题中,最优的估计量一般为为全样本最小二乘(OLS)估计
四、总结
本文研究了基于随机划分小批次的动量梯度下降(MGDM)算法,以最小二乘问题为例,我们初步探索了算法的数值收敛性质以及统计学性质。我们发现,动量的存在确实可以有效加速算法的数值收敛。此外,为了达到更好的统计学效率,我们需要选择较小的学习率
参考文献
[1] Chen, X., Lee, J. D., Tong, X. T., Zhang, Y., et al. (2020). Statistical inference for model parameters in stochastic gradient descent. The Annals of Statistics, 48(1):251273.
[2] Moulines, E. and Bach, F. (2011). Non-asymptotic analysis of stochastic approximation algorithms for machine learning. In Shawe-Taylor, J., Zemel, R., Bartlett, P., Pereira, F., and Weinberger, K., editors, Advances in Neural Information Processing Systems, volume 24. Curran Associates, Inc.
[3] Polyak, B. T. (1964). Some methods of speeding up the convergence of iteration methods. Ussr Computational Mathematics and Mathematical Physics, 4(5):1–17.
[4] Polyak, B. T. (1987). Introduction to optimization. New York : Optimization Software, Inc.
[5] Polyak, B. T. and Juditsky, A. B. (1992). Acceleration of stochastic approximation by averaging. SIAM Journal on Control and Optimization, 30(4):838–855.