查看原文
其他

【强基固本】广义正则对偶平均(gRDA)算法简介

“强基固本,行稳致远”,科学研究离不开理论基础,人工智能学科更是需要数学、物理、神经科学等基础学科提供有力支撑,为了紧扣时代脉搏,我们推出“强基固本”专栏,讲解AI领域的基础知识,为你的科研学习提供助力,夯实理论基础,提升原始创新能力,敬请关注。

来源:知乎—不要太傲娇

地址:https://zhuanlan.zhihu.com/p/375082271

广义正则对偶平均(generalized regularized dual averaging (gRDA))算法是对正则对偶平均(RDA)算法的推广。迄今为止正则对偶平均算法在online学习、强化学习等方面已经得到了众多应用。
假设我们收集到了独立同分布的数据  ,其中N表示所有可能的观测数目,  是我们所关心的未知参数,定义损失函数  ,则我们的目标是求解最优解  使得损失函数  达到最小,等价于求解方程  的根。一般我们可以选取  ,其中  表示损失函数  的梯度或者次梯度。随机梯度下降(SGD)算法是通过下述迭代过程近似 
其中  表示步长。选择合适的步长对该优化算法的解路径起着至关重要的作用。在后面如无特别说明我们简单的用  表示  .尽管目前已经有很多文献研究了随机梯度下降算法,但当未知参数  自身存在某种结构时,随机梯度下降算法的效果并不能让人满意。为了解决这个问题,Xiao (2010) 提出了正则对偶平均(RDA)算法,其目的是通过如下迭代过程近似目标最优解
在RDA中, 表示累积梯度,  为常数,  是事先确定的严格凸的正则化函数,其作用是用来稳定迭代求解的过程,而  是惩罚函数,选取不同的惩罚函数可以求得不同结构的解。事实上RDA可以看作对两项进行交互迭代:通过极小化累积梯度的同时施加正则化函数  稳定求解过程,同时加入惩罚项  使得到解具有一定结构。如果我们令  ,则RDA就退化为SGD,因此我们可以将RDA看为SGD的一种推广,其既能保持SGD的优良性质,还解决了SGD无法处理具有系数结构参数的问题。最简单的情形,我们可以选取L1惩罚函数  ,Xiao (2010)已经证明在这种惩罚函数下可以得到稀疏解。
尽管RDA目前已经得到了广泛应用,但是Chao & Cheng (2019) 证明了在某些重要的情形下,RDA得到的解太过于激进,容易导致有偏估计,这与SGD的结果相反。为了解决这个缺陷,Chao & Cheng (2019)经过仔细研究发现,在RDA中惩罚函数前的因子  是趋于无穷大的(尽管  是固定的数),这一点导致了对于参数惩罚的太过激进,从而得到有偏估计。为了解决这个问题,Chao & Cheng (2019)提出了广义正则对偶平均(gRDA)算法,通过将RDA中惩罚函数的因子  表示为能够根据时间进行调整的tuning函数 。gRDA是通过迭代求解下述问题得到目标最优解的近似:
其中  是确定的函数。很明显如果  则gRDA就转化为RDA。  是我们事先选取的初值,可以从均值为0的正态分布或均匀分布中随机选取。一般我们可以选取  ,其中  是超参数,需要通过数据驱动的方式选取最优的值,也可以事先给定; 表示算法终止后得到的解达到最优解  的某个小领域内所需时间的均值。 . Chao & Cheng (2019)通过一个数据例子表明在  时gRDA的效果不错,并且他们建议可以选取  . 下图是他们文章中根据上述选取的值或函数,对CIFAR-10图像分类数据的结果:
当然,给出具体的理论结果来指导tuning函数  的选取是十分有必要的: 即tuning函数  满足什么条件时,利用gRDA算法得到的结果具有良好的性质(与最优解相差不大)。Chao & Cheng (2019)的主要贡献也正是对这一点进行了系统的理论研究。
下面我们给出gRDA的随机镜像下降(stochastic mirror descent, SMD)的表示形式,这对gRDA的理论分析和求解上都很有效。定义
 .
则对于任意的  ,定义Fenchel共轭函数为
如果假定  为凸函数,  为严格凸函数,并且这两个函数的是下半连续,则  是可微的,其导数为
因此我们有
 .
其中  . 通过上述两个式子,我们就可以迭代求解得到gRDA的解序列。
最后,我们简单说一下 和  的一些常见选择。一般选取  为严格凸函数即可,常见的有  其中A为正定矩阵。而对于  ,一般选取为  的  范数,例如  等,当然还有其它的选择
关于gRDA更多的细节大家可以阅读Chao & Cheng (2019)的文章,他们还给出了该算法的Python实现,GitHub链接为:https://github.com/donlan2710/gRDA-Optimizer.
参考文献:
Xiao L. (2010) Dual averaging methods for regularized stochastic learning and online
optimization. Journal of Machine Learning Research, 11:2543–2596.
Chao S. and Cheng G. (2019) A generalization of regularized dual averaging and its dynamics. arXiv: 1909.10072v1.

本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。


“强基固本”历史文章


更多强基固本专栏文章,

请点击文章底部“阅读原文”查看


分享、点赞、在看,给个三连击呗!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存