蒙特卡洛梯度估计方法(MCGE)简述
动机
机器学习中最常见的优化算法是基于梯度的优化方法,当目标函数是一个类似如下结构的随机函数 F(θ) 时:
随机梯度估计方法的相关背景知识,包括:蒙特卡洛采样和随机优化
几种经典应用,包括:变分推断、强化学习、实验设计
两类经典的梯度估计算法
背景知识
要了解基于蒙特卡洛采样的梯度估计方法,首先先了解蒙特卡洛采样方法和随机优化方法。
1. 一致性,根据大数定理,当所采样的样本数量非常多时,MCE 的估计值将会收敛到积分的真值处。
2. 无偏性,MCE 是对所求积分的一个无偏估计,简单推导如下:
MCE 的无偏性是随机优化算法收敛的重要保证。
3. 小方差,当几个估计方法都是无偏估计时,我们通常会选择方差较小的 MCE,因为更小方差的 MCE 会估计地更准,从而使得优化地效率更高、准确性更好。
随机优化(SO)
如图 1 所示,随机优化问题通常包含两个过程,一是仿真过程,输入优化变量,获得响应值 F(θ),然后计算出
不同于确定性优化,随机优化算法包含两个部分的随机性:
仿真过程中,由于系统响应 F(θ) 是随机变量,因此其梯度以及 Hessian 矩阵等都是随机的,需要近似估计;
优化过程中,由于采用一些近似处理手段,比如用 mini batch 来估计梯度会产生随机性。
应用
基于蒙特卡洛采样的梯度估计方法(MCGE)在很多研究领域都起到了核心作用,本节总结一下其在机器学习领域中的典型应用。
实验设计
实验设计是个非常广泛的领域,主要是研究如何为实验设置合适的配置,比如:自动机器学习中的超参数调优(HPO)、神经架构搜索(NAS),通过主动学习(Active Learning)选择更加合适的样本进行标注,老虎机问题的求解(Bandit)等等。
方法综述
公式(1)中的积分内是一个分布和代价函数的乘积,在对其梯度进行近似估计时,可以从两个方面进行求导。由此,可以将梯度估计方法大致分为两类:
求解分布测度的导数,包括本文介绍的 score function gradient estimator
求解代价函数的导数,包括本文介绍的 pathwise gradient estimator
这样会带来非常多的便利,比如:一种降低估计方差的思路,将代价函数 f(x) 改造为 f(x)-b,其中 b 是所谓的 baseline。因为 score function 的期望为 0,所以:
代价函数 f(x) 可以是任意函数。比如可微的,不可微的;离散的,连续的;白箱的,黑箱的等。这个性质是其最大的优点,使得很多不可微的甚至没有具体函数的黑箱优化问题都可以利用梯度优化求解。
分布函数 p(x;θ) 必须对 θ 是可微的,从公式中也看得出来。
分布函数必须是便于采样的,因为梯度估计都是基于 MC 的,所以希望分布函数便于采样。
SFGE 的方差受很多因素影响,包括输入的维度和代价函数。
策略梯度优化算法 REINFORCE 及其变种
基于 GAN 的自然语言生成
基于自动微分的黑盒变分推断
分布变换是统计学中一个基本的操作,在计算机中实际产生各种常见分布的随机数时,都是基于均匀分布的变换来完成的。有一些常见的分布变换可参见下表:
PGE的性质
代价函数要求是可微的,比 SFGE 更严格
在使用 PGE 时,并不需要显式知道分布的形式,只需要知道一个基础分布和从该基础分布到原分布的一个映射关系即可,这意味着,不管原来分布多么复杂,只要能获取到以上两点信息,都可以进行梯度估计;而 SFGE 则需要尽量选择一个易采样的分布
PGE 的方差受代价函数的光滑性影响
深度生成模型 VAE 和 GAN 的训练
基于 Normalising Flow 的变分推断
用于连续控制问题的强化学习
总结
蒙特卡洛采样(MCS)是求解函数期望的常用近似方法,优点是简单易用,通过一定的变换,可以对期望的梯度进行估计,从而完成对代价函数的优化,实现很多任务。
但 MCS 的缺点也非常明显,为了保证一定的估计效果,往往需要很大量的采样规模,对于大数据、高维度等实际问题来说,过多的采样会导致算法效率极低,从而降低了算法的实用性。从这个角度来说,如何研究一些新方法,来提高期望或者期望梯度的近似估计效率是一个非常重要的问题。最后,推荐两篇 2019 年的工作 [4] [5],旨在尝试解决这个问题。
上述研究虽然有一定的局限性,但尝试了新的思路来解决这一问题。其中第 [5] 篇,尝试用一些 Uncertainty Qualification (UQ) 的方法,比如用一些不确定性传播的估计方法,对期望进行确定性估 计,而非随机采样估计,在一定的假设下,确实有非常显著的效果。
参考文献
[1] Mohamed, S., Rosca, M., Figurnov, M., & Mnih, A. (2019). Monte Carlo Gradient Estimation in Machine Learning. ArXiv Preprint ArXiv:1906.10652.
[2] Fu, M. C. (2005). Stochastic Gradient Estimation, 105–147.
[3] Shakir's Machine Learning Blog http://blog.shakirm.com
[4] Postels, J., Ferroni, F., Coskun, H., Navab, N., & Tombari, F. (2019). Sampling-free Epistemic Uncertainty Estimation Using Approximated Variance Propagation. ArXiv Preprint ArXiv:1908.00598.
[5] Wu, A., Nowozin, S., Meeds, T., Turner, R. E., Lobato, J. M. H., & Gaunt, A. (2019). Deterministic Variational Inference for Robust Bayesian Neural Networks. In ICLR 2019 : 7th International Conference on Learning Representations.
点击以下标题查看更多往期内容:
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
📬 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
▽ 点击 | 阅读原文 | 获取最新论文推荐