NeurIPS 2018 “时间检验奖”:《大规模学习的权衡》
文 / Anna Ukhanova,Google AI 苏黎士办事处项目经理
机器学习 (ML) 的发展可谓神速,有时不禁让人觉得任何理念或算法在诞生逾 2 年后便会显得不合时宜,或被其他更出众的同类所取代。然而,即便科学界的大部分人已将之弃于身后,旧理念有时仍与我们息息相关。这通常是应用环境使然:有些理念在特定环境内貌似走入死胡同,但若换作另一环境,却可能大放异彩。在深度学习 (DL) 的具体案例中,数据可用性和计算能力的提升重新激起了人们对该领域的兴趣,并对深度学习的研究方向产生了显著影响。
由 Léon Bottou(彼时就职于 NEC Labs,现任职于 Facebook AI Research)和 Olivier Bousquet(Google AI 苏黎士办事处)合著的 NIPS 2007 论文《大规模学习的权衡》(The Trade-Offs of Large Scale Learning) 便是此类现象的最佳实例。作为 NeurIPS 2018 “时间检验奖” 的最新得主,这篇重要文章考察机器学习领域数据与计算的相互作用,文中指出若一模型的计算能力有限,但可以使用大型数据集,则更高效的做法是对众多个别训练样例执行小规模计算,而非对数据子集执行大规模计算。此结论也证明了随机梯度下降这类旧算法的强大之处,此算法现今广泛应用于几乎所有的深度学习应用。
大规模优化和挑战
许多机器学习算法均可视为由两大主要部分组成:
模型,即一组用于拟合数据的可能函数
优化算法,指明如何找到该数据集中的最佳函数
追溯至上世纪 90 年代,机器学习中使用的数据集远远小于当下使用的数据集,彼时人工神经网络虽已取得一些成就,但学界普遍认为对其实施训练并非易事。本世纪初,随着核机器(尤其是 SVM)的出现,神经网络逐渐成为过时黄花。与此同时,人们也将视线从训练神经网络时使用的优化算法(随机梯度下降)转向核机器所使用的算法(二次规划)。二者的一个重大区别是,前者一次使用一个训练样例来执行梯度步骤(称作 “随机”),而后者则在每次迭代中使用全部训练样例(称作 “批量”)。
随着训练数据集规模的扩大,优化算法在处理海量数据方面的效率也陷入瓶颈期。例如,在二次规划的情况下,运行时间至少会以训练样例数量的平方增长。换言之,如果将训练集规模提高一倍,则训练时间将至少延长 4 倍。因此,您需要投入大量精力将这些算法扩展至更大规模的训练集(请参阅示例书籍 Large Scale Kernel Machines)。
在训练神经网络方面有经验的人都应明白,相较于二次规划,随机梯度下降更易于扩展至大型数据集,但遗憾的是,其收敛很慢(需经过大量迭代方能达到与批量算法相同的准确度),所以尚不清楚其是否能用作扩展问题的解决方案。
随机算法实现更优扩展
在机器学习的环境下,优化成本函数所需的迭代次数实际并非我们的主要忧虑:天衣无缝的模型调试并无意义,因为您基本上会 “过拟合” 训练数据。因此,与其投入精力处理更多数据,何不减少调整模型时的计算量?
Léon 和 Olivier 在论文中正式探讨了这一现象,他们考虑使用大量数据并假设限制因素是计算能力,最后得出结论,更好的做法是对每个个别训练样例执行最少量计算(如此便能处理更多训练数据),而非对少量数据执行大量运算。
在此过程中,他们还证明在各种可能的优化算法中,随机梯度下降是最佳算法。此结论随后得到很多实验的证实,也重新激起了学界对在线优化算法的兴趣,而这些算法如今已广泛应用于机器学习领域。
悬而未决的问题
在随后几年内,出现了许多随机梯度下降算法的变形,有些是在凸情形下开发,有些是在非凸情形(和深度学习尤为相关)下开发。其中最常见的一类称作 “mini-batch” 随机梯度下降算法,此算法中,每次迭代时仅考虑少量训练样例(大约 10 至 100 个),对训练集实行分批操作,并运用一些技巧对梯度进行适当扩展。如今,机器学习库普遍都提供该算法的默认实现,而该算法也可谓深度学习的支柱之一。
虽然该分析为理解此算法的特性打下了坚实基础,但深度学习领域令人惊叹、有时甚至让人瞠目结舌的成果仍在为科学界提出更多疑问。尤为值得一提的是,该算法在深度网络泛化特性中的作用已得到反复论证,但人们依旧知之甚少。这意味着仍有许多有趣的问题有待探索,而这可能有助人们更好地理解当前所用的算法,并在未来开发出更高效的算法。
Léon 和 Olivier 于 10 年前在这项合作成果中所提出的观点大大推动了随机梯度下降算法的发展,该算法如今已成为惠益我们日常生活的机器学习体系的主要组成部分。两位作者获此奖项可谓当之无愧,我们对他们表示衷心的祝贺。
更多 AI 相关阅读: