当在线学习(online learning)遇上元学习(meta learning)【学术前沿】
学习能力是否是智慧生物的专属技能?在许多人眼中,自主学习新事物大概是人类等具有智慧的生物才能做到的,而计算机虽然在许多方面远超人类,始终只是人类创造出来的一段程序而已。一说到AI有学习能力,大家可能就会想到许多科幻片里情节,如机器人造反反攻人类统治地球。科幻毕竟是科幻,相信人类有能力合理地使用AI,使其成为人类的最好伙伴。今天要向大家介绍的便是AI的学习,以及来自伯克利大学的Chelsea Finn团队的论文《Online Meta Learning》(在线元学习)中的关于AI学习的新模型——在线元学习(online meta learning)。 【原文地址:https://arxiv.org/abs/1902.08438】
这篇论文提出的主要观点便是将两项AI学习方法“在线学习”与“元学习”相结合,正如本文标题所写的。Chelsea Finn提出了一种新的AI学习模式——在线元学习(online meta learning)。而事实上本文的作者Chelsea Finn也是“元学习”这一模式的完善者之一。
在线学习:
这个学习方法也许更加容易理解,因为它的学习逻辑更为简单。模型会评估每次经历训练集的损失,并且通过这个反馈来改变调整模型本身。这听起来与我们人类学习方式很相似,若将我们的人脑(或者说人脑处理事务的方式)看作AI模型,那么每个训练集相当于我们生活中所经历的每件事情。每当我们经历一件事情,我们的大脑便会对这件事进行反思,吸取教训,从而改变我们大脑处理与思考的原有方式。所谓见多识广,我们便是在不断地经历各种各样事情之后变得成熟,获得智慧。
而这一过程正如在线学习的过程,每个训练集都会对模型产生影响,使模型进行调整。而模型则在不断更新与调整中变得强大,达到人类见多识广的效果,从而达到学习的目的。
元学习:
也许在线学习会显得稍微死板,大家可能会觉得它的核心就是依靠经验做出判断,这没什么大不了的,系统的强大或者说智慧程度仅仅是依靠过经验的积累。那么元学习则是让AI更像真人的一种学习方式,许多人将元学习称为“学习如何学习的算法”。
那么什么是“学习如何学习的算法”呢,这种方法是先让模型在大量训练集的任务中进行一次训练,再使用在所有任务上的损失来更新模型的初始参数。而被更新的模型具有更好的寻找关键信息的能力。大家是否记得我们之前的文章介绍过的概念“解耦表达”,即捕捉不同事物的关键特征,从而对信息进行泛化识别,从而处理从未遇到过的事物。那么如何鼓励AI正确的抓取事物特征来识别信息,这就是元学习需要解决的内容。
比如数字3,模型无法理解一张图经过什么样的像素变化,它的内容仍然是3。在网络学习中,我们想要的类别标签有可能与字母的粗细程度有关吗?对我们而言做出这样的推断这很傻,但是对于模型来说,如果没有足够大量的样本,其很难找到正真的特征来做出正确的推理。
有更多样本会有助于解决这一问题,因为我们可以学习一张图中什么样的特征可以定义其主要特征——两个凸的形状,大部分是垂直的方向,以及无关紧要的改变——线的粗细、还有角度。为了成功实现单样本学习,我们不得不激励网络,在没有给出每一个数字间差别的情况下,学习什么样的表征可以将一个数字从其他数字中区别出来。
而在作者看来,这两种学习方式都有其局限,在线学习能够利用之前获得过的样本信息结合当前样本信息在线地学得效果比较好的模型,但是其学习过程却是不区分任务类型的,当新的样本到来时,其不能根据已经学得的任务的结构情况来对新的样本作出比较好的处理,如图:
这是一个染色的MINIST数据集,当新的样本红色的7到来时,如果不考虑以前的任务结构(主要处理形状,而与背景颜色无关),模型很有可能作出“红色的样本就是数字7”这种错误的判断,而实际上数字是多少是与颜色没有关系的。而元学习不符合“在线学习”的设定,会使学得的模型不够稀疏,并且不适用于大规模数据的场景。正如论文的介绍中所讲:
两种截然不同的研究范式研究的是如何利用先前的任务或经验来指导未来的学习。元学习把这看作是学习的问题,过去的经验被用来获得优先于模型参数或学习过程的经验,通常的做法是提供一系列任务给元训练器学习。相比之下,在线学习考虑的是一个连续的设置,其中任务一个接一个地显示,但目标是实现零概率泛化,并且是在没有任何特定于任务的适应的环境下。我们认为,这两种环境都不是研究持续终生学习的理想环境。元学习处理学习的过程,忽略了问题的顺序性和非稳态方面。在线学习提供了一个很有吸引力的理论框架,但通常不考虑过去的经验如何加速适应新任务。在这项工作中,我们激发并提出了在线元学习的问题设置,同时在一个连续的设置中使用过去的经验来学习良好的先验,并快速适应当前的任务。
为了结合以上这两种方法,该文作者提出了FTML的方法,即Follow The Meta Leader,跟随元领导。其中主要改进的方法为FTL(Follow The Leader)。下面我们编译了论文中的部分内容,大家可以了解一下该团队的具体做法:
1、该算法继承自Meta Leader算法:
该方法从follow the leader算法的形式中获得灵感(Hannan, 1957;(Kalai & Vempala, 2005),论文提出的FTML算法模板更新模型参数为:
如果学习过程停留在第t轮,可以解释为后知后觉的代理扮演最好的元学习者。在本节的其余部分中,我们将展示在损失的标准假设下,以及在更高阶平滑度的一个额外假设下,该算法具有很强的后悔保证。在实践中,我们可能无法完全逼近fk(·),比如当它是人口风险时,我们只有有限大小的数据集。在这种情况下,我们将利用随机逼近算法来求解Eq中的优化问题。
2、假设:
我们做了关于每一个损失函数为所有t的假设。让θ和φ表示两个任意的选择模型参数。
这些假设在在线学习中基本上是标准的(Cesa-Bianchi & Lugosi, 2006),。这些假设适用的例子包括逻辑回归、在线元学习和有限域内的L2回归。在我们的环境中,它允许我们描述MAML函数的景观,其中包含一个梯度更新。重要的是,这些假设并不轻视元学习设置。,即使是最简单的强凸设置且fi为二次函数,我们也可以观察到元学习和联合训练在性能上的明显差异。
3、分析:
我们分析了更新过程是“梯度下降的一个单一步骤“时的FTML算法,如MAML的公式。具体来说,我们考虑的更新过程是
对于这个更新规则,我们首先声明下面的主要定理;
从而得出有以下推论:
推论1 :
由于目标函数是凸的,我们可能期望一阶优化方法是有效的,因为梯度可以用标准的自动差值库有效地计算(正如Finn等人(2017)所讨论的)。事实上,这项工作提供了第一组结果(在任何假设下),在这些结果下,类maml目标函数可以被证明和有效地优化。
我们主要定理的另一个直接推论是,FTML现在与FTL在可比较的设置(具有强凸损耗)中享有相同的遗憾保证(至多是常数因子)。
推论2:
基于fi继承的光滑性和强凸性,我们的主要定理意味着存在大量的在线元学习算法继承了后悔边界。
最后,本文作者是对这次实验并做了一些总结并对未来的工作给出建议:
本文介绍如何设置在线元学习,它为理想的真实世界学习过程提供了一个自然的视角:与不断变化的环境交互的智能模型应该利用一系列经验来掌握手头的任务,并在未来更熟练地学习新任务。该实验提出并分析了FTML算法来推导后悔边界,并举例说明如何将FTML应用于实际算法。实验表明,FTML优于以前的方法,随着时间的推移,学习新任务的效率越来越高。
对于未来的工作,团队主要要解决的是获得更强大的更新能力,以及如何在有限的储存与计算能力下实现算法。
相信在线元学习在未来将会大放异彩,成为人类探索AI世界的又一丰碑。
“智能财会联盟”共同发起单位邀请函
学术前沿专题回顾
人才&实务专题回顾
会议动态专题回顾