【源头活水】元学习应用与Model-Agnostic Meta-Learning (MAML)介绍

人工智能前沿讲习 2022-05-20

收录于合集 #源头活水 308个

“问渠那得清如许，为有源头活水来”，通过前沿领域知识的学习，从其他研究领域得到启发，对研究问题的本质有更清晰的认识和理解，是自我提高的不竭源泉。为此，我们特别精选论文阅读笔记，开辟“源头活水”专栏，帮助你广泛而深入的阅读科研文献，敬请关注。

来源：知乎—未来达摩大师

地址：https://zhuanlan.zhihu.com/p/436699003

元学习应用

元学习通常被用在：优化超参数和神经网络、探索好的网络结构、小样本图像识别和快速强化学习等。

元学习系统要接受大量任务（tasks）的训练，并预测其学习新任务的能力。这种任务可能是对新图像分类（给定每个类别就只有一个示例），其中有5种可能类别；或者是这样一种任务，仅通过学习一个迷宫就可以有效地在新的迷宫中导航。这与许多标准的机器学习技术不同，后者涉及对单个任务地训练，并且保留了一些示例对该任务进行测试。下图是图像分类领域运用元学习的示例：

在元学习过程中，训练模型以学习 meta-training set 中的任务，这其中有两个优化在起作用：learner：学习新任务；meta-learner：训练 learner。元学习的方法通常分为三类：（1）recurrent models，（2）metric learning，（3）learning optimizers。

这里重点介绍第三种方法，即学习一个优化器。在这种方法里，有两个网络，分别是 meta-learner 和 learner。前者学习如何更新后者，使得后者能够有效学习新任务。这种方法已被用于研究更好的神经网络优化。meta-learner 通常是循环网络（recurrent network），这样才能记得之前是怎样更新 learner 模型。此外，meta-learner 可以使用强化学习或者监督学习进行训练。

Model-Agnostic Meta-Learning (MAML)

MAML 的思路就是直接针对初始表示进行优化，其中这种初始表示可以通过少量示例进行有效地调整。像其他 meta-learning 方法一样，MAML 也是通过许多 tasks 进行训练，训练所得表征可以通过很少梯度迭代就能适应新任务。MAML 试图寻找这样一种初始化，不仅有效适用不同任务，而且要快速适应（仅需要几步）和有效适应（只使用很少样例）。观看下图，假设我们正在寻找一组有很强适应性的参数 θ 。在元学习过程中（实线部分），MAML 针对一组参数进行优化，以使得对特定任务 i （灰线部分）采取梯度步骤时，这些参数可以接近最佳参数 θ∗i 。

以 MAML 为例介绍元学习一些相关概念

1. N-way K-shot：这是 few-shot learning 中常见的实验设置，N-way 指训练数据中有 N 个类别，K-shot 指每个类别下有 K 个被标记数据。

2. model-agnostic：即指模型无关。MAML 相当于一个框架，提供一个 meta learner 用于训练 learner。meta-learner 是 MAML 的精髓所在，用于 learning to learn；而 learner 则是在目标数据集上被训练，并实际用于预测任务的真正数学模型。绝大多数深度学习模型都可以作为 learner 无缝嵌入 MAML 中，MAML 甚至也可以用于强化学习中，这就是 MAML 中模型无关的含义。

3. task：这在 MAML 中是一个很重要的概念。我们首先需要了解的概念：Dmeta−train,Dmeta−test，support set，query set，meta-train classes，meta-test classes等等。假设一个这样的场景：我们需要利用 MAML 训练一个数学模型 Mfine−tune，目的是对未知标签图片做分类，类别包括P1∼P5（每类有 5 个已标注样本用于训练，另外 15 个已标注样本用于测试）。我们的训练数据除了 P1∼P5 中已标注的样本外，还包括另外 10 个类别的图片 C1∼C10（每类有 30 个已标注样本），用于帮助训练元学习模型 Mmeta。

此时， C1∼C10 即为 meta-train classes， C1∼C10 包含的 300 个样本即为 Dmeta−train，作为训练 Mmeta 的数据集。与此相对， P1∼P5 即为 meta-test classes， P1∼P5 包含的 100 个样本即为 Dmeta−test，作为训练和测试 Mfine−tune 的数据集。

我们的实验设置为5-way 5-shot，因此在 Mmeta 阶段，我们从 C1∼C10 中随机选取 5 个类别，每个类别再随机选取 20 个已标注样本，组成一个 Task T，其中的 5 个已标注样本称为 T 的 support set，另外 15 个样本称为 T 的 query set。这个 Task T 相当于普通深度学习模型训练过程的一个数据，因此我们需要反复在训练数据分布中抽取若干个 T 组成 batch ，才能使用随机梯度下降 SGD。

MAML 算法流程

以上是 MAML 预训练阶段的算法，目的是得到模型 Mmeta 。下面是逐行分析：

首先是前两个 Require。第一个 Require 指的是 Dmeta−train 中 task 的分布，我们可以反复随机抽取 task，形成一个由若干个 T 组成的 task 池，作为 MAML 的训练集。第二个 Require 就是学习率，MAML 是基于二重梯度的，每次迭代包含两次参数更新的过程，所以有两个学习率可以调整。

步骤1：随机初始化模型参数；

步骤2：是一个循环，可以理解为一轮迭代过程或一个 Epoch，当然，预训练过程也可以有多个 Epoch，相当于设置 Epoch；

步骤3：随机对若干个（e.g., 4 个）task 进行采样，形成一个 batch；

步骤4 ∼ 步骤7：第一次梯度更新过程。注意这里我们可以理解为copy了一个原模型，计算出新的参数，用在第二轮梯度的计算过程中。我们说过，MAML是gradient by gradient的，有两次梯度更新的过程。步骤4～7中，利用batch中的每一个task，我们分别对模型的参数进行更新（4个task即更新4次）。注意这个过程在算法中是可以反复执行多次的，但是伪代码没有体现这一层循环。

步骤5：利用 batch 中的某一个 task 中的 support set（在 N-way K-shot 的设置下，这里的support set 应该有 NK 个），计算每个参数的梯度。注意：这里的loss计算方法，在回归问题中，就是MSE；在分类问题中，就是cross-entropy。

步骤6：第一次梯度的更新。

步骤4 ∼ 步骤7：结束后，MAML完成了第一次梯度更新。接下来我们要做的，是根据第一次梯度更新得到的参数，通过gradient by gradient，计算第二次梯度更新。第二次梯度更新时计算出的梯度，直接通过SGD作用于原模型上，也就是我们的模型真正用于更新其参数的梯度。

步骤8：这里对应第二次梯度更新的过程。这里的loss计算方法，大致与步骤5相同，但是不同点有两处：第一处是我们不再分别利用每个task的loss更新梯度，而是像常见的模型训练过程一样，计算一个batch的loss总和，对梯度进行随机梯度下降SGD；第一处是这里参与计算的样本，是task中的 query set，在我们的例子中，即5-way*15=75个样本，目的是增强模型在task上的泛化能力，避免过拟合 support set。步骤8结束后，模型结束在该batch中的训练，开始回到步骤3，继续采样下一个batch。

以上便是 MAML 预训练得到 Mmeta 的全部过程。

接下来，在面对新的 task 时，我们将在 Mmeta 的基础上，精调（fine-tune）得到 Mfine−tune 。

精调过程于预训练过程大致相同，不同之处有以下几点：

步骤 1 中，fine-tune 不用再随机初始化参数，而是利用训练好的 Mmeta 初始化参数；
步骤 3 中，fine-tune只需要抽取一个task进行学习，自然也不用形成batch。fine-tune利用这个task的support set训练模型，利用query set测试模型。实际操作中，我们会在 Dmeta−test 上随机抽取多个 task（e.g., 500 个），分别微调模型 Mmeta，并对最后测试结果进行平均，避免极端情况；
fine-tune 没有步骤 8，因为task的query set是用来测试模型的，标签对模型是未知的。因此fine-tune过程没有第二次梯度更新，而是直接利用第一次梯度计算的结果更新参数。

本文目的在于学术交流，并不代表本公众号赞同其观点或对其内容真实性负责，版权归原作者所有，如有侵权请告知删除。

“源头活水”历史文章

请点击文章底部“阅读原文”查看

分享、在看，给个三连击呗！

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：关于加快推进起诉状、答辩状示范文本全面应用工作的通知(附下载链接)

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

【源头活水】元学习应用与Model-Agnostic Meta-Learning (MAML)介绍

MetaFormer: transformer真正work的地方在哪里？

使用Transformer进行红外-可见光图像融合

GNN超越一维WL图同构测试？GraphSNN来了

熬了一晚上，我从零实现了Transformer模型，把代码讲给你听

NeurIPS 2020 | 从因果关系来看小样本学习

CLIP4Clip: CLIP 再下一城，利用CLIP实现视频检索

Graph: 表现再差，也不进行Pre-Training? Self-Supervised真香！

AdaViT: Adaptive Tokens for Efficient Vision Transformer

连接文本和图像的第一步：CLIP

CV预训练MAE（Masked AutoEncoder）

[Meta-Learning]对Reptile的深度解析

用于文本分类的循环卷积神经网络

Meta-Transfer Learning for Few-Shot Learning

PointPillars论文和代码解析

更多源头活水专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：关于加快推进起诉状、答辩状示范文本全面应用工作的通知(附下载链接)

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

生成图片，分享到微信朋友圈

【源头活水】元学习应用与Model-Agnostic Meta-Learning (MAML)介绍

更多源头活水专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣