“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
地址:https://zhuanlan.zhihu.com/p/374969253
介绍一篇我们刚刚发表在CVPR2021上的一篇关于少样本学习的文章,显著提升了分类性能。 题目: Prototype Completion with Primitive Knowledge for Few-Shot Learning 链接: https://arxiv.org/abs/2009.04960 代码: https://github.com/zhangbq-research/Prototype_Completion_for_FSL 01
最近,基于预训练的方法在少样本学习任务上已经展现了非常优越的性能。该方法首先利用整个Base Classes的数据预训练一个特征提取器,紧接着在采用基于最近质心的元学习方法微调特征提取器。然而,实验结果表明特征提取器的微调步骤的性能改进非常有限,甚至出现性能衰减的现象。为了揭露其原因,我们在预训练特征空间中可视化了miniImagenet的Base Class和Novel Class样本的特征分布,如图1(a)所示。我们可以发现,在预训练的特征空间上,Base Class样本形成了紧凑的簇,而Novel Class样本扩散成一个大的方差组。这现象意味着:1) 对特征提取器进行微调,让Base Class样本聚集成一个更紧凑的簇是没有意义的,因为这增加了Base Task过拟合的风险;2) 对于Novel Class,在方差较大的情况下,给定的少数标记样本可能远离其真正的类别中心,这将给估计代表性原型带来了非常大的挑战。因此,在这篇文章中,我们认为如何估计一个有代表性的原型是少样本学习问题的一个核心挑战。 那么,为什么这些样本会偏离它的真正的类别中心呢?我们发现这些偏离其类别中心的样本大多数都是不完整的,例如样本残缺、背景干扰或细节模糊等,即丢失了一些具有代表性的属性特征。例如,图1(b)所示,类别中心附近的猫鼬样本包含了所有的代表性特征,如头、身体、腿和尾巴,而偏离类别中心的猫鼬样本会遗漏一些代表性特征。上述的样本特征不完整性导致由偏离中心的样本估计的原型也是不完整的。基于上述事实,在这篇文章中,我们提出了一种基于原型补全的元学习框架来解决少样本学习问题。 02
本文所提出的框架包括四个阶段,包括预训练(Pre-training)、学会补全原型(Learning to complete prototypes),元训练(Meta-training)和元测试(Meta-test), 如图2所示。 预训练阶段: 基于整个Base Class数据,我们建立并训练一个基于卷积神经网络(CNN)的分类器。然后,我们去掉最后一个softmax分类层。最后,将会得到了一个特征提取器。 学会补全原型阶段: 我们首先利用WordNet构建了一个原语知识,即每个类别应该具备哪些属性特征。例如,袋鼠有长长的脸和白色的肚子,斑马有长长的脸和四只脚。然后,基于上述的原语知识以及预训练的特征提取器,我们进一步提取一些先验知识,包括Base Class的真正类别原型和属性特征的分布。具体方法是:1)针对每个Base Class的真正类别原型,我们直接平均它的全部样本的特征,并将该均值特征作为该类别的真正类别原型;2)针对每个属性特征(注意,我们已经移除了Base Classes未见过的属性),我们将所有具备该属性的类别样本特征的均值和方差分别作为该属性特征分布的均值和方差。最后,基于上述获得的先验(原语知识、真正Base Classed原型和属性特征分布),我们构建了一个原型补全网络,并模仿K-Shot任务设置构建了一系列的原型补全任务。紧接着,我们采用基于元学习的训练方式并利用MSE损失去训练上述的原型补全网络,让该网络学会如何利用上述先验去补全任意一个不完整的原型。 元训练阶段: 在这个阶段,我们模仿N-Way K-Shot的设置构建了大量的少样本分类任务,并利用episodic训练方式进一步联合训练上述的特征提取器和原型补全网络。值得注意的是,在执行每一个少样本分类任务时,我们进一步提出了一种基于高斯的原型融合策略来融合基于均值的原型和上述补全的原型。利用上述融合后的原型来执行少样本分类任务(具体细节请参考原文)。 元测试阶段:这个阶段和元训练阶段很相似,主要区别是,在这一步中,我们移除了元训练阶段中的参数优化过程,直接为Novel Class执行少样本图像分类任务。 在ProtoComNet中,我们设计了一个编码器-聚合器-解码器网络,如图3所示。其中,编码器的目的是将基于均值的原型和部件/属性特征映射到一个低维空间中,获得其低维表示;然后,聚合器对不同部件/属性的重要性进行评估,并利用加权和的方式在低维空间上去补全不完整的原型。最后,解码器负责完整的原型预测。具体细节请参考原文。 直到现在,我们已经获得了两种原型估计,即基于均值的原型和补全的原型。在这一小节中,我们将从贝叶斯估计的角度来讨论为什么以及如何融合这两种原型估计。 问题1:为什么融合原型? 实际上,基于均值的原型估计和基于补全的原型估计都存在它们的估计偏差的。前者的偏差主要是由于Novel Class中标记样本的稀缺性或不完整性造成的;而后者的偏差是由原始知识噪声以及Base Class和Novel Class的类别差异所带来的。事实表明这两种估计可以互相弥补,当标记的样本非常稀少和不完整时,基于补全的原型将会更可靠,因为补全的策略是从大量基类任务中学习的。然而,随着标注样本的数量越来越多,基于补全的原型在原始知识噪声或类别差异的影响下可能会导致原型补全错误的问题,这使得基于均值的原型将会更具代表性。图4(a) 展示了一个例子来说明这一点。我们可以观察到,基于补全的原型在1/2-Shot任务上更准确,而基于均值的原型在3/4/5-Shot任务上更准确。因此,需要一种原型融合策略来结合它们的优势,获得更具有代表性的原型。 问题2:如何融合原型? 我们应用贝叶斯估计来融合这两种原型。具体来说,我们假设估计的原型遵循多变量高斯分布(Multivariate Gaussian Distribution, MGD),因为在预训练空间中的样本是连续的并且聚在一起的(如图1所示)。基于这个假设,上述估计的两个原型都可以看作是从两个MGD中采样的一个样本。如图4(b)所示,从贝叶斯估计的角度来看,我们将基于补全的原型分布看作为先验分布,并将基于均值的原型分布看作为观察到的少量标记样本的条件似然。然后,融合后的原型分布的贝叶斯估计可以表示为它们的乘积,即后验多变量高斯分布。最后,我们将后验高斯分布的均值看做成最终的原型,进而执行少样本分类任务。具体的原型分布估计细节请参考原文。 03
我们在三个常用的数据集上评价了我们方法的性能,包括miniImageNet、tieredImageNet以及CUB-200-2011数据集。结果表明,我们的方法:1)获得了最佳的分类性能;2)能够估计更有代表性的原型。 我们在一个现实世界的数据集上(miniImageNet)验证了我们的想法合理性,如图5所示。我们可以发现:远离类别中心的样本大多数都是残缺的、细节模糊的、背景干扰严重的。此外,我们也实施了一个统计实验来回答“我们的方法是否获得了有代表性的原型?”,如表3所示。实验结果表明我们的方法获得了比之前方法更准确的原型。特别需要注意的是SRestoreNet修复后的原型比我们的方法更好。这是非常合理的,因为他们在修复原型之前利用了无标签样本(Query Samples),然而本文方法是在补全原型后利用这些无标签样本。 最后,我们在miniImageNet数据集上进行了详细的消融研究来评估两个组件的有效性,即学会补全原型和基于高斯的原型融合策略。具体来说,(i) 我们删除了所有组件, 即通过基于均值的原型对每个样本进行分类;(ii) 在(i)上添加ProtoComNet去补全原型,并利用补全后的原型进行分类;(iii) 我们平均了基于均值的原型和基于补全的原型来获得最终的原型,并执行分类;(iv) 采用本文提出的基于高斯的原型融合策略去融合原型,并执行分类,如表4所示。实验结果验证了上述两个组件的有效性。此外,我们也实施了一个原语知识噪声分析实验,来验证本文的基于高斯的原型融合策略能够缓解原型补全错误的问题,如表5所示。可以看出,结合本文提出的基于高斯的原型融合策略之后,本文方法对原语知识的噪音具有更强的鲁棒性,获得更鲁棒的少样本分类性能。 04
对于少样本学习问题,对Base Class进行简单的预训练就可以得到一个好的特征提取器,在这个预训练空间里Novel Class样本可以很好地聚在一起。其关键的挑战是如何获得更有代表性的原型,因为Novel Classes样本聚集成一个较大的方差簇。针对这一问题,我们提出了一种原型补全网络,通过原始知识来补全原型,并提出了一种基于高斯的原型融合策略来缓解原型补全误差问题。实验表明,该方法在三个现实世界的数据集上均取得了较好的分类性能。将来,我们将会探索更有效的属性建模方式,例如将不可见的部分/属性合并到我们的框架中,进而为Novel Class估计更准确的原型。
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
“源头活水”历史文章
更多源头活水专栏文章, 请点击文章底部“阅读原文 ”查看
分享、在看,给个三连击呗!