小数据如何学习？吉大最新《小数据学习》综述，26页pdf涵盖269页文献阐述小数据学习理论、方法与应用

人工智能前沿讲习 2022-12-14

收录于合集 #综述专栏 257个

在科学研究中，从方法论上来讲，都应“先见森林，再见树木”。当前，人工智能学术研究方兴未艾，技术迅猛发展，可谓万木争荣，日新月异。对于AI从业者来说，在广袤的知识森林中，系统梳理脉络，才能更好地把握趋势。为此，我们精选国内外优秀的综述文章，开辟“综述专栏”，敬请关注。

来源：专知

吉大最新《小数据学习》综述，26页pdf涵盖269页文献阐述小数据学习理论、方法与应用，非常值得关注！

地址：https://arxiv.org/pdf/2207.14443v1.pdf

对大数据的学习为人工智能(AI)带来了成功，但注释和训练成本昂贵。未来，在小数据上学习是AI的最终目的之一，这需要机器像人类一样识别依赖小数据的目标和场景。一系列的机器学习模型正在以这种方式进行，如主动学习、少样本学习、深度聚类。然而，几乎没有理论保证它们的泛化性能。而且，它们的大多数设置都是被动的，即标签分布是由一个指定的采样场景显式控制的。该调查遵循PAC (Probably Approximately Correct)框架下的不可知论主动抽样，使用监督和非监督方式分析小数据学习的泛化误差和标签复杂性。通过这些理论分析，我们从两个几何角度对小数据学习模型进行了分类: 欧几里得和非欧几里得(双曲)均值表示，并给出了它们的优化解。随后总结了一些可能受益于小数据学习的潜在学习场景，并对其潜在的学习场景进行了分析。最后，一些具有挑战性的应用，如计算机视觉，自然语言处理，可能受益于学习小数据也被综述。

“那是一只猫在床上睡觉，男孩在拍大象，那些是要坐飞机的人，那是一架大飞机……”李飞飞说:“这是一个三岁的孩子在描述她看到的图片。”2015年1月，她在科技娱乐设计(TED)上发表了一篇著名的演讲“我们如何教计算机理解图片”。在现实世界中，人类可以根据自己的先验知识，只依靠一张图片来识别目标和场景。然而，机器可能需要更多。在过去的几十年里，人工智能(AI)[1][2]技术通过学习大数据[3][4]，帮助机器变得像人类一样聪明。通过对人类大脑神经元的传播进行建模，构建了一系列具有表现力的AI系统，如深蓝[5]，AlphaGo[6]。当然，人工智能的天赋不是天生的。大数据训练有助于人工智能识别不同的目标和场景。在处理大数据方面，采用MapReduce[7]、Hadoop[8]等技术访问大规模数据，提取对AI决策有用的信息。具体来说，MapReduce分布在多个异构集群上，Hadoop通过云提供商处理数据。然而，尽管我们采用了这些大数据处理技术，但对大规模数据进行训练和注释的成本相当高。

一种新颖的观点认为，小数据革命正在进行，对小数据进行训练，使其具有预期的性能是人工智能的最终目的之一。从技术上讲，人类专家希望缓解对大数据的需求，为AI系统找到新的突破，特别是深度神经网络[9]的配置。相关工作包括有限标签[10][11]、较少标签[12][13][14]、较少数据[15][16]等，已经被低资源深度学习研究者实现。在形式上，少样本学习[17]被称为低资源学习(low-resource learning)，是一个以有限信息研究小数据的统一课题。基于Wang等人的综述[18]，少样本学习的一个显式场景是特征生成[19]，即根据给定的有限或不足的信息生成人工特征。另一种具有隐式监督信息的场景更具挑战性，它依赖于用那些高信息量的样例(如私人数据)对学习模型[19][20]进行再训练。理论上，大多数的少样本学习场景是被动的，即标签分布是由一个指定的抽样场景显式控制的。因此，主动学习[21]吸引了我们的眼睛，其中标签获取是由学习算法或人类控制的。

与少样本学习不同，主动学习的注释场景没有那么有限。主动学习算法可以随时停止迭代采样，因为算法性能不理想，或者注释预算耗尽。主动学习有两类: 假设类[22]上的主动抽样理论和实现场景[23]上的主动抽样算法，其中理论研究给出了这些算法范式的标签复杂性和收敛性保证。典型的理论分析来自PAC ((Probably Approximately Correct))[24]风格，它针对诸如[25]这样的不可知论设置。为了控制主动采样，存在一种搜索目标数据的误差不一致系数，该系数能最大限度地提高假设更新，其中这些更新要求是积极的、有帮助的。因此，主动抽样也是一个假设剪枝[26]的过程，它试图从给定的假设类中找到最优假设，其中假设从版本空间[27][28]维持到类的决策边界[29]。在几何上，封闭类的版本空间通常嵌入在一个管状结构[30][31]中，该管状结构与球面类具有同胚拓扑。

对小数据的学习对于推进人工智能至关重要。少样本学习作为一个先行课题，对有限数据训练进行了探索。而少样本学习的设置是一个被动的场景，任务本身规定的标签信息不足。同时，它的泛化性能几乎没有理论保证。这促使我们对小数据的学习进行理论分析。利用主动抽样理论，我们遵循PAC框架提出了一组用于小数据学习的误差和标签复杂性边界。为了总结这些算法范式，我们然后将小数据学习模型分为:欧几里得和双曲(非欧几里得)表示，包括它们的深度学习场景。具体地说，这项综述的贡献总结如下。

我们提出了小数据学习的形式化定义。该定义是一个模型无关的设置，从机器学习的角度派生出一个更一般化的概念。
从PAC的角度来看，我们首先提出了通过主动抽样理论学习小数据的理论保证。给出了小数据学习的泛化误差和标签复杂度界。
从几何的角度，我们将小数据学习模型分为两类:欧几里得表示和双曲表示，其中它们的优化求解器进行了分析。
我们调研了一些学习小数据的新方向，为潜在的学习场景和现实世界的挑战应用。

本综述的其余部分安排如下。第2节介绍了小数据学习的相关文献，包括少样本学习和主动学习。第3节给出了关于小数据学习的正式定义，并给出了它的PAC分析，包括标签复杂度和泛化误差边界。第4节从几何角度介绍了学习小数据的欧几里得和非欧几里得范式，第5节介绍了相关的优化求解器。之后，第6节讨论了学习小数据表示的潜在场景，第7节介绍了具有挑战性的场景。然后，第8节介绍一些关于小数据的有趣应用。第9部分是本次综述的最后结论。

小数据学习方法

随着对小数据学习需求的不断增加，我们探索在未来不同的方向上促进小数据表示的模型学习，包括迁移学习、元学习、强化学习、对比学习和图表示学习等。在本节中，我们将介绍这些学习主题，并解释在小数据上学习的潜力。

基于小数据的迁移学习

大多数机器学习理论都基于一个共同的假设:训练数据和测试数据遵循相同的分布。然而，这种假设过于严格，无法满足，或者在许多现实场景中可能不成立。迁移学习[116]摆脱了这一假设的约束(即训练和测试数据可以来自不同的分布或域)，其目的是挖掘不同域之间的域不变特征和结构，从而进行有效的数据和知识迁移。迁移学习是利用从源领域学习到的知识来提高模型在目标领域的能力，如将骑自行车的知识转移到开车的知识。

基于小数据的元学习

传统的机器学习模型通常是在特定任务的专属数据集上进行训练的，这就造成了泛化能力差的问题，即学习模型很难适应以前从未见过的任务。为了克服这一困难，元学习[121]利用广泛的元知识，例如在各种学习任务中调整学习参数，来教学习模型学习看不见的任务。

小数据的强化学习

强化学习[135]是一种强调通过奖励预期行为和/或惩罚意外行为来最大化预期收益的人工智能范式。在强化学习中，存在两个相互作用的对象:Agent和Environment。Agent可以感知环境的状态，并对环境的反馈进行奖励，从而做出合理的决策。也就是说，Agent的决策函数根据环境的状态采取不同的行动，而学习函数根据环境的奖励来调整策略，环境可以在Agent的行为的影响下调整自己的状态，并将相应的奖励反馈给Agent。

小数据对比学习

自监督学习[153]由于能够避免标注大规模数据集的成本而受到关注。它主要利用前置任务从无监督数据中挖掘监督信息。利用构建的监督信息，我们可以进行模型学习，获得对下游任务有价值的表示。与此同时，对比学习[154]、[155]、[156]、[157]、[158]最近成为自监督学习中的一个重要子课题，其目的是学习一种表示法，该表示法可以将具有对比损失的正对组合得更近，并将负对推离潜在嵌入空间。图4展示了对比学习中的一个学习步骤。

小数据的图表示学习

图是一种常用的数据结构，用于描述社交网络、推荐系统等复杂系统。在过去的几年中，由于图的强大表达能力，图表示学习[163]逐渐引起了机器学习界的关注，它旨在建立能够从非欧几里得数据中高效学习的模型。与此同时，各种图神经网络[164]应运而生，它们在结构化数据挖掘任务中显示出巨大的潜力，如节点分类、链接预测或图分类等。然而，当这些图数据挖掘任务遇到许多无监督/有监督的场景，其中很少，甚至没有有效的数据或标签存在，如何提高这些任务在图上的性能，并在这些情况下获得一个鲁棒的模型?同时，图神经网络的关系结构发现[165]、[166]、[167]、表征能力[168]等有意义的子主题也有待探索，从数据表示的角度来看，可能也需要有效的思路。针对上述问题，对小数据的学习可以提供必要和强大的支持，由于其可观的数据发现效率和较强的表示能力，可以促进图表示学习的发展。特别地，图5给出了GNN的一般设计流程。在该设计流程的方案下，GNN可分为递归图神经网络、卷积图神经网络、图自编码器和时空图神经网络。分类的详细描述如下[164]。

本文目的在于学术交流，并不代表本公众号赞同其观点或对其内容真实性负责，版权归原作者所有，如有侵权请告知删除。

“综述专栏”历史文章

请点击文章底部“阅读原文”查看

分享、点赞、在看，给个三连击呗！

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

跟着南通住建局学“朝令夕改”

小数据如何学习？吉大最新《小数据学习》综述，26页pdf涵盖269页文献阐述小数据学习理论、方法与应用

一文综述「联邦图机器学习」，概念、技术、应用全都有

万字长文详解：人工智能系统可解释性要求的法律规制

ICLR 2022的10篇论文推荐

IJCAI 2022 | 图结构学习最新综述：研究进展与未来展望

一篇适合新手的深度学习综述！

一文详解神经信息检索领域的最新进展

工业缺陷检测深度学习方法综述

马毅沈向洋曹颖最新AI综述火了！

可信图神经网络综述: 隐私, 鲁棒性, 公平和可解释性

2022年最新动态图神经网络（Dynamic GNN）综述

上海交大&华为：“非完全监督下基于深度学习的图像分割方法”最新综述

自动驾驶轨迹预测

重磅发布 | 图像图形学发展年度报告综述专刊《中国图象图形学报》2022年第6期

IoU、GIoU、DIoU、CIoU损失函数的那点事儿

Transformers中稀疏自注意力综述，及其在视觉跟踪中应用（IJCAI2022）

更多综述专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

跟着南通住建局学“朝令夕改”

生成图片，分享到微信朋友圈

小数据如何学习？吉大最新《小数据学习》综述，26页pdf涵盖269页文献阐述小数据学习理论、方法与应用

更多综述专栏文章，

请点击文章底部“阅读原文”查看

您可能也对以下帖子感兴趣