多源迁移学习相关研究回顾

原创张玮玮 PaperWeekly 2022-07-04

收录于合集

#迁移学习 7 个

#机器学习 86 个

©PaperWeekly 原创 · 作者｜张玮玮

学校｜东北大学硕士

研究方向｜情绪识别

迁移学习中大多数工作在研究单个源域到单个目标域的学习，在实际生活中，应用的时候会碰到很多有标注样本的不是来自单个源域的，有可能来自很多个源域。这些源域数据具有不同的分布，但又具有相关的特征。

下面将通过三篇论文介绍一下多源迁移学习的相关研究。

Boosting for transfer learning with multiple sources

论文标题：Boosting for transfer learning with multiple sources

论文链接：https://ieeexplore.ieee.org/document/5539857

这篇论文是特别经典的多源迁移学习论文，也是在 TrAdaBoost（W. Dai, Q. Yang, 2007）框架基础上提出的算法。相对于 TrAdaBoost 只依赖一个源域，算法很容易受到负迁移的影响。这项工作提出了多源迁移学习的问题，以改进目标分类器的训练，并且提出了 MultiSource-TrAdaBoost 与 TaskTrAdaBoost 算法。

图1（b）与图1（c）表示两种算法的概念图。MultiSource-TrAdaBoost 标识出来自不同源域的哪些训练实例可以与目标训练实例一起重用，以增强目标分类器。TaskTrAdaBoost 使用参数传递方法，提取出构成源任务分类器模型的参数。

由于源任务是显式描述的，而不是通过带标记的源训练数据隐式描述的。出于这个原因，这个基于参数迁移的方法可以被认为是一个 task-transfer 方法，其中子任务来自各种源任务，可以重复利用，加上目标训练实例，来提高目标分类器。

1.1 MultiSource-TrAdaBoost

首先介绍一下 TrAdaBoost 算法，其主要思想是：给定了某种训练方法，最终分类器是各迭代中分类器的加权和。源域数据与目标域数据合成一个训练集，并将训练集里面的样本赋予一个相同的初始权重，并将权重信息与样本信息组合起来得到一个初始基分类器。

然后计算基分类器在目标域测试集上误差，此误差与目标域相关程度有关。然后计算基分类器的权重，权重值越高就说明此基分类器的权重越大，相反权重变低。在得到新的权重以后，将新权重的样本数据中挑选并训练得到新的分类假设。

源域数据可能不止一个的时候，即存在多个源域数据集，并且每个数据集相对目标域来说可具有不同的迁移性。在这种情况下 Tr AdaBoost 算法比较容易产生负迁移。

MultiSource-TrAdaBoost 算法不是单纯地从一个源到另外一个源域的知识迁移，而是从多个源同时进行知识的迁移，从这些源域数据中可以确定一个与目标域最相关的源域。

算法每次迭代以目标域训练数据集与各个源域训练数据集的并集训练基分类器，且以此基分类假设在目标领域上训练出的误差最小的时候作为该循环的基分类器，权重更新策略与 Tr AdaBoost 相似。

1.2 TaskTrAdaBoost

在算法 2（phase i）和算法 3（phase ii）中分别给出了该方法的详细描述。阶段 i 只是每个源训练数据的 AdaBoost 运行，输出是所有候选弱分类器的集合。

阶段 ii 是在目标训练数据上的 AdaBoost 循环。但在每次迭代时，从中选取对目标训练数据分类误差最小的弱分类器，确保传递与目标任务关系更密切的知识。此外，目标训练实例权值的更新驱动搜索下一个最需要的子任务的转移，以增强目标分类器。

MFSAN

论文标题：Aligning Domain-Specific Distribution and Classifier for Cross-Domain Classification from Multiple Sources

论文来源：AAAI 2019

论文链接：https://www.aaai.org/ojs/index.php/AAAI/article/view/4551

代码链接：https://github.com/easezyc/deep-transfer-learning

这是一篇将多源迁移学习和领域自适应结合起来的论文，论文的框架结构非常清晰明了。基于深度学习的多源无监督域自适应（MUDA）算法主要通过在一个公共特征空间中对齐源和目标域对的分布来提取所有域的共同域不变表示，同一空间的域特征损失函数如下所示：

然而，在 MUDA 中为所有域提取相同的域不变表示通常非常困难。此外，这些方法匹配分布时不考虑类之间特定领域的决策边界。本文提出了一个具有两个对齐阶段的 MUDA 新框架，该框架不仅对每对源域和目标域在多个特定特征空间中的分布进行了分别对齐，而且利用领域特定的决策边界对分类器的输出进行了对齐。

2.1 Two-stage alignment Framework

本文提出包括三部分：1）Common feature extractor ：作为特征提取器的一个子网络，用于提取所有领域的共同特征 2）Domain-specific feature extractor：将每对源领域-目标域的提取特征映射到一个特定特征空间 3）Domain-specific classififier ：由2）后对每对特定领域进行softmax分类输出对其使用交叉熵损失函数：

1.2 Domain-specific Distribution Alignment

为了实现第一个对齐阶段（对齐每对源域和目标域的分布），论文选择最大平均差异（MMD）（Gretton et al. 2012）作为对两个域之间差值的估计。

论文使用上式作为每个源域和目标域之间差异的估计。MMD 损失表述为：

每个特定的特征提取器都可以通过最小化 MMD 方程来学习每个源和目标域对的域不变表示。

1.3 Domain-specific Classifier Alignment

由于分类器是在不同的源域上训练的，因此它们对目标样本特别是类边界附近的目标样本的预测可能会产生分歧。直观上，不同分类器预测的相同目标样本应该得到相同的预测结果。

因此，第二个对齐阶段是最小化所有分类器之间的差异。本文利用目标域数据中所有分类器对概率输出的差值的绝对值作为差异损失。

通过最小化上式，所有分类器的概率输出是相似的。最后，为了预测目标样本的标签，计算所有分类器输出的平均值。

1.4 Multiple Feature Spaces Adaptation Network

靠近类边界的目标样本容易被误分类，为此，论文提出了一个多特征空间适应网络（简称 MFSAN）。框架由一个共同特征提取器、N 个源域特定的特征提取器和 N 个源域特定的分类器组成。

总的来说，损失由三部分组成，分类损失，MMD 损失，disc 损失。通过最小化分类损失，网络可以对源域数据进行准确分类；通过最小化 mmd 损失来学习领域不变表示；通过最小化 disc 损失来减少分类器之间的差异。总损失用公式表示：

1.5 Experimental Results

论文将 MFSAN 与三个基准数据集进行比较，结果分别如表 1、表 2 和表 3 所示。论文还比较了 Office-31 数据集上没有 disc 损失的 MFSAN，并在表 4 中列出了来自不同源域的分类器的结果。

论文标题：Multi-Source Domain Adaptation for Text Classification via DistanceNet-Bandits

论文来源：AAAI 2020

论文链接：https://arxiv.org/abs/2001.04362

这是一篇多源迁移学习运用在 NLP 背景下的文本分类的论文，来自于 AAAI 2020。论文设计了一个使用多个距离测度或距离测度的混合的距离网模型，作为附加的损失函数，与任务的损失函数共同最小化，从而实现更好的无监督域自适应。

并且将该方法扩展到一种 DistanceNet-Bandit 模型，该模型使用多臂赌博机控制器在多个源域之间动态切换，并允许模型学习一个最优的轨迹和混合域以便转移到低资源目标域。

3.1 Domain Distance Measures

首先介绍一下几种常见的领域距离测量方法。

Distance：距离测量源域和目标域样本之间的欧氏距离

Cosine Distance：余弦相似度是内积空间的两个向量之间的相似度的度量。

Maximum Mean Discrepancy（MMD）：最大均值差异是迁移学习中使用频率最高的度量。Maximum mean discrepancy，它度量在再生希尔伯特空间中两个分布的距离，是一种核学习方法。两个随机变量的 MMD 平方距离为：

Fisher Linear Discriminant：通常情况下，使用最优作为域距离的表示：

其中：

Correlation Alignment（CORAL）：Correlation Alignment（CORAL）定义为源样本与目标样本的二阶统计量之间的距离：

Mixture of Distances：在论文中证明了没有任何一种距离度量优于其他所有的距离度量。另外，虽然不同的距离度量提供不同的域距离估计，但每种距离度量都有其缺陷。因此，距离度量的混合是非常有用的：

但随意地将混合所有的距离测量方法会引入不必要的超参数。

3.2 Models

论文设计了三个对比模型：Baseline Model、DistanceNet 和 Dynamic Multi-Source DistanceNet using Multi-Armed Bandit

3.2.1 Baseline Model

给定一个序列，首先将这些嵌入到向量表示。LSTM-RNN 的输出是。

标签的概率分布由全连接层产生。损失函数采用交叉熵损失：。

3.2.2 DistanceNet

模型框架如左上图所示，在分类损失的基础上增加域距离项来形成模型的损失函数，损失函数与单个源域的损失函数类似：

3.2.3 Dynamic Multi-Source DistanceNet using Multi-Armed Bandit

DistanceNet 描述了在单一源/目标域上拟合模型的方法。然而，当访问多个源域时，就需要更好的方法来利用这些额外的学习信号。一个简单的方法是将这些多个源域视为单个大源域，并像上述模型一样应用前面描述的算法。

但是，随着模型表示在整个训练过程中发生变化，能够提供最有信息的训练信息可能会随着训练过程的变化而改变。这也与目标域在一段时间内学习每个源域的权值有关（Ben-David et al. 2010）。因此，动态选择源域的顺序以在目标域任务上实现最佳结果可能更有利。

如右上图所示，论文引入了一种多臂赌博机控制器，用于在训练期间动态改变源域。将控制器建模为 M 臂赌博机（其中 M 是候选域的数量），其目标是选择一系列候选域，以最大化预期的未来回报。在每一轮循环中，赌博机基于噪声值估计选择一个候选域并观察奖励。

更具体地说，随着训练的进行,控制器选择的一个训练领域和任务模型在选定的领域使用指定的损失函数，性能验证数据将被反馈给赌博机作为奖励。

在候选域选择时，使用上置信界算法（upper confifidence bound）来选择候选域：

3.3 Experimental Results

表 4 显示了当源域和目标域不同时 Baseline Model 和 DistanceNet 的结果，其中最后一列显示平均结果。与表 3 中的数字进行比较，可以看到，当数据分布发生变化时，性能会下降。

通过添加域距离度量作为额外的损失项，该模型能够缩小域内和域外之间的差距。特别是，在平均结果方面，所有的模型都比 Baseline Model 表现得更好。

更多阅读

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

📝 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

📬 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

比国产光刻机更重要的IPO要来了！

多源迁移学习相关研究回顾

1.1 MultiSource-TrAdaBoost

1.2 TaskTrAdaBoost

2.1 Two-stage alignment Framework

1.2 Domain-specific Distribution Alignment

1.3 Domain-specific Classifier Alignment

1.4 Multiple Feature Spaces Adaptation Network

1.5 Experimental Results

3.1 Domain Distance Measures

Distance：距离测量源域和目标域样本之间的欧氏距离

Cosine Distance：余弦相似度是内积空间的两个向量之间的相似度的度量。

Maximum Mean Discrepancy（MMD）：最大均值差异是迁移学习中使用频率最高的度量。Maximum mean discrepancy，它度量在再生希尔伯特空间中两个分布的距离，是一种核学习方法。两个随机变量的 MMD 平方距离为：

Fisher Linear Discriminant：通常情况下，使用最优作为域距离的表示：

Correlation Alignment（CORAL）：Correlation Alignment（CORAL）定义为源样本与目标样本的二阶统计量之间的距离：

Mixture of Distances：在论文中证明了没有任何一种距离度量优于其他所有的距离度量。另外，虽然不同的距离度量提供不同的域距离估计，但每种距离度量都有其缺陷。因此，距离度量的混合是非常有用的：

3.2 Models

3.2.1 Baseline Model

3.2.2 DistanceNet

3.2.3 Dynamic Multi-Source DistanceNet using Multi-Armed Bandit

3.3 Experimental Results

您可能也对以下帖子感兴趣

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下 一生守护”慈善项目捐赠仪式圆满举行！

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

比国产光刻机更重要的IPO要来了！

生成图片，分享到微信朋友圈

多源迁移学习相关研究回顾

1.1 MultiSource-TrAdaBoost

1.2 TaskTrAdaBoost

2.1 Two-stage alignment Framework

1.2 Domain-specific Distribution Alignment

1.3 Domain-specific Classifier Alignment

1.4 Multiple Feature Spaces Adaptation Network

1.5 Experimental Results

3.1 Domain Distance Measures

Distance： 距离测量源域和目标域样本之间的欧氏距离

Cosine Distance：余弦相似度是内积空间的两个向量之间的相似度的度量。

Maximum Mean Discrepancy（MMD）：最大均值差异是迁移学习中使用频率最高的度量。Maximum mean discrepancy，它度量在再生希尔伯特空间中两个分布的距离，是一种核学习方法。两个随机变量的 MMD 平方距离为：

Fisher Linear Discriminant：通常情况下，使用最优 作为域距离的表示：

Correlation Alignment（CORAL）：Correlation Alignment（CORAL）定义为源样本与目标样本的二阶统计量之间的距离：

Mixture of Distances：在论文中证明了没有任何一种距离度量优于其他所有的距离度量。另外，虽然不同的距离度量提供不同的域距离估计，但每种距离度量都有其缺陷。因此，距离度量的混合是非常有用的：

3.2 Models

3.2.1 Baseline Model

3.2.2 DistanceNet

3.2.3 Dynamic Multi-Source DistanceNet using Multi-Armed Bandit

3.3 Experimental Results

您可能也对以下帖子感兴趣

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！

Distance：距离测量源域和目标域样本之间的欧氏距离

Fisher Linear Discriminant：通常情况下，使用最优作为域距离的表示：