查看原文
其他

【强基固本】伪标签(Pseudo-Labelling)——锋利的匕首

大数据时代中,在推荐、广告领域样本的获取从来都不是问题,似乎适用于小样本学习的伪标签技术渐渐淡出了人们的视野,但实际上在样本及其珍贵的金融、医疗图像、安全等领域,伪标签学习是一把锋利的匕首,简单而有效。

作者:TripleLift

地址:https://www.zhihu.com/people/chao-yong-yao


01

什么是伪标签技术

伪标签的定义来自于半监督学习,半监督学习的核心思想是通过借助无标签的数据来提升有监督过程中的模型性能。
举个简单的半监督学习例子,我想去训练一个通过胸片图像来诊断是否患有乳腺癌的模型,但是专家标注一张胸片图像要收费,于是我掏空自己的钱包让专家帮我标注了10张胸片,可是我这10张图片又要划分训练集测试集,咋训练看着都要过拟合哇,这可咋办?
聪明的我问了问专家,说不标注的胸片要钱吗?专家一愣,不要钱,随便拿(此处忽略病人隐私的问题,单纯举例子)。于是我掏出1张标注的胸片,换了10张没标注的胸片,在专家还没缓过劲之前先溜了。
回到家里,我就开始了如图所示的半监督学习过程~
图1 伪标签技术
Emmm…
粗略来讲,伪标签技术就是利用在已标注数据所训练的模型在未标注的数据上进行预测,根据预测结果对样本进行筛选,再次输入模型中进行训练的一个过程。
但实际上,伪标签技术在具体应用的细节上,远没有说的如此简单,那让我们先看一下伪标签技术的具体做法吧。

02

伪标签的具体用法

伪标签技术的使用自由度非常高,在这里我们介绍最常用的也是最有效的三种,对于某些特殊场景,可能有更花哨的方法,这里希望能抛砖引玉,为大家拓宽一下视野。
入门版
1. 使用标记数据训练有监督模型M
2. 使用有监督模型M对无标签数据进行预测,得出预测概率P
3. 通过预测概率P筛选高置信度样本
4. 使用有标记数据以及伪标签数据训练新模型M’
图2 入门版伪标签技术
进阶版
1. 使用标记数据训练有监督模型M
2. 使用有监督模型M对无标签数据进行预测,得出预测概率P
3. 通过预测概率P筛选高置信度样本
4. 使用有标记数据以及伪标签数据训练新模型M’
5. 将M替换为M’,重复以上步骤直至模型效果不出现提升
图3 进阶版伪标签技术
创新版
1. 使用标记数据训练有监督模型M
2. 使用有监督模型M对无标签数据进行预测,得出预测概率P
3. 将模型损失函数改为Loss = loss(labeled_data) + alpha*loss(unlabeled_data)
4. 使用有标记数据以及伪标签数据训练新模型M’
图4 创新版伪标签技术
以上就是伪标签学习最常用的三种方法。
本着知其然、知其所以然的态度,下面介绍一下伪标签为何有效,在知道了为何有效后,才能找到其适合的场景,达到半监督学习的目的。

03

伪标签为何有效

在《Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks》论文中解释了伪标签学习为何有效,它的有效性可以在两个方面进行考虑,原文如下:
Low-Density Separation between Classes
“The goal of semi-supervised learning is to improve generalization performance using unlabeled data. The cluster assumption states that the decision boundary should lie in low-density regions to improve generalization performance (Chapelle et al., 2005). Recently proposed methods of training neural networks using manifold learning such as Semi-Supervised Embedding and Manifold Tangent Classifier utilize this assumption. Semi-Supervised Embedding (Weston et al., 2008) uses embedding-based regularizer to improve the generalization performance of deep neural networks. Because neighbors of a data sample have similar activations with the sample by embedding based penalty term, it’s more likely that data samples in a high-density region have the same label. Manifold Tangent Classifier (Rifai et al., 2011b) encourages the network output to be insensitive to variations in the directions of low-dimensional manifold. So the same purpose is achieved.”
Entropy Regularization
“Entropy Regularization (Grandvalet et al., 2006) is a means to benefit from unlabeled data in the framework of maximum a posteriori estimation. This scheme favors low density separation between classes without any modeling of the density by minimizing the conditional entropy of class probabilities for unlabeled data.”
作者考虑的两个点:
  • 根据聚类假设(cluster assumption),这些概率较高的点,通常在相同类别的可能性较大,所以其pseudo-label是可信度非常高的。(合理性)
  • 熵正则化是在最大后验估计框架内从未标记数据中获取信息的一种方法,通过最小化未标记数据的类概率的条件熵,促进了类之间的低密度分离,而无需对密度进行任何建模,通过熵正则化与伪标签具有相同的作用效果,都是希望利用未标签数据的分布的重叠程度的信息。(有效性)
图5 熵正则化方法
在理论外,伪标签技术给人的第一感觉就是利用置信度高的样本来提升模型的拟合能力。在聚类假设及熵正则化的角度上,这是符合我们的感受的,这也使得使用这项技术变得自然而然。
值得注意的是:当场景不满足 聚类假设 、熵正则化失效(样本空间覆盖密集)情况下,伪标签技术很有可能失效。在用之前判断适用条件,对症下药,才能将伪标签这把匕首的作用发挥出来。

本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。

直播预告




历史文章推荐



分享、点赞、在看,给个三连击呗!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存