引言大规模标记数据集推动深度学习获得了广泛应用,然而,在现实场景中收集足量的标记数据往往耗时耗力。为了减少对标记数据的需求,半监督学习和迁移学习的研究者们从两个不同的视角给出了自己的思考:半监督学习(Semi-supervised Learning, SSL)侧重于同时探索标记数据和无标记数据,通过挖掘无标记数据的内在结构增强模型的泛化能力,而迁移学习(Transfer Learning, TL)旨在将预训练模型微调到目标数据中,也就是我们耳熟能详的预训练-微调范式。半监督学习的最新进展,例如UDA,FixMatch等方法,证明了自训练(Self-Training)的巨大潜力。通过弱增广样本为强增广样本生成伪标记(pseudo-label),FixMatch就可以在Cifar10、SVHN、STL-10数据集上取得了令人耳目一新的效果。然而,细心的读者会发现,上述数据集都是类别数较少的简单数据集(都是10类),当类别数增加到100时,FixMatch这种从头开始训练(train from scratch)的自训练方法的表现就差强人意了。进一步地,我们在CUB200上将类别数从10逐渐增加到200时,发现FixMatch的准确率随着伪标签的准确率的下降而快速下降。这说明,随着类别数的增加,伪标签的质量逐渐下降,而自训练的模型也被错误的伪标签所误导,从而难以在测试数据集上取得可观的效果。这一现象,被前人总结为自训练的确认偏差(confirmation bias)问题,说明Self-training虽然是良药,偶尔却有毒。迁移学习在计算机视觉和自然语言处理中被广泛使用,预训练-微调(fine-tuning)的范式也比传统的领域适应(domain adaptation)约束更少,更具落地价值。然而,现有的迁移学习方法专注于从不同角度挖掘预训练模型和标记数据,却对更为容易获取的无标记数据熟视无睹。以迁移学习的最新方法Co-Tuning为例,它通过学习源领域类别和目标领域类别的映射关系,实现了预训练模型参数的完全迁移。然而,因为仅仅将预训练模型迁移到标记数据中,Co-Tuning容易过拟合到有限的标记数据上,测试准确率随着标记数据比例的减少而迅速下降,我们将这一现象总结为模型漂移(model shift)问题。为了摆脱迁移学习和半监督学习的困境,我们提出了一种称为数据高效深度学习(data-efficient deep learning)的新场景, 通过同时挖掘预训练模型和无标记数据的知识,使他们的潜力得到充分释放。这可能是迁移学习在工业界最为现实的落地场景:当我们试图获得目标领域的一个优秀模型时,源领域的预训练模型和目标领域的无标记数据几乎唾手可得。同时,为了解决前述的确认偏差和模型漂移问题,我们提出了一种称为Self-Tuning的新方法,将标记数据和无标记数据的探索与预训练模型的迁移融为一体,以及一种通用的伪标签组对比机制(Pseudo Group Contrast),从而减轻对伪标签的依赖,提高对伪标签的容忍度。在多个标准数据集的实验表明,Self-Tuning远远优于半监督学习和迁移学习的同类方法。例如,在标签比例为15%的Stanford-Cars数据集上,Self-Tuning的测试精度比fine-tuning几乎提高了一倍。