论文标题:A Simple Framework for Contrastive Learning of Visual Representations论文链接:https://arxiv.org/abs/2002.05709代码链接:https://github.com/google-research/simclrsimCLR背后的思想非常简单:视觉表征对于同一目标不同视角的输入都应具有不变性。simCLR对输入的图片进行数据增强,以此来模拟图片不同视角下的输入。之后采用对比损失最大化相同目标在不同数据增强下的相似度,并最小化不同目标之间的相似度。用下面这张图来说明:simCLR的架构由两个相同的网络模块组成。对于每一个输入网络的minibatch:
论文标题:Reducing Word Omission Errors in Neural Machine Translation: A Contrastive Learning Approach论文链接:https://www.aclweb.org/anthology/P19-1623/神经机器翻译(NMT)近几年发展迅速,成果喜人,但仍然存在一些问题:NMT系统容易省略基本单词,恶化了机器翻译的充分性。由于神经网络缺乏可解释性,很难解释这些遗漏错误是如何发生的,也很难用逻辑规则的方式来消除它们。用对比学习的思想解决该问题,其基本思想仍然与对比学习的思想是一致的:
该文章利用了与所谓的触发词相关的训练语料库的特征结构,它负责在代词消解中翻转答案,从而构造两两对比的辅助预测来实现这样的常识推理。在上面的例子中,big,small充当触发词。考虑到触发词所建立的上下文,候选答案A在第一句中要么是对的,要么在第二句中是对的【另一句是错的】。由于答案在第一句中要么是对的,要么在第二句中是对的【另一句是错的】,则有关系所以从例子中可以看出,触发词产生了训练对的相互排斥关系。该方法的目标是将这种成对关系作为训练阶段的唯一监督信号。所以这里引入互斥损失(Mutual Exclusive (MEx) loss ),最大限度地提高这两个看似合理的候选项的相互排斥概率。具体来说,给定一对训练句子,将要解决的代词从句子中屏蔽(mask)掉,并使用语言模型来预测这样的候选词中只有一个可以填充mask的位置,而填充互斥条件。
2.2 对比损失
然后是对比损失:所以二者联合即可
3. 通过对比学习无监督无参考评估摘要质量
论文标题:Unsupervised Reference-Free Summary Quality Evaluation via Contrastive Learning论文链接:https://www.aclweb.org/anthology/2020.emnlp-main.294/代码链接:https://github.com/whl97/LS-Score本文设计了一种新的度量,它既涵盖了基于BERT的语言质量,也涵盖了语义信息性。为了学习度量,对于每个总结,我们针对总结质量的不同方面构造了不同类型的负采样,并对我们的模型进行了rank loss(即Contrastive Loss)的训练。评价可以分为三类:
评估器训练好后,那么在评估器基础上,就可以定义二者现成的scoring函数。对于给定的良好摘要,发出一些噪音,例如打乱单词/句子的顺序,来创建一个质量更差的摘要。然后,比较这两个摘要,以获得一个对比损失。在给定一个基本的摘要集合R,对于R中的一个摘要 r 有生成相应噪声变体集$\hat X_r$,损失函数如下:
4. 神经对话生成的分组对比学习
论文标题:Group-wise Contrastive Learning for Neural Dialogue Generation论文链接:https://www.aclweb.org/anthology/2020.findings-emnlp.70代码地址:https://github.com/hengyicai/ContrastiveLearning4Dialogue本文将对比学习引入对话生成,模型明确感知积极和消极话语之间的差异。在对比学习过程中,训练目标对话模型,仍然满足这样一条主线——使正样本具有更高的条件概率,负样本具有更低的条件概率。为了处理人类对话中普遍存在的多映射关系,本文采用分组对偶抽样的方法来增强对比学习。从对比学习的角度来看,鉴别器在对抗性学习中,能够设定地认为人的回复为正样本,合成的回复是负样本。然后,通过对话生成模型,将匹配的正样本对拉在一起,并将不匹配的负样本对在潜在空间中分开,这样就能明确考虑人类对话中的多映射关系。即,对于上下文 c 及其回复 r ,训练目标对话模型,使正样本具有更高的条件概率$p(r|c)$,给定一个训练上下文-回复对 ,对于上下文“What are your hobbies? I love to cook.“,多个高度匹配的回复被组织为正样本 ,不匹配的对话被认为是负样本 。反过来,关于“Reading is my favorite hobby”的回应,多个抽样的上下文话语类似地分为 和 。这样就可以把句子完全的分为两类进行对比学习了。输入:给定包含上下文回复对 的训练数据 D 。输出:生成对话
上面虽然推导了那么多公式,但实际只是按照 NCE 的思想进行问题的转换,那么这样做究竟是否正确呢?我们再看回(12)式,我们对它关于 进行求导:分布对上面的两项分别进行求导:(15),(16)代入(14)中,可得:如果负样本与正样本比例 ,那么:可以看到,(18)与(2)中 MLE 对数似然函数梯度是等价的,也就是说我们通过 NCE 转换后的优化目标,本质上就是对极大似然估计方法的一种近似,并且随着负样本和正样本数量比k的增大,这种近似越精确,这也解释了为什么作者建议我们将 k 设置的越大越好。
[1]Raia Hadsell, Sumit Chopra, and Yann LeCun. 2006. Dimensionality reduction by learning an invariant mapping. In CVPR.[2]Schroff, F. Kalenichenko, D.and Philbin, J. 2015. Facenet: A unified embedding for face recognition and clustering. In Proc. IEEE Conf. Comput. Vis. Pattern Recognit.[3]Michael Gutmann and Aapo Hyvärinen. 2010. Noise-contrastive estimation: A new estimation principle for unnormalized statistical models. In Proc. AISTATS.[4]Andriy Mnih and Y ee Whye Teh. 2012. A fast and simple algorithm for training neural probabilistic language models. In Proc. ICML.[5]Gutmann, M.U. and Hyv¨ arinen, A. Noise-contrastive estimation of unnormalized statistical models, with applications to natural image statistics. Journal of Machine Learning Research, 13:307–361, 2012.
[6]Aaron van den Oord, Yazhe Li, and Oriol Vinyals. Representation learning with contrastive predictive coding. arXiv preprint arXiv:1807.03748, 2018.