查看原文
其他

陈丹琦组最新力作:仅需dropout两次的对比学习框架

张琨 PaperWeekly 2022-07-04


©PaperWeekly 原创 · 作者|张琨

学校|中国科学技术大学博士生

研究方向|自然语言处理




论文动机


自监督学习中的对比学习已经成为目前一个新的研究方向。其核心思想是缩短两个正样本之间的距离,拉大负样本之间的距离,从而得到输入更好的表示。因此对比学习的重点研究内容就是如何进行正样本的选择,如何进行负样本的选择。

在计算机视觉领域,可以通过旋转,裁剪,变色,缩放等实现正样本的数据增强。但在自然语言处理领域,数据增强的方法还是一个需要深入研究的领域,通过删减某些词,同义词替换等方法可能会造成句子语义的改变,因此在自然语言处理领域使用对比学习还需要深入的研究。受 SimCLR 框架的启发,本文提出了一种简单但十分有效的方法用于生成句子的全局语义表征。


论文标题:

SimCSE: Simple Contrastive Learning of Sentence Embeddings


论文作者:

Tianyu Gao, Xingcheng Yao, Danqi Chen


论文链接:

https://arxiv.org/abs/2104.08821


代码链接:

https://github.com/princeton-nlp/SimCSE



背景


对比学习的主要是通过缩小正样本和锚点的距离,增大负样本和锚点之间的距离,从而学习到更好的输入表示,目前常用的优化目标是 InfoNCE,如下所示:


1. 正样本和负样本 

常规的,对比学习中的正样本一般都是通过数据增强的形式得到,例如 CV 中的图像旋转,变色,缩放等;NLP 中的同义词替换,词序替换,删减某些词等。负样本的选择一般都是选用 in-batch 的方法,一个 batch 中除了当前样本之外的其他样本都认为是负样本。 

2. 对齐和一致性 

目前已有一个工作提出了衡量对比学习学习到的表征好坏的方法 alignment 和 uniformtiy。在给定正样本对的分布之后,alignment 计算两个样本之间的期望距离如下公式:


uniformity 主要通过以下公式计算得到的表征是否是均匀分布的:



通过这两个指标就能够计算出对比学习的方法是否真正让正样本之间的距离更近,让负样本之间的距离更远。



方法


针对自然语言处理中的数据增强,本文分别提出了一种无监督的 SimCSE 和有监督的 SimCSE。模型结构具体如下图所示:


Unsupervised SimCSE 

本文的一个核心思想就是针对输入句子做不同的 dropout,从而得到同一个输入的两个表示,也即 dropout 引入的噪声作为数据增强的方法。极其简单。但作者通过将同一个句子输入到 BERT 模型中两次,得到两个表征,利用这两个表征来做数据增强,的的确确实现了更好的效果,真的是简单而有效。 

为了分析为什么 dropout 的方法有效,作者通过使用不同的 dropout rate 进行实验,同时使用 alignment 和 uniformity 来评估得到的输入表征效果,如下图所示。作者还是用了固定 dropout rate,删去一个词的数据增强方法作对比,从图中可以看出,确实作者提出的方法能够同时兼顾 alignment 和 uniformity 两个指标, 也说明了作者提出的方法确实有效。


Supervised SimCSE 

对比学习的思想的一大优势就是能够充分利用数据本身的特点,在无标注数据上使用有监督学习,那么如果有标注的话,是否可以取得更好的效果呢?

为了回答这个问题,作者在 SNLI 任务上进行了额外的训练。有了标注之后,作者就使用标签来选择正负样本,正样本就是 entailment 的句子对,负样本就是 contradiction 的句子对,通过这种形式,进一步增强所选择的正样本和负样本的性能,从而进一步提升所学习到的表征的效果。具体方法可以参见模型图。



实验结果


作者在 7 个 semantic textual similarity (STS) 数据集上进行相关的实验验证,下图是整个实验结果,从实验结果中看出,作者提出的这种方法还是取得了非常好的效果的。


除此之外,作者还进行了一些 transfer task 和消融实验,实验结果也说明了作者提出的方法的有效性。


更多的实验结果可以参考原文,本文的实验做的还是很全面和丰富的。



总结


本文是普林斯顿大学助理教授陈丹琦的一个工作,还是非常吸引人的,也说明了对比学习还有很多可以深入挖掘的。在 BERT 之后再堆叠复杂的模型结构正在变成一条越来越难走的路,那么是否可以站在 BERT 的肩膀上,深入挖掘数据本身的信息,回归数据挖掘的本质,从而取得更有意思的成果呢?


更多阅读




#投 稿 通 道#

 让你的论文被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。


📝 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) 

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志


📬 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site 

• 所有文章配图,请单独在附件中发送 

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存