查看原文
其他

COLING 2022 | 清华美团提出DABERT:针对匹配任务的双通道注意力增强预训练模型

段成真 PaperWeekly 2022-12-14

©PaperWeekly 原创 · 作者 | 段成真

单位 | 小米AI Lab

研究方向 | 自然语言处理



论文标题:

DABERT: Dual Attention Enhanced BERT for Semantic Matching

论文链接:

https://arxiv.org/abs/2210.03454




论文动机

短文本语义匹配一直是一个非常热门的方向,广泛应用在工业界搜索、推荐、广告等领域的召回排序模块。虽然 BERT 等基于 Transformer 的预训练语言模型在语义句子匹配方面取得了显著成果。但是现有匹配模型一直有很严重的问题,那就是模型存在捕捉细微差异的能力不足的问题,这就给引擎在长冷相关性判断上带来了很大的挑战,如果识别出文本对中的细微差异,可以为用户提供更好的用户体验。

例如下图的例子,诸如单词的添加,删除和修改句子之类的细微改动可能会导致语义预测错误。尽管图中的句子对在语义上有所不同,但它们在字面上过于相似,以至于那些预先训练好的语言模型无法准确区分。


那么这个时候如何让模型感知到这些差异,增强模型对文本的理解?这就是本文要解决的问题。




模型设计

前人的工作例如 De attention(ICLR 2019)和 Sparsegen(ICML 2016)已经证明,配备了结构更灵活的注意机制,模型可以产生更强大的表示。作者延续上述前人论文的思想侧重于增强基于变换器的预训练模型中的注意机制,以更好地整合句子对之间的差异信息。具体来说他们假设,更多地关注细粒度语义差异,将差异和亲和向量显式建模在一起,将进一步提高预训练模型的性能。因此,自然而然就会有下面两个问题:

问题 1:如何使预训练模型具备对句子对之间细粒度差异的建模能力?

问题 2:如何在不破坏预训练模型已有知识的前提下融合异构信息?

围绕上面的的两个问题,本文设计了一个双通道注意力网络,在建模差异信息的同时尽量减少对预训练模型已有知识的破坏,模型的整体结构如下:


2.1 Dual Attention Module

针对第一个问题,本文提出一种双注意模块,它在多头注意中使用双通道机制来匹配两个句子之间的单词。每个通道使用不同的注意头分别计算亲和力和差异分数,并获得两种表示分别测量亲和力和差别信息。

1)亲和注意力:他的目的是获得文本对中任意词对的亲和度。它是标准的点积注意,在 Transformer 的默认操作保持一致。为了简单起见,Transformer 的公式在此不再重复,请参阅 attention is all you need ,公式如下:


2)差异注意力:差异注意力模块被用于捕获和聚合句子对之间的差异信息。一个最简单的想法就是使用基于减法的交叉注意机制,这种方法在预训练模型之前被用于构建强特征,例如 ESIM、BIMPM 等,这种方法使得模型可以去注意句子对之间的不同部分,具体公式如下所示:


这样,通过亲和注意和差异注意来拟合句子对的细粒度语义匹配关系,并分别从亲和和差异的角度获得相同维度的表征。最后获得对描述句子匹配的更详细的两个表示。那么如何将他们融合呢?这就回到了模型设计的第二个问题。


2.2 Adaptive Fusion Module

针对第二个问题,本文提出了一种新的自适应融合模块来融合这两个信号,而不是直接融合(即平均嵌入向量),作者在实验中证明直接融合可能会损害预训练模型的原始表示能力,这个也比较符合人类的直觉。

融合过程包括三个步骤。首先,它通过多模态常用的双线性注意力函数灵活的交互和对齐这两个信号。其次,采用多个门模块有选择地提取交互语义信息。最后,为了减轻差分信号对预训练模型的破坏,还利用滤波门控自适应滤除噪声信息,最后生成更好地描述句子匹配细节的向量。

1)双线性 attention,多模态中常用这种操作,在此不做详述,公式如下:


2)融合门控,也是常规操作,动态对每个 position 的向量加权融合,公式如下:


3)过滤门控,在上面两个门控之后,作者还使用了缩放的门控来控制整体整体信息对模型的影响,有点类似搜索中词权重的模型,作者在消融实验中也证明了这种方法的重要性,具体公式如下,


最后这些生成的向量在过滤门进一步缩放后,得到一个输出的最终向量既包含了词对的亲和度也包含了词对之间的差异,从而可以更好地描述句子对的匹配细节。



实验设计

作者在实验部分不仅在多个匹配数据集上进行了模型效果的展示,而且还使用了鲁棒性测试工具 TextFlint 对模型的鲁棒性进行了测试。

1)GLUE 数据集:作者在 6 个 GLUE 数据集上 finetune DABERT,下表显示了 DABERT 和其他基线的性能比较。可以看出,由于 PLMs 具有较强的上下文感知能力和数据拟合能力,使用非预处理模型的性能明显不如预训练模型。当主干模型 BERT-base 和 BERT-large 时,DABERT的平均精度分别比普通 BERT 提高 1.7% 和 2.3%。这也证明了融合差异关注对挖掘语义的优点。


2)TextFlint 鲁棒性测试:作者在 Quora、SNLI、MNLI 三个数据集上进行了鲁棒性测试,在实体数字替换、风格转换、单词符合增删等不同转换场景下的效果都远好于基线模型。





总结

短文本语义匹配是一个比较基础的自然语言处理任务,在 BERT 出来之后很少有专门针对这项任务进行改进的工作,作者另辟蹊径,针对匹配任务独有的问题挑战,创新性的将差异信息融合的预训练模型中,这种方法有很高的借鉴意义,在工业界落地有一定的指导意义,整体来看是一篇很好的工作。


更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍

现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧

·


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存