查看原文
其他

EMNLP 2021 | ST-ToD:小样本场景下的任务型对话预训练

褚维芜 PaperWeekly 2022-07-04


©PaperWeekly 原创 · 作者 | 褚维芜

单位 | 北京邮电大学研究生

研究方向 | 自然语言处理


论文标题:

Self-training Improves Pre-training for Few-shot Learning in Task-oriented Dialog Systems

论文链接:

https://arxiv.org/abs/2108.12589

代码链接:

https://github.com/MiFei/ST-ToD




背景介绍
1.1 动机
在面向任务的对话(ToD)系统中,数据标注成本非常高,怎样利用有限的标注数据来训练任务型对话系统的各个模块是一个具有挑战的任务。因此,ToD 中的小样本学习在实际应用中具有重要的价值。虽然有标注的数据非常少,但实际的 ToD 系统实际有许多无标注的对话数据。因此,利用无标注的数据来改进 ToD 系统中各个模块的性能具有重要的现实意义。

1.2 主要工作

本文提出了一种自训练(Self-training)方法,该方法利用无标注的对话数据来改进基于预训练模型的 ToD 系统在少样本学习(few-shot learning)场景下的性能,主要贡献如下:

  • 本文是首次在小样本学习场景下研究自训练方法对现有的 ToD 预训练模型的影响。
  • 本文提出了一种自训练方法,该方法迭代地为无标注数据中模型预测的置信度最高的数据打上标签,这些伪标注数据可以用于训练更强的 Student 模型。此外,本文提出了一种新的文本增强技术(GradAug),即在 MLM 中只 mask 非关键字符,这种方式保留句子的语义信息,从而更好地训练 Student 模型。
  • 本文在 ToD 中的四个下游任务(意图分类、对话状态跟踪、对话行为预测和回复选择)上进行了实验,实验结果表明,本文所提出的自训练方法可以继续提高目前最先进的预训练模型(BERT、ToD-BERT)的性能。




下游任务介绍

任务定义
不同的下游任务的输入和对应的标签均定义为 ,预测模型定义为 通常情况下可以分为两个部分:一部分为特征提取器 ,本文使用的是 BERT 的 [CLS] 位置的输出作为隐状态表示 ;另一部分为用于预测的输出层,需要为不同的下游任务设计不同的输出层。

意图分类(Intent classification,IC)

意图分类是一个多分类任务,输入一个话语 ,模型在 个意图上预测该话语对应的意图,并采用交叉熵损失函数对模型进行优化。

对话状态追踪(Dialog state tracking,DST)
对话状态追踪也是一个多分类任务,输入一段对话历史 ,模型在每个 对上预测对应轮次的槽值。第 对上的第 个槽值 与输入 的余弦相似度分数为:

其中 为第 对的槽投影层, 的数目等于 对的数量。模型训练的损失函数为所有 对的交叉熵损失的和。
对话行为预测(Dialog act prediction,DA)
对话行为预测是一个多标签分类任务,输入一段对话历史 ,模型对当前对话轮次的对话动作进行 0-1 预测,采用 0-1 交叉熵损失函数对模型进行优化。
回复选择(Response selection,RS)
回复选择任务是一个排序问题,输入一段对话历史 ,该任务从回复候选池中检索最相关的系统回复。本文 2019 年 Henderson 等人 [1] 提出的双编码器模型计算输入对话历史 与第 个候选响应 之间的相似性。采用交叉熵损失函数。




3.1 自训练算法

本文所提出的自训练算法总体流程如上图所示。在训练过程中需要维护两个数据池:未标注数据 和已标注数据 ,两个版本的模型:。该算法可以分为五个步骤:
  1. 初始化 模型 (算法1 第1行)利用少量的标注数据(数据集的 1% or 10%)进行训练, 模型进行 warm up。
  2. 利用 模型对无标注的数据 的标签进行预测(算法 1 第 4-8 行)对于每一个输入数据 模型会对其标签进行预测 。本文将预测分数 设定为该预测的置信度分数 。注意:当预测 仅包含一个标签时(如:意图分类、回复选择), 为该输入数据 的预测标签对应的预测分数;当预测 包含多个标签时(如:对话状态追踪、对话动作预测), 为输入数据 的预测标签对应的预测分数的平均值。
  3. 根据置信度分数 选择 个实例进行标注(算法 1 第 9-10 行) 本文选择的方式是在置信度分数中选择最高的 个实例,并利用 对这些实例进行标注。这些标注的实例会从 转移到
  4. 对已标注数据 进行文本增强(GradAug),得到 (算法 1 第 11 行)
  5. 利用 来训练 模型(算法 1 第 12 行)本文在每次迭代中均需要重新初始化 模型以避免在多次训练迭代中过度拟合 中的初始和早期数据。一般而言, 应该具有与 同等的或更高的能力,才可以随着 中数据量不断地增加来学习知识。本文将 设置为与 相同的大小,并且实验证明了可以在不增加模型容量的情况下得到性能的提升。
  6. 用训练得到的 模型来覆盖原来的 模型,进行下一轮的训练(算法 1 第 13 行)

3.2 文本增强技术(GradAug)

本文对已标注的数据 提出了一种文本增强技术(GradAug),以此来学习更稳健的 模型。GradAug 使用 MLM(masked language model)来进行文本增强,不同于最佳提出的文本增强方式 SSMBA 采用随机 mask 的方式,GradAug 认为,如果一段文本中的关键词被 mask了,在重构文本时原始的语义将会被改变,这将对下游任务产生很大的影响。
如下图所示(左),如果“status”被 mask,重构的文本可能会是“purpose”、“route”这些词,语义本身被改变了。

基于此,本文提出的 GradAug 采用的是基于梯度的 mask 方式(Gradient-based token masking),对于每一个包含 个词的输入文本 ,GradAug 会根据该词对应任务标签的重要性生成一个 mask 概率 。具体而言可以分为三个步骤:
  1. 计算 (算法2 第3行) 对于输入 的嵌入矩阵为 和标签 ,每一个词对标签 的重要性是通过显著性映射(saliency map) 计算:
      通过将 进行微分(计算梯度)来得到文本中第 个词对标签 的重要性。然而原始梯度可能包含噪音,且可能在局部剧烈波动。因此,本文计算第 个词的平滑显著性度量(smooth saliency measure) 为:
    其中高斯噪声 。第 个单词被 mask 的概率 成反比,即该单词对标签 越重要,则其被 mask 的概率就越小:

    最后,利用 中元素的和对其进行标准化得到 mask 概率
  2. 根据 来对 中 15% 的词进行 mask得到 (算法 2 第 5 行)
  3. 用 MLM 来对 进行重构,得到原本文 的扩充文本 (算法 2 第 6 行)根据每个 [MASK] 的预测概率,从 10 个最可能的词中抽取 1 个词来进行重构。由于基于梯度的 mask 方案避免了替换对 的语义很重要的词,所以可以认为 的标签 是一样的。



实验

4.1 数据集、评测指标、Baseline

四个下游任务的评测指标和 TOD-BERT [2] 一致,共选用四个不同数据集:意图分类(OOS)、对话状态追踪(MWOZ)、对话动作预测(MWOZ、DSTC2、GSIM)、回复选择(MWOZ、DSTC2、GSIM)。实验中,随机抽取 1% 或 10% 的训练数据作为初始的标注数据 ,其余数据作为未标注数据 
本文将所提出的自训练方法(ST)分别应用于两个基线模型:BERT 和 TOD-BERT。
4.2 评测结果
4.2.1 意图分类

从表中可以看出,ST 在很大程度上提高了 out-of-scope 意图的召回率,表明它对具有噪声分布的 out-of-scope 意图具有更强的鲁棒性。另外,仅从实验结果来看,数据量越少,ST 相比于 baseline 的提升越明显。
4.2.2 对话状态追踪

从表中可以看出,ST 持续改进了 BERT 和 ToD-BERT 的性能。
4.2.3 对话动作预测

从表中可以看出,当使用 10% 标注数据时,BERT 和 ToD-BERT 的表现与它们的上界(Full)相似,ST 的改进幅度有限;当使用 1% 标注数据时,在两个较简单的数据集(DSTC2, GSIM)和 MWOZ 的 macro-F1 上,ST 对于模型的提升更明显。
4.2.4 回复选择

从表中可以看出,ST 在 BERT 之上可以有更大的性能提升。
4.3 其他实验




总结

本文提出的自训练方法和文本增强技术可以利用无标注数据来训练任务型对话系统,在小样本场景下取得了很好的性能。自训练的方法一方面可以为未标注数据打上伪标签,在很大程度上弥补了小样本学习和全数据之间的差距;另一方面,自训练可能成为未来研究可扩展的 ToD 系统的一种方式。

参考文献

[1] Henderson M , I Vulić,  Gerz D , et al. Training Neural Response Selection for Task-Oriented Dialogue Systems[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019. 

[2] Wu C S, Hoi S C H, Socher R, et al. TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogue[C]//Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020: 917-929.



特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。


更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存