「自然语言处理(NLP)论文推送」第四弹(会话响应生成相关--含源码)807
喜欢我们,点击上方AINLPer,关注一下,极品干货即刻送达!
引言
本次主要给大家介绍两篇文章。第一篇文章主要讲的是会话响应生成,其主要针对的是当前神经网络对话系统倾向于在语料库中生成响应的问题,这样不利于会话响应的多样性。第二篇文章主要针对的是模型会话一致检测的问题,怎么才能评估呢?作者提出一种自动在数据集提取实例进行评估的方法。
1
First Blood
2
Double Kill
3
Aced
4
Attention
正文开始
1First KillTILE: Boosting Dialog Response Generation
Contributor : Carnegie Mellon University
Paper: https://www.aclweb.org/anthology/P19-1005
Code: None
文章摘要
神经模型已成为对话响应生成的重要方法之一。然而,它们始终倾向于在语料库中生成最常见和通用的响应。针对这一问题,我们设计了一种基于boost的迭代训练过程和集成方法。该方法以不同的训练和解码范式为基础,包括基于互信息的解码和基于奖励增强的最大似然学习。实证结果表明,本文方法可以显著提高所有基本模型所产生的响应的多样性和相关性,并得到客观测量和人类评价的支持
本文创新点介绍
我们相信对话响应的生成也可以从boost中受益。在这项工作中,我们根据最近发展起来的促进生成模型的理论,设计了一个促进响应生成的原则框架。此外,我们将boost与不同的训练和/或解码范式相结合,并通过实验证明,无论是在定量还是定性评估方面,boost都得到不错的效果。
boost应用于对话生成的实际问题考虑
数据权重
在生成式增强方法中,数据的权重与响应的置信度成反比。然而,在实验中发现,一般的反应并不总是有较低的置信度。如果没有正确地处理,这些响应最终会得到增强,并在下一次迭代中成为频繁生成的响应。
为此我们使用一个简单的基于规则的鉴别器。在每次迭代中,我们维护一个最频繁生成响应的列表
模型合并
在解码时,由于文本数据的离散性,对于具有最高概率(或互信息)的响应的优化是难以处理的,因此我们使用以下启发方式。利用波束搜索从单个最优模型中生成候选响应。然后,所有的模型都会给候选人打分,平均分最高的模型会被选中。模型权重
算法细节介绍
对于RAML,奖励函数基于TD-IDF匹配,即每个单词的词频与逆文档频率乘积的和除以长度。其基本原理是激励模型在其生成代中包含关键内容词。根据经验,我们观察到,即使没有提高,有上述奖励的RAML也能比MLE基线产生更好的反应。温度参数τ是0.1。为了近似RAML目标中的期望项,在开始时,从训练数据中为每个消息-响应对选择三个附加的激励最高的响应。为了进行公平的比较,我们不会在下面的迭代中采样新的响应。
实验结果
定量评估
为了测量响应的多样性,我们使用10个簇对它们的嵌入进行k-means聚类,并测量惯性。惯性越大,多样性越强。定量评估结果图如下:
定性评估
为了确保多样化的响应与增强之前一样相关,我们要求5个注释器对每个基本模型的100个示例的随机抽样子集与增强后的对应模型进行评估。每个上下文都对应两个响应——一个来自基本模型,另一个来自增强模型。注释器被要求选择最合适的响应,或者如果它们相等,则打成平手。结果如表1所示。
TILE: Are Red Roses Red? Evaluating Consistency of Question-Answering Models
Contributor : Microsoft Research
Paper: https://www.aclweb.org/anthology/P19-1621
Code: https://github.com/marcotcr/qa_consistency
文章摘要
虽然目前对答题系统的评估将预测单独对待,但我们需要考虑预测之间的关系来衡量真正的理解。如果一个模型在玫瑰是红色的前提下,对“玫瑰是红色的吗?”这个问题的答案回答的是“否”,那么它就应该受到惩罚。那么本文提出了一种方法来自动地从两个QA数据集(VQA和SQuAD)中提取实例的这种含义,然后用它们来评估模型的一致性。认为的评估表明,这些产生的影响是良好的和有效的。一致性评估提供了对现有模型缺陷的洞察能力,并通过含意增强数据进行再训练,提高了对人工和人工生成影响的一致性。
本文主要看
本文建议对QA系统进行评估,以度量模型预测的一致性程度。
1、首先自动生成数据集中现有实例所暗示的新问答对(如下图所示)。
与原始实例相比,人工评估验证了生成的含义是有效的,并且形式良好,因此可以用于评估和深入了解VQA和班组的模型。
2、提出了一个简单的数据扩充过程,其结果是模型几乎与原始数据上的原始模型一样精确,而通过我们的含义和人类生成的含义进行度量时,模型更加一致。
含义生成
让QA数据集中的一个实例用
Visual QA
SQuAD
我们使用了[Demszky]的QA2D系统。将
一致性评估
我们希望生成的含义满足以下条件:(1)问题格式良好,(2)答案正确,(3)隐含是有效的,即如果生成一个隐含
实验结果
含义质量评估
我们要求工作人员评估给定问题和上下文的答案的正确性()。上图中的结果表明,所有标准的平均得分在原始实例和生成的暗示之间几乎没有区别,这表明暗示问题的形式很好,答案是正确的。
含义有效性评估
为了检查(q,a)是否真的意味着
评估QA模型的一致性
在得出我们生成的含义是高质量的并且通常是有效的结论之后,我们继续使用它们来评估模型的逻辑一致性。如下图所示:
如果论文你不方便一篇一篇的下载,你还可以直接访问我的GitHub直接下载所有文章地址:
https://github.com/yinizhilian/ACL_Paper
长按识别下方二维码,关注我们吧(づ ̄3 ̄)❤~