SFFAI 分享 | 多轮对话中的上下文信息建模 【附PPT与视频资料】
SFFAI
关注文章公众号
回复"SFFAI44"获取PPT资料
视频资料可点击下方阅读原文在线观看
并且,在多数情况下,许多context句子的内容是和当前回复无关的,而那些相关的句子或者词语和回复之间可能存在远距离依赖的关系,如图2所示。
为了能生成内容更丰富且和context更一致的回复,Serban等人将不确定性 (uncertainty or variance)注入到了句子间,提出了Variational HRED (VHRED)模型。在context encoder层引入了隐变量
不论是HRED还是VHRED,在inter-utterance关系建模的时候,选择的是RNN模型,即把utterance encoder得到的句子表示送入context encoder中,利用RNN得到context的表示。为了能显式地找到跟当前回复相关的内容,Zhang等人提出了利用Static Attention和Dynamic Attention机制的模型。在利用Static Attention机制时,假设回复和query是最相关的,于是在context包含的句子中寻找和query最相似的句子,通过attention机制对句子表示进行加权;在利用Dynamic Attention机制时,将传统attention机制中的memory内容换成了句子的表示,从而在每个解码步的时候动态地去对句子的表示加权。
接下来提到的两个模型是在VHRED上进行的改进。为了考虑当前回复和相关context信息的远距离依赖关系,Chen等人提出了Hierarchical Variational Memory Network (HVMN),将memory networks引入到了VHRED中。Memory cells中存储的信息利用
由于VHRED是将VAE和自回归的模型(HRED)结合了起来,使得VHRED面临了隐变量退化(degeneration)的问题。也就是说,VHRED中的隐变量很有可能将不会发挥应有的作用,从而使得VHRED退化成一个普通的HRED模型。为了缓解这个问题,Park等人提出了Variational Hierarchical Conversation RNN (VHCR)模型。该模型使用了两层隐变量:在之前句级别的隐变量之上引入了对话级别的隐变量,避免在训练过程中由于回复的稀疏性而导致的过拟合问题。同时使用了utterance drop的方式去削弱模型的自回归性,使得隐变量可以更好地发挥作用。
HVMN通过引入memory networks来建模回复和相关context信息的长距离依赖关系。ReCoSa利用Self-Attention机制来实现这个目标。首先通过RNN得到句向量,接着将Transformer Encoder中的K,Q,V从词向量换成句向量,利用Context Self-Attention得到了context的表示,即经过Self-Attention机制后得到的句向量矩阵。
除了以上提到的特点外,多轮对话中往往还有一个特点:内容的变化或语义关系的转移,即在多轮对话中存在复杂的语义依赖关系,这种关系并不表现在句子之间的词对齐上,而是在更高的语义层面上的匹配。在图10的例子中,说话者A和B围绕着B的现状展开了对话。起初,他们讨论的是B的位置,在最后两句话中,他们在考虑让B回来的方式。A提到了“雨伞”(让B打伞返回),而B则希望A“接他/她回去”。在query和response中,没有任何词级别的对齐关系。
这个例子体现了我们日常可以观察到的语言学现象:一个对话是在一个背景下发生的,在对话的进行过程中会存在话题的转换。在这一系列句子中,query和response经常是最相关的,它们在话题上保持了一致,同时在表达的语义内容上具有差异。为了建模这样的一种关系,我们提出了Conversational Semantic Relationship RNN (CSRR)模型。该模型将HRED和层次化的隐变量结合起来,用于显式地建模多轮对话中的语义依赖关系。
其中,
历史文章推荐
方杰民:Recent Advances and Highlights of NAS
张志鹏:SiamDW Real-Time Visual Tracking
周龙:同步双向文本生成
王亦宁:Multilingual Neural Machine Translation
常建龙:基于关系的深度学习
呼奋宇:深度层次化图卷积神经网络
崔泽宇:套装搭配推荐在图神经网络上的应用
张文:Recent Advances in NMT
邵晨泽:非自回归机器翻译
连政:端到端语音合成
黄健:语音情感识别