查看原文
其他

【源头活水】联合意图识别和槽位填充,Slot-Gated机制



“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。

来源:知乎—DengBoCong
地址:https://zhuanlan.zhihu.com/p/413261222
Slot-Gated Modeling for Joint Slot Filling and Intent Prediction
https://aclanthology.org/N18-2118.pdf
nlp-paper:https://github.com/DengBoCong/nlp-paper
nlp-dialogue:https://github.com/DengBoCong/nlp-dialogue
text-similarity:https://github.com/DengBoCong/text-similarity
Algorithm:https://github.com/DengBoCong/Algorithm
说明:阅读原文时进行相关思想、结构、优缺点,内容进行提炼和记录,原文和相关引用会标明出处,引用之处如有侵权,烦请告知删除。
本篇论文是2018年的一篇顶会论文,其提出的结构在当时的联合意图识别(ID)和槽位填充(SF)上实现最好性能,到现在也很值得学习一下。论文提出的Slot-Gated结构,其关注于学习Intent和Slot attention向量之间的关系(其ID和SF的attention权重独立),通过全局优化获得更好的semantic frame。门控机制让我想起16年的一项将线性门控机制应用于卷积结构的工作,同样也是使用了门控机制,提出了GLU结构,门控机制真是很奇妙的一种结构。阅读笔记如下:将线性门控机制应用于卷积结构
论文主要贡献在于:
  • 提出Slot-Gated方法实现了最好的性能表现。
  • 通过数据集实验表明Slot-Gated的有效性。
  • Slot-Gated有助于分析slot filling和intent的关系。
通过在ATIS和Snips数据集实验,相比于attention模型semantic frame准确率提升了4.2%。在此之前的最佳模型,是用Attention+Rnn对ID和SF联合建模,但是这种方法只是通过一个共同的loss函数    隐式地将二者建立关联,而本文提出的Slot-Gated机制则是显式建立联系。下面是ID和SF的示例:


01

模型细节
模型使用BiLSTM结构,输入为    ,生成前向隐层状态    和反向隐层状态    ,最终将二者拼接得到    。模型结构如下:

Slot Filling

如上图a中所示,SF任务是将输入    映射成输出    。对于每个步长的输入word对应的隐层    ,首先计算slot context vector    (实际上是self-attention,对应上图中的slot attention):

其中,    是attention score:

其中,    是激活函数,    是权重矩阵,接着使用    和    做softmax得到第    个word对应的slot label   

   ,且和    shape一致。
   ,    计算的是    和输入向量    之间的关系。
作者TensorFlow源码    用的卷积实现,而    用的线性
映射_linear()。

Intent Prediction

Intent context vector    的计算方式类似于    ,区别在于预测意图时只使用BILSTM最后一个隐层状态    :

Attention具体细节见:
https://arxiv.org/pdf/1609.01454.pd

Slot-Gated Mechanism

Slot-Gated的主要目的是使用intent context vector来改善slot-filling的表现,结构如下:
通过引入了一个额外的gate,利用intent上下文向量来建模slot-intent关系,以提高槽填充性能。首先,组合slot上下文向量    和intent上下文向量    以通过Figure 3中所示的slot gate:

   ,    是输入向量    的维度。
   ,获得    的权重
论文源码使用的是: 

中    和    分别是可训练的向量和矩阵。在一个时间步骤中对元素进行求和。    可以看作联合上下文向量(    和   )的加权特征。加入    :

为了比较slot gate的效果,本文还提出了一个去掉slot attention的结构,见Figure 2 右图,公式如下:

Joint Optimization

模型的联合目标函数为:

其中,    是 SF和ID的联合条件概率。


02

实验结果
根据Table 3,两种Slot-Gated模型的性能均优于baselines,但是在ATIS数据集上intent attention最优,在Snips上full attention最优,原文是这么说明的:
Considering different complexity of these datasets, the probable reason is that a simpler SLU task, such as ATIS, does not require additional slot attention to achieve good results, and the slot gate is capable of providing enough cues for slot filling. On the other hand, Snips is more complex, so that the slot attention is needed in order to model slot filling better (as well as the semantic frame results).
作者特意强调slot-gate模型在frame acc上的改善,因为frame acc是同时衡量两个任务的指标。
It may credit to the proposed slot gate that learns the slot-intent relations to provide helpful information for global optimization of the joint model.


03

结论
本文提出的一种将intent detect和slot filling显示关联学习的架构,并实验证明有效,说明可以深挖如何在ID和SF显示关联上设计更好的架构,例如本文是单向的门结构,ID结果输入到SF,是否能够将二者相互关联,SF结果也可以输入到ID,或者提出更优雅表征显式关系的结构。

本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。


“源头活水”历史文章


更多源头活水专栏文章,

请点击文章底部“阅读原文”查看



分享、在看,给个三连击呗!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存