港科大-微众AI杨强团队:用于生成对话系统的迁移多层注意力网络
聊天对话系统是一项极具发展前景的自然语言处理技术,可帮助计算机与人进行自然对话。微软小冰凭借这一技术,成为科技界新晋"网红",并不断迭代更新。近期,IJAC上线了港科大-微众AI杨强教授团队的最新研究成果,该研究提出一种全新的基于迁移学习的注意力机制,并构建了一套新的生成对话框架:迁移分层注意力网络。实验结果表明THAN模型性能略优于当前最前沿的模型,并能生成逻辑连续且语义信息明确的话语。
图片来自Springer
【全文信息】
Transfer Hierarchical Attention Network for Generative Dialog System
Xiang Zhang, Qiang Yang
全文下载:
1)SpringerLink:
https://link.springer.com/article/10.1007/s11633-019-1200-0
2)IJAC官网:
http://www.ijac.net/en/article/doi/10.1007/s11633-019-1200-0
聊天对话系统(chit-chat dialog system)是一项极具发展前景的自然语言处理技术,能够让计算机通过自然语言(natural language)与人对话。传统的聊天对话系统通常基于人工编写的规则(hand-crafted rules)构建,或借助信息提取技术(information retrieval (IR) technology)直接从候选语料库(candidate pool)中选取书面回复语(human writing response)。这类系统缺乏鲁棒性,很难应用于其他新领域。
图片来自网络
近年来,深度学习在各领域全面开花,相较于传统系统,一种新模式(paradigm)---生成对话系统(generative dialog system)具备了更优的性能。生成对话系统借助深度神经网络,对复杂的对话语境进行建模(model the complex dependency in dialog context),可直接生成自然语言与用户进行交流,当前已经有一些成功的应用案例,如微软小冰,它们每天都会与上千万用户进行交流。
构建生成对话系统有三个基本要素:对话语境表达学习(dialog context representation learning)、回复内容选择(response content selection)、回复生成(response generation)。谈及对话语境(dialog context),模型会首先学习对话表达以将语境中的语义信息进行编码,而后基于对话语境表达来决定回复的内容,最后通过语言生成算法(language generation algorithm)生成最终回复。基于大规模人类对话语料(human dialog corpus),以上三个要素均可通过端对端模式得到优化(optimized jointly in an end-to-end paradigm),使模型在训练语料库(training corpus)中仿真(emulate)对话主体(agents)。
本研究提出了一种全新的注意力机制(attention mechanism),旨在构建更准确的对话语境表达模型(dialog context representation model)。通过研究可知,如今最前沿的表达模型若想向前发展,需突破不准确的注意力评分(inaccurate attention scores)这一瓶颈。本文研究者猜想,造成其不准确的原因在于缺乏足够多的信息用以训练注意力神经网络(attention neural network),附加注意力机制(additive attention mechanism)只使用了令牌信息(token information),解码器(current decoder)计算出分值(weight scores)。
直观上,系统以一种无监督学习(unsupervised learning nature)的方式进行训练,模型缺乏足够的先验知识(prior knowledge)来识别对话语境中的关键词句。研究者认为迁移学习是一种有效的方法来增强附加注意力机制(additive attention mechanism),关键词提取(keyword extraction)和语句推断(sentence entailment)可作为辅助任务(auxiliary tasks)帮助目标模型取得更合理的权重分值(weight scores)。
通过将句法结构分析(parsing syntactic structure)与语义关系分析(analyzing semantic relationships)迁移至目标任务(target tasks)中,同时也带入先验偏见(prior bias is injected),这有益于确定重要的语言学要素(linguistic elements)。这一想法与机器翻译领域中的一些最新进展的思路相似,即以监督学习的方式,借助词对齐信息(word alignment information)训练注意力网络(attention networks)。
图片来自网络
基于以上思考,本文研究者提出了一种全新的基于迁移学习的注意力机制(transfer learning based attention mechanism),并构建了一套新的生成对话框架(generative dialog framework):迁移分层注意网络(transfer hierarchical attention network (THAN))。
研究者利用两种迁移学习方法,把源任务(source task)的知识迁移至目标任务(target task)当中:一种是参数预训练(parameter pre-training),另一种是网络堆栈(network stacking)。各类实验均证实了以上两种方法的有效性。研究者基于THAN网络,构建了单匝(single-turn)和多匝(multi-turn)对话模型,并在大规模公共数据集(public datasets)上进行了系统实验,包括定性评估(quantitative evaluation)和定量分析(qualitative analysis)。
实验结果表明THAN模型性能略优于当前最前沿的模型,并能生成逻辑连续且语义信息明确(semantically informative)的回复语。
本文框架如下:第二部分简要回顾了生成对话系统的相关研究,并介绍了前沿的注意力机制设计,同时还综述了应用于本研究中的迁移学习参数预训练和网络堆栈技术。第三部分主要阐述了本研究涉及的正式问题定义(formal problem definition)及符号(notations)。第四部分详细描述了本研究所构建的模型,包括单匝THAN(single-turn THAN),多匝THAN(multi-turn THAN)和辅助源任务模型(auxiliary source task models)。第五部分展示了实验评估,第六部分是结论,同时提出了一些未来可研究的方向。
特别感谢杨强教授对以上内容提出的宝贵修改意见!
往期精彩内容
最优质的论文
【综述】美外籍院士Brian Anderson: 社交网络中舆论动力学研究进展
【综述专栏】中科院自动化所杜清秀:基于微惯性技术的行人航迹推演系统研究现状
【综述专栏】华盛顿大学陈一昕: 深度学习在健康检测数据中的应用
最受欢迎的干货
官网 :
Springer主页:link.springer.com/journal/11633
新浪微博:IJAC-国际自动化与计算杂志
Twitter: IJAC_Journal
Facebook: ijac journal
点击"阅读原文"下载全文