推出两个全新的自然语言对话数据集
文 / Bill Byrne & Filip Radlinski, Google Research 研究员
然而,尽管智能助理近年来已取得巨大进步,但依旧未能达到人类的理解力水平。
这在一定程度上是由于我们缺乏优质训练数据,无法将人们的需求和偏好准确的反映给智能助理。系统的局限性导致在理解人类话语时会有偏差,我们为了让智能助理能够理解,不得不调整自己的措辞。换言之,现今智能助理的对话仍旧十分简单,远未达到人类理解所需的对话复杂度。
为解决该问题,我们现发布 Coached Conversational Preference Elicitation (CCPE) 和 Taskmaster-1 英文对话数据集。
注:Coached Conversational Preference Elicitation 链接
https://ai.google/tools/datasets/coached-conversational-preference-elicitation
Taskmaster-1 链接
https://storage.googleapis.com/dialog-data-corpus/TASKMASTER-1-2019/landing_page.html
这两个数据集均使用 Wizard-of-Oz 平台:让两个人进行口语对话,就像用户在与真实的智能助理进行对话一样。我们为这两个数据集设计了内置 Wizard-of-Oz 界面,用于模仿语音智能助理,同时还可保留自动化系统环境中的口语对话特征。由于人类“助理”可以像任何人一样准确理解用户的请求,因此我们能够捕捉到用户如何向“完美”的智能助理真实表达自己的想法,进而不断改进此类系统。
注:Wizard-of-Oz 平台 链接
https://en.wikipedia.org/wiki/Wizard_of_Oz_experiment
如需了解 CCPE 数据集的完整详情,请参阅我们将于“2019 年话语与对话特别兴趣小组年会”(2019 Annual Conference of the Special Interest Group on Discourse and Dialogue)发表的研究论文 。
注:2019 年话语与对话特别兴趣小组年会 链接
https://www.aclweb.org/portal/content/sigdial-2019-annual-meeting-special-interest-group-discourse-and-dialogue-call-special
CCPE 研究论文 链接
https://ai.google/research/pubs/pub48414
如需了解 Taskmaster-1 数据集,则可参阅我们将于“2019 年自然语言处理经验方法会议”(2019 Conference on Empirical Methods in Natural Language Processing) 发表的研究论文。
2019 年自然语言处理经验方法会议 链接
https://www.emnlp-ijcnlp2019.org/
Taskmaster-1 研究论文 链接
https://ai.google/research/pubs/pub48484
偏好导向 (Preference Elicitation)
在电影导向型 CCPE数据集中,扮演“用户”的人员对着麦克风讲话,之后我们会向扮演“智能助理”的人员直接播放所录的音频。“智能助理”则以文字形式输出其响应,然后通过文字转语音向“用户”播放。这些双人对话中难免会出现双方之间自然发生的卡顿问题和错误,而这很难通过合成对话复制出来。由此,我们便能针对人们的电影偏好,创建一系列自然的结构化对话集合。
注:CCPE 数据集 链接
https://ai.google/tools/datasets/coached-conversational-preference-elicitation
通过深入分析此数据集,我们发现人们会采用极其丰富的方式来描述自己的偏好。该数据集首次大规模展现了这种 丰富性。
我们还发现,人们的偏好与智能助理(或本例中的推荐网站)描绘选项的方式并不总是相符。换言之,您在搜索自己喜欢的电影或服务时所使用的的关键词,与您在向他人推荐您喜欢的电影时,使用的描述词汇可能会并不相同。
任务导向型对话
Taskmaster-1 数据集结合使用上述方法和单人书面会话这两种方式来增加语料库规模和发言者的 多样性,最终得出约 7700 条书面的“自我对话”以及约 5500 个双人口语对话。
注:Taskmaster-1 数据集 链接
https://storage.googleapis.com/dialog-data-corpus/TASKMASTER-1-2019/landing_page.html
在书面对话中,我们会为每个任务概述相关场景,让人们据此自行创建完整对话,从而同时扮演“用户”和“助理”的角色。虽然口语对话更能真实反映双方语言上的交互,但书面对话在丰富度和复杂度方面都表现良好,并且收集这些数据的难度和成本也更低。我们基于以下 六项任务 之一来创建数据集:订披萨、进行汽车维修预约、租车、订购电影票、订咖啡和预订餐厅。
该数据集还使用简单的注释架构,为数据提供丰富的背景信息,同时让工作人员为对话添加标签时,能更好的保持一致性。传统意义上的详细策略很难使工作人员再添加标签时保持稳定的一致性,与之相比,我们只关注每类会话的 API 参数,即执行事务所需的变量。
如:在一个有关拼车安排的对话中,我们会为“目的地”和“出发地”位置以及车型(经济车、豪华车、拼车等)分别附加标签。在预定电影票时,我们为电影名称、影院、时间和票数附加标签,有时还会为放映类型(如 3D 或标准版)附加标签。语料库发布中随附有完整的标签列表。
我们希望这些数据集将能在对话系统和会话推荐的研究课题中,助力学术圈顺利开展实验和分析。
致谢
我们想要感谢以下共同作者和协作者,正是他们的辛勤工作和深刻见解才使我们得以发布这些数据集:Karthik Krishnamoorthi、Krisztian Balog、Chinnadhurai Sankar、Arvind Neelakantan、Amit Dubey、Kyu-Young Kim、Andy Cedilnik、Scott Roy、Muqthar Mohammed、Mohd Majeed、Ashwin Kakarla 和 Hadar Shemtov。