斯坦福公布任务导向型多领域多轮对话数据集

2017-07-04 专注报道AI 量子位

安妮编译自斯坦福NLP小组官方博客
量子位出品 | 公众号 QbitAI

任务导向型对话侧重于参与用户发起的特定话题的对话。一般来说，如果做任务导向型对话的程序员训练模型数据集不够大且不够多样，那么接下来的工作很有可能受阻。

为了帮助缓解这个问题，斯坦福自然语言处理小组公布了一组语料库。这组数据集包含了3031条多轮对话数据，内容主要分布在日程安排、天气信息检索和兴趣点导航。

这个对话集是通过知识库建立的，确保系统对自然语言处理得灵活流利。数据集与人类的对话差不多是下面的画风——

在这个数据集中，用户有两种可能的模式：驾驶员模式和助手模式。

在驾驶员模式中，用户会收到一份包含了明确信息的任务，里面列出了他们试图从助手中提取的某些信息，以及驾驶员和助手之间的历史对话。驾驶员只负责提供一组对话，并根据之前的历史对话消息和指定任务将对话进行下去。这些任务是通过3到5个可选值（比如时间、日期、地点等）随机指定的。

△ 驾驶员模式示意图

在助手模式中，用户能看到一份聊天记录，刚好进行到司机提了个问题；同时，还会看到助手专属的知识库，包含回答司机问题所需要的信息，比如事件信息日历、附近城市的预测信息和收集到的附近相关信息点。

△ 助手模式示意图

数据集中的数据大致可以分为以下几类：

每个领域slots的类型和数量统计如下：

最后，附数据公开下载地址：

http://nlp.stanford.edu/projects/kvret/kvret_dataset_public.zip

Paper地址：

https://arxiv.org/abs/1705.05414

【完】

一则通知

量子位读者4群开放申请，对人工智能感兴趣的朋友，可以添加量子位小助手的微信：qbitbot，申请入群，一起研讨人工智能。

另外，量子位大咖云集的自动驾驶技术群，仅接纳研究自动驾驶相关领域的在校学生或一线工程师。申请方式：添加qbitbot为好友，备注“自动驾驶”申请加入~

招聘

量子位正在招募编辑记者、运营、产品等岗位，工作地点在北京中关村。相关细节，请在公众号对话界面，回复：“招聘”。

△ 扫码强行关注『量子位』

追踪人工智能领域最劲内容

反向激励，在加速这个社会的黑化

Wealth | 中国成本轮金价涨势的前沿和中心

“Green & IntelligentManufacturing” Chinese Bridge Online Program

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

券商大佬卸任，曾任多家券商及公募基金一把手！