语音交互中的话术设计原则——百度DuerOS 唤醒之旅 workshop分享

Original 百度AI交互设计院百度AI交互设计院 2020-09-15

11月18日，第7期百度DuerOS唤醒之旅workshop在北京中关村的一家众创空间举行；12月9日，第8期百度DuerOS 唤醒之旅 workshop在上海徐汇区的华鑫科技园举行。两地将近300名开发者充满期待和热情到达现场参与学习和交流。百度DuerOS团队，在会上详细讲解了DuerOS开发者生态，对话式 AI 技能开发的实用工具和案例。百度人工智能交互设计院受邀分享了《语音交互中的话术设计原则》主题内容，分享内容包括话术设计六大原则，具体的话术设计建议及示例，并结合游戏技能的五类话术，提出了游戏技能话术设计的注意事项。该部分内容既有理论又有案例，深入浅出，可帮助开发者迅速掌握并运用到技能开发中，设计出更自然更友好的技能话术，收到开发者热情反馈，纷纷索要完整攻略。以下是演讲全文。

语音交互中的话术设计

--游戏技能话术设计的注意事项及示例

大家好，我是百度人工智能交互设计院的资深用户研究工程师韩雅娟，这一年多来，我们围绕着以智能语音交互为主的智能产品做了许多研究，今天在座各位大多数都是游戏类技能的开发者，今天我就围绕游戏技能开发，给大家讲一下语音交互中最重要的环节之一——话术。

话术作为语音交互过程中内容表达的载体，其重要程度在语音交互领域已有共识。平时有人说“会说话的人，一开口就赢了”，对于智能语音交互设备来说，也同样如此，说话的内容和表述方式直接影响着用户的感受和体验。

本次分享会主要围绕两部分内容展开介绍：

第一部分：通用话术设计原则

第二部分：游戏技能中话术设计的注意事项及示例

◾第一部分：通用话术设计原则

语音交互的特点

在分享话术设计原则之前，我们先来看下语音交互本身的特点：

语音交互的优点有：贴近自然交互，更为亲切友好，使用门槛低（从3、4岁小孩儿到60、70岁老人，只要会讲普通话都可以使用）

语音交互的缺点有：它是基于时序线性的，不可快进，难以后退，导致效率低，用户记忆负担重。

正是基于语音交互的这些特性，使得进行语音交互的话术设计需要遵循一些特定的原则。

这些原则是怎么来的？

首先，人机对话的设计很大程度上源自人与人之间的自然对话，话术设计原则也是如此。我们参考了最著名的人与人对话的“Grice的合作原则”（出自《逻辑与会话》演讲，1967），和我国语用学家索振羽教授的“得体原则”（出自《语用学教程》第二版，2014）。

在此基础之上，我们对近百条话术，进行了用户的话术评测研究。这些用户有一部分是普通用户，还有一部分是从事客服、培训、心理学相关职业的专家用户。这些专家用户对语言更为敏感，也具备更多语言沟通的技巧。

具体研究方法和过程详见百度人工智能交互设计院公众号文章《“会说话的人，一开口就赢了”——语音交互中的机器话术研究》

智能语音对话的话术原则

通过一系列研究，我们提炼出语音交互的话术设计六大原则。根据这些原则的效用不同，我们把它们分为两类，“理性原则”和“感性原则”：

理性原则是为了让用户达成本次对话的目标而必须遵守的原则，包括：

一、简洁

二、准确

三、目标性

遵循这些原则，会让用户认为设备或技能是“聪明的”。

但是只是聪明还不够，就像在现实生活中，我们和一个高智商的人不一定能聊的愉快，这就需要有“高情商”的话术，需要遵循话术设计的“感性原则”，包括：

四、自然

五、友好

六、人格化

图：人工智能交互设计院提出的六大话术设计原则与人与人对话六大原则对比

为了在话术设计中更好的理解和运用这六大原则，我们针对这六大原则总结了具体的话术设计建议：

接下来我会结合DuerOS开发者最常开发的游戏类技能实例，对这些建议进行说明。

（注：下文中示例的原始素材来自现有智能音箱的技能，为更好示例原则和建议，我们对示例内容进行了合理改编）

一、“准确”原则

建议1：表述无歧义

请看以下示例：

在这个例子中，技能说的“随便说一句吧”，会引起歧义，用户不知道这句话是一个示例，还是技能真的会随便说一句。如果改为“今天天气怎么样”就不会有歧义了。

建议2: 表述避免笼统模糊

请看以下示例：

以上的示例中，技能说“说继续进入下一题”，用户很容易误解为自己要说“继续进入下一题”，但技能的原本意思是让用户说“继续”两个字，技能会“进入下一题”，如果把话术改为“进入下一题，请说继续”，就很明确了。

二、“简洁”原则

建议1：表述简单明了，避免信息量过大，一次提供的选项不超过三个

前面我们提到语音交互的特点，是基于时序线性的，用户只能一个字一个字的听完，哪怕信息不相关、无意义，用户都无法略过，想必我们中很多人都会有这样的经历，给语音客服打电话，耐着性子听到最后才能找到自己想要的服务，确实很浪费时间。

这一特点就要求语音话术一定要简洁高效。与此同时，人能处理的语音信息量有限，一旦超出就会给人的记忆造成负担。因此提供给用户的选项尽量不要超过三个。

请看以下示例：

上面例子的开场语中提供了大量无关信息，在最后给用户的“开始指令”引导中也提供了超过三个的选择，导致到用户说“开始指令”时，已经被后面的噪音信息“遮盖”，不记得该怎么说了。

三、“目标性”原则

建议1：清楚传达技能接收情况，不确定用户意图时进行“意图确认”

请看以下示例：

上面例子中，技能没有识别用户回答的“非洲”，但屏幕字幕上显示已经识别了，只是没有听懂（没听懂的原因可能是技能无法识别选项内容，只能识别选项序号），而此时技能的回复却是“小度没有听清，请再说一遍”。这样的回复会误导用户继续重复刚才的指令，结果可想而知，用户尝试再三小度都说没有听清，用户不知道是怎么回事，只能退出技能了。

因此，对于技能状态的说明一定要清晰明确，不要让用户感到困惑。

建议2：需求未满足时，不轻易终结对话，告诉用户接下来怎么做

请看以下示例：

上面示例中，技能反馈完用户的指令后就结束了，而此时仍处于游戏进程中，用户得不到下一步操作的提示，不知道该如何继续游戏。因此，在整个技能进行状态中，要告知用户接下来如何操作。

四、“自然”原则

建议1：措辞口语化，避免使用专业的、晦涩的语言

请看以下示例：

上述示例中的“命令列表”是编程用语，多数普通用户不能够理解（我们还有很多儿童和老人用户），改为“您可以对我说”，就很明白了。

建议2：句式自然，使用对话标记

在日常口语对话中，我们会经常用一些“话语标记语”做句子之间的过渡，话术设计时也可参考。

请看以下示例：

修改后的话术增加了“好的”，用户就知道刚才自己的指令是被听到的，而不会产生疑惑。

建议3：同一内容提供多样化表述

在语音对话过程中，不够自然的“机器感”的来源之一，就是重复、生硬、没有变化的话术。如果想让整个语音交互更为自然生动，在表达同样意思时可以提供多样化的表达。

请看以下示例：

五、“友好”原则

建议1：主动认错，不责怪用户

在语音对话过程中遇到问题时，设备或技能首先要主动致歉或认错，即使是用户表达导致的问题，也要以“抱歉，小度没有听懂”类似的语言进行当前设备状态的描述，而不是直接指责和归咎于用户。

请看以下示例：

图左的“这句话不符合…”意为用户使用了错误的表达，改为“小度没听懂”，则是对目前状态的一个“不含指责”的陈述，而“请换个说法试试”，则对用户接下来的操作进行了提示。

六、“人格化”原则

建议1：适时幽默

莎士比亚说过，“幽默和风趣是智慧的闪现。”

日常生活中人们都会喜欢和幽默的人聊天，人机对话也一样，适时的幽默会让用户会心一笑，化解无法满足用户需求的尴尬气氛。

以下是一个幽默的例子，大家可以从这个例子里的话术里感受到技能的机智。

◾第二部分：游戏技能中的话术设计注意事项及示例

针对游戏技能中的五大类引导和应答话术，也应综合应用六大话术原则，注意设计适合的表达：

一、开场语

二、指令引导

三、对用户指令的反馈

四、兜底应答和引导

五、结束语

我们来分别看一下每个部分的话术设计都有哪些注意事项。

一、开场语

“开场语”在游戏技能中是非常重要的，因为它承担着许多“重任”，它既表示对用户使用游戏技能的欢迎，又是进入游戏状态的标识，同时也要向用户介绍“游戏的核心玩法”，还要引导用户如何开始，如果有一些特殊措辞或句式的指令，还需要一起告知用户。在整个开场语的设计中，有以下注意事项：

1、 “开场语”需提供必要信息：欢迎语＋核心玩法介绍＋开始指令引导

2、 “核心玩法”措辞简洁有用、表述自然，信息量不宜过大

3、“开始指令”引导话术简洁明确无歧义

这里举个设计优秀的开场语示例:

欢迎来到猜猜看，（欢迎语）首先在你心理默想一位名人、古人或动漫人物，然后回答我15个问题，我就能猜到你想的是谁。（简洁明确的核心玩法介绍）现在请对我说“开始游戏”吧。（明确的开始指令引导）

整个开场语的结构完整，措辞自然又不啰嗦。

二、指令引导

“指令引导”的作用是引导用户顺利进行游戏。指令引导也是开发者们容易忽视且十分影响游戏体验的部分。

关于设计指令引导，要注意以下事项：

1、扩展可识别指令词库

如果是选择题，需要同时支持序号和选项内容，及其常用变式的识别，如“1.大象”，需要同时能够识别，“1”、“第一”、“第一个”、“大象”几种常用说法。否则会增加用户学习成本。

如果是问答题，要能够区分用户是在作答，还是在发出其他指令，即能够区分“作答”与“非作答”，如用户说：不知道，不会，我忘了，跳过，没听清，重复一遍等，如果不加区分的话，就都会被识别为错误回答。

2、指令引导要简洁明确

不要在引导用户发出的指令词后加内容，如需说明也尽量放在被引导的指令词前面，如可以说“开始下一步请说继续”，而不要说成“请说继续开始下一步”。

3、特殊指令需强引导

在游戏技能中，如果需要用户使用一些非常见的说法或句式，需要开始时就明确告知。例如，技能只能识别“往东走三步”这种五个字的指令，需要在开头明确引导，并在后续无法识别用户指令时给予引导。

4、避免重复引导

对于一些游戏进程中常用的指令词，也没有必要每一步都引导一次，首次或出现问题时引导即可。

三、对用户指令的反馈

“对用户指令的反馈”目的是让用户知道自己的指令结果和当前游戏所处的状态。设计中需要注意以下三点：

1、慎防缺乏反馈

2、避免过度反馈

例如用户仅回答完一道题目，技能就反馈用户获得的成绩，“您目前得分1分”，其实也是没有必要的。

3、反馈方式多样化

我们进行技能走查时，发现了一个做的特别好的技能，是猜人名的，它在每猜完一次后都会给出不一样的反馈，类似以下这种：

“我有种预感，还是等结束后再说吧。”

“有点大意，问题已经问了一半了。”

“我有点明白了。”

“我好像猜到了,是xxx么？”

这种递进式的反馈，会让用户觉得它很聪明。

四、兜底应答和引导

兜底意味着技能进入一个相对无解的状态，这时的话术如果设计不当会让用户的情绪“雪上加霜”。“兜底应答和引导”的作用是让用户知道当前技能进入兜底状态，对用户进行安抚并让用户知道接下来该怎么办。有以下几点注意事项：

1、应答要清晰明确

例如明确告知用户“没听到”还是“没听清／没听懂”

2、意图不明时要优先意图确认，确认无果再退出

例如，多次识别无果时，可以说“小度没听到您的作答，您要继续作答还是退出游戏”，如仍无法识别再退出。

五、结束语

“结束语”的作用是让用户知道游戏即将结束，知道自己的成绩，也可以做些相关技能的推荐。需要注意的是：

1、要有明确的结束标志

无论什么情况导致的结束，都要有结束语，让用户明确知道结束游戏。很多技能在进程中有配乐，让用户增加沉浸感；而在开始和结束时配一段音乐，还可以增加仪式感，都是很好的做法。

2、结束语推荐适量，不要超过三个

最后

语音交互中的话术设计原则在不同群体、不同场景下也会各有侧重，比如对于儿童来说，“自然”“友好”等感性原则比理性原则更为重要；

当用户在和智能设备或技能聊天时，“有趣”就要比“简洁”更为重要。

希望本次研究可以抛砖引玉，欢迎和各位开发者同仁一起交流和探讨。

“会说话的人，一开口就赢了” ——语音交互中的机器话术研究

拿什么名字唤醒你？我的智能小伙伴

报告 | 赋予智能语音产品灵性之美，从“人设”的探索开始

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

从地方目标看全国！今年经济增长还是有很高要求

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！