查看原文
其他

一篇文章深入理解VUI和GUI的优劣对比 | 饭大官人

饭大官人 饭大官人 2022-10-26

笔者从事自然语言处理已经超过了一年半的时间,对语音交互有了自己的理解,本文以封闭五官的极端状态为各位读者带来一种特别的体验,以便大家熟悉和掌握其特点和优势,以便将来大家应用到自己的产品设计中。

·  正  ·  文  ·  来  ·  啦  ·


为方便讨论,先做一下定义。市面上关于交互的常见的几个词汇,GUI、VUI、DUI。

 

GUI(Graphical UserInterface)图形界面,市面上最常见的交互方式。点触,滑动,作为主要输入方式。图像显示作为主要输出方式。



VUI(Voice User Interface)语音界面,常见没有屏幕的智能音箱/耳机,靠音轨输入,音轨输出。

 

VUI还有一个前身,即IVR(Interactive Voice Response)交互式语音应答,类似我们拨打营业厅电话,通过选择数字,来选择进入某某业务。



DUI(Dialogue User Interface)对话界面,当然还有另外一种说法叫做CUI(Conversational User Interface),举例子就是苹果的SIRI,或者某种对话机器人,以对话式窗口作为主要功能界面。这种方式是混合式方案,故而不在讨论范围之内。

 

为方便理解,更容易代入角色,理解交互形态,大家需要在限制的条件下体会。



只有封闭了自己的功能,如此才能做到设身处境,继而理解两种不同交互形态的差异。不妨把自己想象成:

 

听力正常且发音标准的盲人,以及视力正常且四肢健全的聋哑人。

 

GUI(Graphical UserInterface)图形界面

 

特性:使用鼠标键盘、手指点触,作为主要输入方式,以图形展示作为输出方式。通俗来说:动眼动手与硬件进行交互。当前市面上最为常见的交互方式。

 

VUI(Voice User Interface)语音界面

 

特性:使用语音作为输入,语音作为输出。能听见,能发音,那么就能使用VUI。通俗来说:动耳动嘴与硬件进行交互。未来一定会走入我们生活的交互方式。



日常生活中有很多场景,双手是被占用的,如果有好的VUI的解决方案,那么就存在交互空间。

 

解放双手是一个特性,不足以成为优点,是一种特定情况下的解决方案。



VUI的缺点,只能在安静和隐私的环境下进行,在公共场合使用,必然引起他人的围观,继而造成自己的心里压力。GUI则不存在输入压力问题,仅依赖光线。



输入速度,是VUI的一个巨大优势,需要什么说就好了,然后通过ASR转化为文字,由计算机理解,并执行命令。

 

GUI的界面上显示了太多的信息,如果不熟悉的话,需要判断点哪里(如果你教老人使用智能手机就能懂得其痛苦)有些时候还需要调用键盘,输入速度就很慢。

 

播放周杰伦的《烟花易冷》如果用点触的话,操作成本非常高(打开APP,寻找搜索框,输入指定信息,搜寻,选择列表中的一个播放)。而使用VUI,成本就非常低。



VUI可以无视层级,一句话直达目标。例如:播放2020年NBA全明星正赛第4节,或者是打开APP的签到功能/活动页面这类话术,可以直达熟悉的位置。

 

而GUI则是预设路径的交互方式,强迫用户沿着单一路径去完成操作的人机交互方式。每一步操作正确或者错误都会给予反馈,通过信息结构层级去展示指定内容,这非常方便人们学习和摸索规律,故而不是缺点而是特点。



VUI的缺点,由于人类的输入不可控,导致计算机难以理解。

 

用户本身发音模糊;依赖ASR(语音识别:Automatic Speech Recognition)技术的表现。

 

人类表述差异化较大,无逻辑,上下文表述会使用指代关系,会歧义或者双关。而计算机推理较难,此处考验NLP(自然语言处理:Natural Language Processing)的能力。

 

GUI的优点就是输入精准,任何操作都有着边界约束,流程可控,选择明确,计算机容易理解。



交互是一个双向的过程,语音作为输入动作确实很快,而纯语音输出的话,效率非常低。几乎没有人愿意做太多的等待行为。且语音输出携带的信息量非常少。

 

比如展示2020福布斯前10名的结果,语音输出的效率就是悲剧。而视觉层面展示的内容可以无限多,可以使用表格图形的方式进行展示,眼睛接受效率也非常高。

 

在计算机输出的过程中,语音输出要求人不可分心,需消耗注意力,视觉展示则没有,即使走神,也无压力。



在语音交互的过程,如果是多轮交互,当计算机说完之后,立刻留给人决策,注定会给人压力。GUI则不存在这个过程。

 

比如一个简单的机票业务查询结果,为你找到从[城市]到[城市],[几月几日][几点几时几分]出发[航空公司][飞机仓位][机票价格],是否需要定这张票?

 

当语音播放完毕后,我是不是要思考和比较一下?如果我想更新下查询条件,语音应该如何处理?而这交给GUI,就非常容易处理。

 

基于此,我们整体来看一下两种交互形式的优劣表现。



由于GUI的特性大家非常熟悉,所以本文偏重于总结提炼纯VUI的特性。

 

【基本特性】

 

VUI语音交互的特性是解放双手,动嘴就可以搞定。在某些业务场景下,是存在于双手被占用,通过语音指令完成目标的需求。(作者吐槽:GUI交互总不能写,不用动嘴且不依赖光线就能解决问题吧,这很奇怪)

 

VUI语音交互依赖安静、隐私环境,公共场合有使用压力。声音输入,和声音输出都可以通过空气这个介质传播。即使是耳机可以管理计算机的输出行为,但是人类的输入行为也会引起他人的围观。这一点就局限了VUI的使用场景。

 

当【基本特性】掌握后,对寻找VUI的使用场景有了方向,即

 

光线不太好,不方便点触操作。

双手被占用,不方便点触操作。

隐私,安全,的无场景

使用语音无压力的场景。

 

所以目前看来,卧室、客厅和车内这种相对隐私的空间是VUI的主要交互场合。

 

开车的时候,双手被占用,VUI有发挥空间。

骑车或者跑步锻炼的时候,VUI有发挥空间。

晚上都关灯了,不想睁眼睛,VUI有发挥空间。

快递员/外卖小哥在送东西的时候,VUI有发挥空间。

 

【输入表现】

 

GUI是一种预设路径的交互方式,VUI则聚焦于如何发挥语言和表意的强大力量,采用人们日常的语言来交流。

 

GUI需要人类适应工具。VUI则是由工具适应人。

 

语音输入门槛非常低,只要会说话,就能模仿,输入速度快捷,相比GUI拥有巨大的优势。而图形界面则具备相当的学习门槛,难点就是在于,用老年人学习手机的委屈状态“这个上面字那么多,按钮那么多,我不知道点哪里”以及“这个太多了记不住”。

 

VUI另外一个特性优势是没有UI层级,可以一句话直达,这点对于熟悉的事物具备巨大的优势。不需要像GUI依照层级关系一路点过去。而GUI的特性是流程明确,对于复杂的流程,明确交代了层级关系。

 

VUI的巨大劣势是,用户的输入表述不可控,这是自然语言处理的核心,即,如何让计算机理解人类的各种表述。而图形界面则输入非常可控,计算机易于理解。



 

【交互表现】

 

VUI语音输出的效率非常低,且依赖注意力。这是巨大的劣势。而对GUI而言,则是巨大的优势,不要求人类过于集中注意力。

 

VUI反馈设计,注定无法输出大量内容,最好的表现还是GUI。多轮对话中,尽量控制用户的表述范围,才能够得到更好的体验。

 

基于输入表现和交互表现,我们对处理VUI交互有了方向,即

 

一句话能搞定的用户熟悉的任务

决策压力低的的任务

管理用户输出,让其做选择题或填空题。

语音输出的内容不应该太长。

不让用户做挑挑拣拣的任务。

 

综上,只有理解其优势和劣势,才方便展开业务。

 

附一张当前智能音箱的技能列表,笔者已经就自己的理解做了归纳,这是当前市面上,相对比较成熟的语音交互技能。



我们还是回归正常,未来一定是多模态交互的场景。



人类与计算机打交道的方式不断演变,随着科学技术的发展,从最早的命令行,鼠标键盘,到如今最为主流的点击和触摸,到未来的语音交互以及手势交互。



想做好交互设计,只有了解各种交互形式的优缺点,硬件相关知识,技术相关知识,才能够做好选择,然后叠加出多模态交互方案。

 

生活中,带屏幕的音箱越来越多,而且耳机也是搭配各种屏幕的硬件使用的,而且在未来,就跟科幻电影里面一样,几乎每一块屏幕都可以用来操作。

 

从实际的发展趋势上来看,未来注定是万物互联的世界,几乎任何硬件都可以搭配麦克风、扬声器和WIFI模块三件套,由于其硬件成本低,普及极其容易。各方数据表现,可穿戴智能硬件出货量巨大……语音又是最为自然的交互形态,一定会在我们生活中占据一席之地。

 

语音交互,将会给我们的产品设计带来极大的改变,提供更为丰富立体的交互乐趣。在即将到来的万物互联时代,对各位交互设计师/产品经理而言,也是一种进步和挑战。

 

做好语音交互,不需要掌握任何画图技巧,上下文对话,就是UI本身,如何管理用户输入,全凭内容结构。

 

本文旨在讨论,GUI和VUI的区别,相关设计不做展开,相关的VUI设计心得,会在后续文章中,为大家介绍。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存