查看原文
其他

人机交互的本质是什么?访思必驰联合创始人俞凯

胡佳雄、赵华 装饰杂志 2023-03-12



内容摘要

 

内容摘要:在自然的用户体验中,场景、技术、设计三者密不可分,设计和技术的巧妙配合使得专注于人机对话的科学研究者深入到产业转化中,为使用者提供自然语言交互解决方案。上海交通大学电子信息与电气工程学院与思必驰科技股份有限公司共同成立“智能人机交互联合实验室”,以产、学、研深度融合的研究模式,完成人性化的智能语音语言交互技术从学术研究到商业运作的转变。在对话式人工智能领域,自然是系统性、综合性的体验,也是人机交互拟人化、人性化的关键。就此,我刊对上海交通大学教授、思必驰联合创始人、首席科学家俞凯进行了专访。

 

关键词:人机交互、对话智能、自然、产业转化



随着人工智能与信息化的高速发展,对话式智能在生活中几乎无处不在,在那些具体的应用场景中,人机交互的界限也越来越模糊。不仅如此,设计在智能产业中的应用,与那些曾经看似在后台的技术连接变得日益紧密。那些专注于人机对话的科学研究者,也深入到产业转化的领域中,俞凯便是其中的一员。他是上海交通大学计算机科学与工程系教授,跨媒体语言智能实验室主任,同时又是思必驰科技股份有限公司(以下简称为思必驰)的创始人、首席科学家,拥有学者和创业者的双重身份。


俞凯

 

俞凯是剑桥大学语音方向的博士,也是中国大陆高校首个入选IEEE Speech and Language Processing Technical Committee的学者。他本科和硕士就读于清华大学,硕士时期的研究方向还没有涉及语音技术和对话智能领域,而是偏向生物图像处理。在剑桥大学的10年间,他从原来只专注于语音识别技术,逐渐将研究重点转到了了对话系统上。2012年,回国后的俞凯在上海交通大学智能语音实验室将研究谱系拓宽到了整个全链路的对话,从最基础的语音识别到最近热门的多模态对话都有涉及。2020年,依托计算机科学技术国家重点一级学科的优势,俞凯将智能语音实验室升级为面向视听文综合语言信息处理研究的跨媒体语言智能实验室,是教育部人工智能重点实验室和智能交互与认知工程上海高校重点实验室的重要组成部分,主要从事跨媒体人工智能研究,凝练了智能语音技术、自然语言处理、图像处理技术、人机对话交互以及多模态信息处理5个研究方向。实验室以产、学、研深度融合的研究模式,正在完成人性化的智能语音交互技术从学术研究到商业运作的转变,进入民用市场,将语音识别推广到智能人机对话,使得人们在车载、家居等各种真实的复杂场景中,可以顺畅自由地用语音,随时随地与能够理解自然语言的智能交互机器人进行对话交流。与思必驰共同成立的“智能人机交互联合实验室”,正尝试将对话式人工智能技术进行规模化的产业转化。

 

思必驰是国内领先的人工智能语音语言交互平台,为企业和开发者提供自然语言交互解决方案,也是俞凯团队进行学术成果产业转化的重要平台,拥有全链路的智能语音语言技术,自主研发了新一代的对话式人机交互平台(DUI)和人工智能芯片(TH1520),针对智能终端和企业服务提供软硬一体化解决方案和全渠道的智能对话服务,为众多行业场景合作伙伴提供自然语言交互解决方案。核心技术包括:语音合成、高级语音识别、口语理解、智能对话。在智能终端市场,思必驰目前已与众多知名公司达成合作,在智能车载领域与企业合作推出多款智能主流车型,在智能家居、白电、机器人、智能玩具等领域,也已取得了广泛的合作。数亿用户通过思必驰自然语言交互,实现与智能终端的互动交流。除原有的领域外,思必驰还逐渐将业务扩展到金融、政务、医疗、教育、物流等新场景,并于2017年成立北京研发院,专注新场景和新技术的落地,打造企业智能服务的定制平台,包括智能客服和知识机器人等。


 

1.小鹏P7,采用思必驰全链路语音交互技术,全双工语音交互贯穿始终,一次唤醒多轮对话,打造“持续倾听、连续指令”的自由交互方式,带来极致驾控新体验(图片来源:小鹏汽车官网)

2.海信S7F电视,内置思必驰AI专用芯片TH1520,搭载四麦前端信号处理算法、语音唤醒、远场语音通话、在线语音识别及语音合成等技术,语音操控,内容一语即达,即可开启“新社交”体验


在俞凯团队的研究下,思必驰首创了启发式对话技术和复杂结构知识管理技术,通过口语、文字等多种交互方式,建立更流畅的知识和信息的沟通方式,帮助企业快速定制专属服务助手,实现企业和用户之间的无缝无碍交流,帮助用户获取更清晰准确的信息。显然,自然语言交互成为了实现这种沟通的关键。

 



理解对话智能的自然


高质量人机对话应响应迅速、智能,且声音自然。但人类对话极其复杂,每个语句都建立在既定语境和先前的交互之上。从“内涵笑话”到特定文化背景中的“梗”和文字游戏,人类总是能够毫不迟疑且极为微妙地进行交谈,每个响应之间几乎无缝衔接。朋友之间交流时,未等对方开口便能猜到他要说什么。

 

语音识别只是人机对话的第一步,知道用户语音输入的内容之后,还需要理解其语义,做出对话决策,最后还要对输出的对话进行语音合成等。对话场景充满了复杂性。相比于其他工程领域的研究方向,语音技术和对话智能领域的研究更接近用户,也就是自然的“人”,其基础的研究素材,例如语音数据,都是用户产生的自然数据。媒介等价(Media Equation)理论[1]认为,人在与计算机交流时,会倾向于把计算机也当作真实的人,并在交流时遵循人的社交准则。例如,大多数人都会对智能对话助手说出“谢谢”这类礼貌性用语。[2]因此,对话被认为是人和计算机之间一种自然交互形式,人机对话也是自然人机交互设计的一个重要研究方向。

 

俞凯在对话智能领域多年的研究经历让他对“自然”交互的本质有了更为深刻的理解。在探索对话智能领域时,他秉持的是一种自然朴素的美学观。“美这件事情的本质,在很多时候,其实挺简单的。它是一种对人类简单自然观的符合,它既不是纵欲,也不是过度精细的机械性,”俞凯说。对话智能的美是共性和个性的有机融合,既要有可以通用的框架,又要有个性化的地方。因此,这场关于对话智能的讨论更像是关于对话智能“自然性”的思考,俞凯始终在强调自然的系统性、多元性与不确定性。

 

在智能对话领域,自然是系统性、综合性的,本身带有主观、感性的评价。俞凯认为,“自然”很难单纯地用一个维度的量化指标去描述,而是一个综合的体验。在智能对话场景中,“模拟人的能力”可以说是达到自然的一个途径。例如语音识别,人们通常单纯地只关注识别模型在语料库测试中的准确率,但俞凯却以自然作为语音识别的评价标准,提出了两方面语音识别应当具备的类似人一样的能力:一方面是不受对话环境的影响,比如对话距离的远近,只要在人可以听见的距离范围内,机器应该都可以听见,比如在有噪声情况下的识别效果。俞凯团队提出的深度卷积残差网络在噪声语音数据库Aurora4上把识别词错误率(WER)降低至5.67%。[2]另一方面是除了听见的部分,机器还应该知道哪些部分是没有听见或者可能听错了的,它应该可以像人一样通过提问或别的方式来确认没听见的部分。对于语音合成,俞凯认为目前的合成效果仅仅达到了合成音色的自然,在情绪变化方面还很不自然。

 

无论是语音识别还是语音合成,这些都是智能对话领域中的“单点技术”,每一个“单点技术”都可以体现不同程度的自然,或者说我们可以用不同的标准去评价各个单点技术的自然度。因此,“模拟人的能力”是多层次、多角度的模拟,这就使得“自然”也是多层次、多角度的自然。“比如任务型系统里面,更多的是在信息最终获取这个角度上讲人的能力,比如容错能力,是比精准更高层次的要求。但如果是助理类的系统,它其实还包括情感安抚的能力;如果是医疗类的,它还包括获取专业知识话术这样的能力。因为对话助理本身的定位,在不同的环境下是不一样的,所以某一类‘自然’,它的难度和覆盖的角度都不太一样”。整体来说,俞凯认为“自然”是一个综合用户体验,它必然覆盖了多场景,以及各种各样综合的系统体验。从工程角度上来说,自然需要系统性的工程设计来达成;从用户体验的角度来说,这样系统性的工程设计最终达成了自然的体验。

 

对话中的多元性体现出自然的复杂性,包括场景、内容、交互形式与模态的多元。首先,是场景的多元性,在不同的对话场景中,会有不同的对话能力的需求。其次,是内容的多元。在对话内容生成时加入一些随机效果,可避免对话内容的重复或千篇一律。人类对信息的感知除了要求精准度,还要求多样性,因为自然界本来就是多样的。如果人察觉到对话系统固定的行为模式,就会认为它是“假”的,是不自然的。俞凯团队利用基于高斯混合模型的混合密度网络(GMM-based MDN)语音合成系统[3]实现了对一段输入文本进行具有多样性且可控的语音合成。即输入同一段文字,进行多次合成,每次合成可以得到听起来效果不同且自然的语音片段。在对话内容的多元性上,俞凯提出了两个步骤:第一步是生成多样性,第二步是生成可控的多样性。他们在传统的端到端文本生成模型上做出了突破,加入关键词和上下文信息,使得生成具有多样性的对话文本。[5]除了人机对话内容,人机对话的形式也在逐渐多元化。一个唤醒词加一句语音指令是人们较为熟知的智能语音助手的对话形式,但在一些对话场景中,这样的形式正在发生变化。比如思必驰推出的智能汽车对话式AI解决方案,加入了多轮对话免唤醒的技术,即经过一次唤醒之后的一段时间内,无须唤醒即可对话。相比于传统的人机对话形式,多轮对话免唤醒更接近于人与人之间的自然交互形态。最后,是对话模态的多元。自然的对话是多模态的,人们不仅会根据对话中的语义内容进行对话,还会根据对话时所见所闻所感来进行对话。例如,有时两个人之间没有任何言语,但一个眼神、一个动作就心领神会,这其实就是对话中利用多模态通道传递的非语言信息。在语音技术领域,有一个著名的鸡尾酒会问题,即在类似鸡尾酒会这样复杂的声学环境中去进行语音识别、说话人识别等,解决其中的多说话人语音重叠的问题。俞凯团队中的钱彦旻老师还将语音和视觉模态的信息融合来解决复杂声学场景中的语音分离、语音识别问题,取得了显著成果。[6-7]未来的对话智能一定会更加充分地利用对话场景中的多模态信息,这其中还包括对话的上下文信息。在自然的对话中,对话人通常了解对话进行的场景信息、地点场所、对话人的身份和关系、对话的目的、对话之后可能会发生的事等,这些上下文信息都会自然影响对话的进行。只有打开多模态通道,对话智能才能更好地利用对话的上下文信息来达到自然的用户体验。


图3.俞凯团队利用基于高斯混合模型的混合密度网络(GMM-based MDN)语音合成系统合成3种不同语气的语音频谱。红线部分为表达语气的音节,合成原文是

“Don't make any mistake about that.”[4]


 

4.表中的ESED为俞凯团队研发的基于关键词映射的文本生成效果(图表来源:同注释[5])


自然还体现在对话中的不确定性上,因为信息的不确定性始终存在,是对话的本质特征。俞凯认为,人与人的对话就是通过一轮一轮的信息交换逐渐减少不确定性,如何处理这些不确定性也体现着智能对话是否自然。他在剑桥时曾参与过基于不确定性进行对话管理的研究,这项研究提出利用部分可观测马尔可夫决策过程(Partially Observable markov decision process,POMDP)来预测对话状态[8]的思想,是对话系统进行认知的重要理论基础。[9]“语音识别不可能百分之百正确,所以想单纯依靠通过语音识别去优化所有最终的用户体验,是不现实的”。因此,俞凯提出一个通过交互来解决认知不确定性的思路,“在信息不精准的情况下,通过对话的方式进行确认,使得我们最终能够达成用户的目标,不至于因为识别不准确而执行错误的指令,或者反复都不能达成用户的目标”。




对话智能中的有限理性


在交互中,需要时刻做出判断与选择,这也是人类自身的特点。在复杂的系统中,人是通过有限理性来做出决策的。有限理性(bounded rationality)[10]最早由赫伯特·亚历山大·西蒙(Herbert Alexander Simon)提出,原本是经济学中的理论。他认为,在现实情况中,人所获得的信息、知识和能力都是有限的,所能够考虑的方案也是有限的,不一定能够像传统经济学所认为的基于所有信息做出效益最大化的决策。西蒙的这一理论从生理学和心理学出发,考虑人的基本生理限制,以及由此而来的认知、动机等限制,为人的经济决策做出了解释。俞凯的研究同样基于有限理性理论,他认为人在做理解、沟通和价值判断的时候,都是通过既感性,同时又有一些理性的手段去进行分析、推断和推理,这样的理性手段永远是有限的。人是不可能通过无限制地穷举的方式去做分析和推断的。俞凯也秉持这个通用的哲学观点“,推论的逻辑,无非就是论据、论点、论证,最后你的论点就是你的结论。在这个过程里面,论据和论证逻辑一定是有限的,论证逻辑部分来源于你的假设和理论,最后得到的结论也一定也是有限的。它概括了一定范围内的主要矛盾,而抛掉了那些不重要的东西,这就是人类用有限理性去看待整个世界的基本的哲学方法”。

 

神经网络技术与有限理性也有密切的关系,“神经网络所做的,是给你数据,然后你有一个目标,它就能自动去优化这个目标,数据要多多益善。神经网络越大,它就能做得越好,像现在GPT[11]这些大的语言模型。但它本质上是一种记忆方式,而不是解释方式,只是用一个巧妙的办法,把各种各样的数据点都记下来了。这个不是有限理性,因为随着数据量的增大,它是无限的,看起来也是理性的,因为它也有规律,有参数,但它本质上是可以无限膨胀的。所以这种方式,在一定程度上,当计算力足够大的时候,机器是能实现的,这就是无限理性的方式”。但是,这其实不完全符合人的认知方式和规律,因此俞凯认为这不符合人类发展的规律,同时也不符合可控的规律。所以,有限理性实际上本身也在发展。对刚才所出现的那种大数据和超人计算的情况,我们应该以什么样的原则去对待它?是信还是不信?怎么信?怎么不信?这样才又把其变为了有限理性问题。

 

“人类一定会通过有限理性去归纳,并且去规范。否则的话,整个事情就会失控”。俞凯认为这一点非常重要。现在人们常讨论的“可信、可靠”的人工智能,其实就是说,不能无限制地通过数据去做各种各样的推论,它的很多推论需要在有限理性的框架下得到解释,甚至在一定程度上,在规则的约束下,去做有规则、有约束的优化,而不是无约束的优化,这一点是自然而然的。否则,发展下去就真的会造成全部异化,人类真的就有可能会被人工智吞噬了。

 

在决策理论中,除有限理性外,俞凯还提到了另一个相关的、在经济学和心理学领域备受关注的决策双系统理论。人类对信息的加工过程分为两个系统:一个是直觉的启发式系统(heuristic system),另一个是理性的分析式系统(analytic system)。丹尼尔·卡尼曼(Daniel Kahneman)在其著作《思考,快与慢》[12]中将这两个系统称作系统1和系统2,并做出了如下的界定:系统1是“快”系统,它主要依赖于直觉。系统1的信息加工过程非常快速,几乎感觉不到思考过程,完全处于自主控制状态,也无法有意识地关闭,而且系统1的结果受本能和经验信息的影响较大,容易出现个人偏差。系统2是“慢”系统,往往能够理清思考过程中的各个步骤,相对于系统1速度更慢,需要更多的注意力和认知负荷,但能更为全面地整合多方面的信息,得出个人偏差更小的决策结果或者判断。举一个例子就是计算。比较简单的计算,如十以内的乘法,基本上是靠我们从小对口诀的反复记忆来完成的,几乎是大脑内一瞬间可以得出的结果,属于系统1的过程。大脑在进行这个乘法运算过程中没有解释或分析的过程,而是依靠记忆映射。但当我们进行更为复杂的运算时,在没有经过特别的记忆的前提下,需要调用一些更高层次的规则,一步一步地进行计算,这个过程就属于系统2。

 

基于双系统理论,俞凯他们在设计对话智能时,必须既有基于数据的策略——如采用一些基于神经网络的对话技术,也有基于规则的策略——如使用一些对话脚本来管理对话状态。这两部分必须同时存在,如果一个对话系统仅仅依靠规则,没有直觉的系统1,那这样的有限理性就“过于有限”了。自然的对话中存在很多属于系统1的、无法深入解释的规则化的过程,因此,对话智能系统需要结合系统1和系统2。而目前主要是神经网络技术在解决系统1的问题。神经网络具有和系统1类似的特点:给定一个数据,给出一个结果,中间的过程是并行的,非常快速,也不具备解释性。但在这个过程里也没有解释的必要。例如人看东西,我们看到这个东西的颜色、形状以及简单的属性,这个过程都是直觉性的,目前的处理视觉信息的神经网络就可以很好地完成这个物体识别的过程。俞凯同时也强调了规则在对话智能中的重要性,尽管神经网络技术在当下很流行,但在很多情况下,规则的效果要优于神经网络。

 

在对话智能的研发中,结合这两种认知模式,达到一种理解式的交互也是俞凯团队在一直尝试的。在机器阅读理解的研究问题上,传统的方法是直接用神经网络去训练输入的文章和阅读理解问题的选项之间的关联度,比如把多选题的每一个选项进行相关度排序,最高的一个就是网络模型预测的答案。而俞凯团队最新尝试的方法会提取文章中支持每一个答案选项的证据,然后再对证据进行一次推理。这种在神经网络中加入更高层规则的方法不仅提升了机器阅读理解的效果,还增加了模型的可解释性,以更接近人类自然认知和决策的方式去进行对话智能。





场景×技术×设计


在对话智能领域,场景、技术、设计三者密不可分,要达成最终的自然用户体验,就必须在场景中实现设计和技术的巧妙配合。俞凯认为,现有的“单点技术”(如语音识别、自然语言理解等),还远远达不到人的要求,这是一个当下比较明确的前提。因此,单点技术基本上都不可能主导用户体验的决定性因素。尽管像一些工具类的产品,例如机器翻译,技术对用户体验的直接影响会比较大,但是在涉及人的综合需求的场景中,设计对最终用户体验的影响则会更大,比如智能语音助手。

 

对话智能的设计和人们以往认知中的设计有着很大的区别。常见的图形交互界面,人们可以理解其中图标、功能按钮等的设计,或者一个实体产品的工业造型设计。而在对话式用户界面中,很可能不存在一个可视化的“界面”,因此人们很难理解在对话智能中设计的定位。但在对话智能中,其实存在许多设计空间,在不同的应用场景,会涉及不同的设计维度,例如对话流程、对话内容、对话中语言风格的设计等。除此之外,还需要考虑选择合适的对话技术。因此设计师需要十分了解目前对话智能技术的优缺点。一种比较理想,但现实可能性比较低的设计方法是:对任何一个对话场景,只要收集足够多的历史对话数据来训练一个端到端的神经网络,让其模拟人的对话。只要历史对话数据足够多,覆盖的对话也就足够多,那么基本上用户输入的任何语句都能在历史对话中找到相似的情况,神经网络只要经过合适的训练,就能还原当时人的对话反馈。但这个理想的设计方法有两个现实中难以达到的前提:一是数据足够多。尽管现在网络上存在海量的对话数据,但这些数据并不一定和我们目标的应用场景相关,想要找到和应用场景的领域相匹配的大量语料目前还是相当困难的。二是即便数据够多,数据的标注仍是问题。在历史对话数据中,并不是所有的数据都是符合要求的,因此,要从这些数据中标注出来符合各方面要求的数据,包括保证用户体验、对话目的达成效果等,再加上人对于对话数据的标注的准确度也难以把控,所以要满足第二个前提也是十分困难的。

 

因此,设计师需要在这其中找到一个平衡点,利用有限的数据和神经网络完成前文提到的类似于系统1的对话功能,剩下的系统2的对话功能,则需要设计师从对话数据出发去找到高层次的规则来设计对话。针对这个问题,俞凯总结了对话智能设计的经验方法——数据分析,总结规则,设计对话。即利用一些统计和机器学习的工具,从已有的对话数据中分析归纳出一些用户对话的规则,利用这些规则来设计对话系统原型,让用户对这些原型进行测试,测试生成的人机对话数据,再用一些工具进行分析,进而根据分析结果调整设计。这是一个螺旋上升、迭代优化的过程,为了加快这个迭代过程,俞凯团队也在尝试加强已经上线的对话系统自主学习进化的能力。团队的陈露老师研发了companion-teaching框架[13-14],使得对话系统可以在与用户的交互中向人类老师寻求帮助,进行自我优化,框架结合强化学习的方法还可以提高自主学习的效率和安全性。[15]


 



对话智能的产业转化


对于对话智能的产业转化,俞凯给出了“两条腿”走路的理念:产业和科学像“两条腿走路”一样,一前一后交替促进,在处理现实问题的同时也要解答科学问题。除了传统的基于科学发展本身去提出新的研究问题以外,俞凯也强调了要在真实环境的产业落地所面临的关键难题里去抽象科学问题。俞凯团队做了大量将研究成果转化到对话智能产业的工作,如早期以手机中的智能助理为核心,现在则是物联网场景下的任务型对话助理和知识型对话助理。

 

俞凯在进行对话智能的产业转化时很看重用户体验。对于目前对话智能的用户体验,俞凯认为主要还是被语音输入的技术所限制。尽管在一些标准的测试情况下,语音识别的能力已经很好了,但基于目前语音识别的文本结果,还无法做到更多的事情。例如,将录音整理成稿件目前还完成得很不理想,这其中有大量非传统语音识别解决的问题,比如正确地加上标点,恰当地分段,去除冗余的、没有实际含义的内容,准确地区分说话人,尤其是多人同时说话的时候,等等。这些都是在传统的语音识别之后的问题,有一些涉及更多自然语言处理领域,有一些则涉及对话系统领域,但在真实的用户场景中,这些都会影响用户体验。


图5.OPPOReno内置的智能助手——多模态综合AI助理Breeno,采用了思必驰低功耗唤醒语音方案,在熄屏待机状态下,依然可以通过语音轻松唤醒。此外,针对手机的私密属性,用户可设置专属声纹认证,Breeno就可以只回应主人的语音唤醒(图片来源:Breeno官网)。


图6.车萝卜Carrobot,是国内首款量产的基于HUD+语音操控人机对话的智能车载机器人,能极大提升人们开车的安全性,并致力于打造基于软硬件一体化和云端大数据的智慧车生活服务平台。使用思必驰语音方案,让用户在专心开车的同时,安全兼顾导航及通讯、娱乐、社交需求。车萝卜HUD精英版,可放置于驾驶员视线正前方,18英寸全息投影,呈现于前方2米处,无遮挡式UI设计,犹如画在路面上。打破传统驾驶习惯,不低头、不斜视,与驾驶视线保持一致,打造更加安全的驾驶体验(图片来源:思必驰官网)

 

但语音输入技术也只是对话智能中的一个“单点技术”,最终影响用户体验的还是上文所说的技术和设计的配合。还是以语音识别为例,把语音信号中的每一个音节都完整准确地识别出来是单纯技术角度的目标,这也包括我们说话时一些下意识的习惯,比如“唔”“呃”,但在许多场景下,准确地识别出用户说了多少个“呃”可能对于用户来讲意义不大。也就是说,技术或者工程层面上的意义在产品使用层面的意义是不等价的。好的系统设计实际上就是可以让各个单点技术在合适的场景中发挥长处,从用户感知的角度去避免当前技术缺陷对用户体验的影响。俞凯讲了一个很有意思的故事来比喻设计和技术的关系,“一个国王,他是个独眼龙,有一条腿还瘸了,他要画一个画像,画师基本上因为(画出来)他有残疾,画出来之后都被杀了。后来有一个聪明的画师保住了性命,他的作品就是国王站在一个石头上,一只眼睛闭起来,拉着弓去瞄准猎物,自然地隐藏了国王的缺陷。这就是设计和技术的巧妙配合”。

 

在产业转化的过程中,俞凯团队还尝试为特定的用户人群提供帮助。中国的抑郁症人群状况不容乐观,许多患者就诊意识不到位,就诊率低,另一方面,医疗机构也缺少有效的诊断手段。抑郁人群的语音信号中具有差异性特征[16],因此,团队尝试从语音通道来检测抑郁症状。团队的吴梦玥老师提出的预训练音频特征的方法(DEPA模型)可以有效地预测用户语音中的抑郁情况,在标准数据集上可达93%的精确度。[17]另外,最近研发的在抑郁检测中结合语音、语义、情绪信息的方法也取得了不错的效果。目前,团队正在研发用于抑郁症问诊的人机对话系统“小驰”,帮助抑郁用户人群更有效地进行诊断和治疗。


7.“小驰”与用户的问诊对话(图片来源:俞凯团队)


8.当机器和人类的相似度到达一定程度之后,其亲和力就会急剧下降(图片来源:同注释[17])


同时,俞凯团队还在探索利用人工智能语音交互技术赋能居民健康管理应用场景的试点建设;智慧医疗中构建覆盖诊前(急救)、诊中(手术室)、诊后(家庭医生)场景的软硬一体化综合的智能助理系统解决方案;结合物流人员的工作内容,做深度的场景定制,如为顺丰智能蓝牙耳机提供智能语音交互技术,为其提供超高度定制的智能语音解决方案,提高他们的工作安全度及服务效率。疫情期间,思必驰向全国疫情防控一线提供“智能疫情防控机器人”免费服务,向全国121个地市的600万人民群众呼出AI电话。该机器人已于近日完成了中国人工智能产业发展联盟组织的智能疫情防控机器人评估测试。未来,思必驰还将推出一系列AI数字机器人,在更广地域、更多领域上岗,助力社会治理新基建。




对话智能的未来


从用户体验的角度来看,俞凯认为拟人化、人性化是特别重要的发展趋势。正如上文中提到的对话智能在各方面对话能力的拟人,在对话中根据不同的用户偏好进行自然灵活的调整,这些都会在未来得到更好的实现,因为自然是交互的本质。但在追求拟人的同时,也要警惕对话智能中“恐怖谷”的出现。“恐怖谷”(uncanny valley)原本是用在机器人领域的概念,指当机器人与人类的相似度高到一定程度,但还不是和人类完全一致时,这一点点的差别就会导致人对其产生极其负面的感觉。[18]在拟人化程度方面,俞凯认为可以定义一系列的工程指标,但在对话智能的“恐怖谷”效应,目前还没有对应的指标。


人与人工智能的结合也是未来的趋势,一方面,对话智能在内的人工智能会更拟人;另一方面,人也会更接近人工智能,即人会更理解人工智能核心技术的原则,在使用的时候不至于逾矩,或者有不切实际的期望和要求。在设计人工智能时,要加强示能性,同时也要巧妙地让用户清楚边界,符合人纯朴自然的感知,不能完全由技术或者科研中简单的技术指标来驱动,而是去找到符合人的直觉体验的更复杂的指标。

 

对于最近比较热门的元宇宙概念,俞凯认为其与对话智能有着紧密的联系:“元宇宙是以交互为核心的,交互基本分为两类:一类是物理世界的交互,比如去触摸一个东西;还有一类是信息世界的交互,涉及抽象的逻辑、语言、知识的传递。在元宇宙里面,很明显就是将这两类交互融合在一起。因此,像多模态交互、多模态对话,在元宇宙里面就体现得非常明显。之前,我们多模态对话的场景相对来说受限,而在元宇宙里面,比较容易做各种各样的新形态的实验和组合。比如有一些模拟过程当中的对话信息的传输和进化,就是通过信息的交互,实现个体智能的进化。这些从研究、从产业来说都是非常有价值的。”

 

针对这些问题,俞凯团队在对话智能上有三个方面的整体布局:第一是声学输入,团队会着力解决语音处理中最难的类似于“鸡尾酒会”的问题,对复杂环境中的声音信号本身进行综合处理,附加例如多模态信息作为辅助,尝试用更多先进的处理方法进行研究。第二是对话输出,以全方位的自然作为目标,而不是单纯的语气上的自然。在文本生成和语音合成中去尝试增加输出的多样性、不确定性,以及更高维度的自然,比如情感。第三方面是语言理解和对话交互,以可解释、可进化的自然语言处理系统为目标。目前的大规模自然语言处理系统看起来效果不错,但可解释性和进化性都很不足,在真实的场景中基本不太可用。因此,团队希望在复杂结构的对话交互、非结构化的知识语料、多模态对话交互这些方面往前推进。

 

俞凯认为,对话智能成为下一个“诱导性设计”是大的趋势。以触控交互的手机为例,2007年第一代iPhone让触控的交互方式得到推广。基于电容屏的触控交互符合人的自然交互习惯,因此,不论使用者的教育背景还是文化差异,最终人们自然而然地接受触控屏幕,甚至被其影响,形成了新的交互习惯。当时iPhone的设计是超前于用户的,因此属于诱导性设计。俞凯认为大部分的设计还是“符合性设计”,即符合用户现有的习惯进行设计。而诱导性设计则是满足符合性设计的同时又高于它,去符合用户下一步的习惯,并诱导用户做出改变。“人类希望越来越便捷地获取信息,从大背景上来说,随着智能设备的出现,信息入口会被泛化。就像生产力决定生产关系一样,这一点不由设计理念和个人意志决定,它本质上是由整个科技的发展产生了大量的智能设备这件事决定的。信息入口绝大部分都是小屏或者无屏的,所以将来一定是多模态对话。现在所说的元宇宙,本质上也是一种交互式、对话式的信息获取方式,只是它可能突破传统的打电话或者对着手机去说话的模式,和这些传统方式相比会更为自然。所以,智能设备发展的这个趋势,就决定了在软件和其他设计上,必然会出现大量使得物联网、智能设备可以作为信息入口,并且使得后台庞大的云端信息可以在小入口的情况下,得到个性化地、精准的输出。而这些东西,必然会涉及对话,这是由科技发展的本质决定的”。

 

由于物联网的普及,出现了许多信息入口,这些信息入口一定会被利用,而对话交互就是一个在许多场景都合适的利用手段。当这种利用价值被发现之后,资本会被吸引,社会治理机构也会推进实施,科技圈看到智能化的可能性也会积极参与,学校也会加入相应的课程内容。所以,背后推动对话智能发展的不仅仅是一种力量。在看好对话智能未来的同时,俞凯也表达了对一些风险的担忧。任何事物在创造财富价值、社会价值的同时都会带来风险,这符合社会发展的一般规律。因此,在对话智能的产品设计伦理、数据合规性、行业政策管控等方面都需要协同发展,这是一个更为复杂的系统。



注释及参考文献:(向上滑动查看)
[1]Reeves B, Nass C. The Media Equation: How People Treat Computers, Television, and New Media Like Real People[M]. Cambridge, United Kingdom: Cambridge University Press, 1996.[2]TOXTLI C, CRANSHAW J. Understanding Chatbot-mediated Task Management; Proceedings of the Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems, F, 2018[C]. ACM.[3]TANT, QIANY, HUH, et al. Adaptive Very Deep Convolutional Residual Network for Noise Robust Speech Recognition[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018, 26(8): 1393-405.[4]Du C, Yu K. Phone-Level Prosody Modelling with GMM-based MDN for Diverse and Controllable Speech Synthesis[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021.[5]YU K, ZHAOZ, WUX, et al. Rich Short Text Conversation Using Semantic-key-controlled Sequence Generation[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018, 26(8):1359-68.[6]LI C, QIANY. Listen, Watch and Understand at the Cocktail Party: Audio-Visual-Contextual Speech Separation; Proceedings of the Interspeech, F, 2020[C].[7]WU Y, LIC, YANGS, et al. Audio-Visual Multi-Talker Speech Recognition in a Cocktail Party[J]. Proc Interspeech 2021, 2021:3021-5.[8]YOUNG S, GAŠIĆM, KEIZERS, et al. The Hidden Information State Model: A Practical Framework for POMDP-based Spoken Dialogue Management[J]. Computer Speech & Language, 2010, 24(2):150-74.[9]俞凯、陈露、陈博等:《任务型人机对话系统中的认知技术——概念,进展及其未来》[J],《计算机学报》,2015年第12期,第2333—2348页。[10]SIMON H A. Bounded rationality[M].UtilityandProbability.Springer.1990:15-18.[11]FLORIDI L, CHIRIATTIM. GPT-3: Its Nature, Scope, Limits, and Consequences[J]. Minds and Machines, 2020, 30(4):681-694.[12]KAHNEMAN D. Thinking, Fast and Slow[M]. Macmillan, 2011.[13]CHANGC, YANGR, CHENL, et al. Affordable On-line Dialogue Policy Learning; Proceedings of the Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, F, 2017[C].[14]CHEN L, YANG R, CHANG C, et al. On-line Dialogue Policy Learning with Companion Teaching; Proceedings of the Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers, F, 2017[C].[15]CHEN L, ZHOU X, CHANG C, et al. Agent-aware Dropout DQN for Safe and Efficient On-line Dialogue Policy Learning; Proceedings of the Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, F, 2017[C].[16]WANGJ,ZHANGL,LIUT,etal.AcousticDifferencesBetweenHealthyandDepressedPeople:ACross-situationStudy[J].BMCPsychiatry,2019,19(1):1-12.[17]ZHANG P, WU M, DINKEL H, et al. Depa: Self-supervised Audio Embedding for Depression Detection; Proceedings of the Proceedings  of the 29th ACM International Conference on Multimedia, F, 2021[C].[18]MORI M, MACDORMAN K F, KAGEK IN. The Uncanny Valley [from the Field][J]. IEEE Robotics & Automation Magazine, 2012, 19(2):98-100.

来源:《装饰》2021年第12期

原文:《人机交互的本质是自然——访思必驰联合创始人俞凯》
作者:胡佳雄、赵华,清华大学美术学院

延伸阅读:

基于可持续性的系统设计研究

《装饰》“个案研究与论文写作工作坊” 招募

杭间 | 系统性的涵义:万物皆“设计”

童慧明:BDD,系统设计的中国当代发展目标

《装饰》2021年第12期介绍

“校园到游乐场”:以儿童友好促社区振兴

浅海义治的社区设计:美国经验在日本的本土化

冰墩墩是如何设计出来的?

设计中的女性力量

《装饰》2021年第11期介绍

国潮消费的时尚心理学诠释

国潮、中国风与中国设计主体性的崛起

《装饰》2021年第10期介绍

2022《装饰》新年台历,看见信息之美

国际知名学者谈交互:如何理解人类与技术的关系

叙事设计与信息设计如何融合?

叙事性设计方法在可持续建筑中的应用

《装饰》2021年第9期介绍

《装饰》影响因子再创新高!

《装饰》杂志欢迎您的来稿

E-mail:zhuangshi689@263.net

地址:北京市海淀区清华园清华大学美术学院A431   中国装饰杂志社编辑部

电话:010-62798189  010-62798878

邮编:100084

官网:http://www.izhsh.com.cn

建议邮件 书信亦可

在微信中回复“投稿”即可获得投稿须知

投稿1.5月后可致电(010-62798878)查询初审结果

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存