查看原文
其他

Hey Siri,你懂我意思吗?

ZEALER ZEALER 2021-07-29


点击上方播放视频


ZEALER 旗下工作室「FLINT STUDIO」全新泛科技科普栏目《原来如此》终于来啦!第一期,我们来聊聊语音助手——Siri。


以下为视频内容总结,建议观看完视频再食用,以带来更好的理解。


2021 年,是 Siri 诞生的第十个年头。经过十年的发展,语音助手已经成为了消费电子产品的一项标配功能。即便如此,有些时候一些我们看上去很简单的问题,Siri 却依然不能完全听懂。这究竟是为什么呢?



当 Siri 接收到我们的声波后,它会被切成若干个小段,找出有效信息,去掉空白片段、降低噪音,然后将剩余部分重新拼接成一段连续的有效信号。在跟声学模型比对后,找到对应的“音素”;在接下来的语言模型中,找出对应文字、断句、找到关键词、并完成词性分析。



然而,即便 Siri 完成了这些操作,记录下我们的问题,也不能直接去调动设备。因为它只是把问题写了下来,却没有理解这句话的真实意图。要让语音系统把“语句”,转换成“指令”,还需要“意图识别系统”的处理:


  • 首先是“意图预判”,预判出这个问题所属的垂直领域,避免设备在无关的领域里浪费算力;

  • 然后根据预判的结果和先前语义分析的结果,完成“单轮意图判断”,把指令发给对应的端口去执行;

  • 对于没解决的问题,系统会启动“多轮意图判断”,进一步作出“追问”、“继承”或是“转移话题”等行为,直至完成任务;

  • 为了让自己更“聪明”,系统还会对处理结果进行评分,不断优化自身。



即便有这么一套语言处理方法,还是有接近一半的用户觉得,自己的语音助手不够理解自己。在理解一句话的时候,语音助手和我们之间究竟有多大差别?



在语言学中,语言的目的,是把声音和它所对应的含义联系起来。这期间会经过音系(phonetic)、词汇(Lexicon)、句法(Discourse)、语义(Semantic)几个过程的层层推导。这个顺序,和工程师设计语言模型时的底层逻辑是基本一致的。



然而同样是十年时间,用着类似的语言学习方法,我们都小学毕业了,他们却还处在幼儿园的水平。造成这种差距的关键,在于我们拥有一颗,语言纠错能力极强,且具备遗传能力的大脑。


人类大脑的语言处理模块,早在几十万年前就已觉醒。其间不断优化,并且把优化结果刻印在新生儿的大脑里;但是对于语音助手而言,却还处在搭建大脑的过程当中。


这就是为什么,要求现在的语音助手像我们一样去理解语言,是不太现实的想法。



但是问题来了,既然语音助手的表现不尽人意,却依然能成为一项标配功能呢?


首先,我们在处理声音信息的时候,天然会占用大脑更少的注意力。语音助手作为以声音信息为媒介的功能,自然有着它的优势;其次,即便以现在的技术水平,没办法让它听懂我们所有的话,依然可以先确保回答关键和常用的问题,从而达到我们设计它们的目的。


有了这两点作保障,语音助手已经足以让我们能够在开车、看书、躺在床上的时候,也能够让设备,做一些简单的事情,从而体现它的价值。



但话说回来,虽然智能化不是语音助手的最终目的,却也是实现目的的重要途径。毕竟我们也希望有一天,能够像和普通人对话一样,向 Siri 问问题。相信到那时,它的指令表上只需要留下一句话:


“Ask Anything!”



热门蓝牙耳机免费拿


京东 68W+ 好评的耳机有多香?它就是本期 ZEALER 众测新品——漫步者 LolliPods 真无线蓝牙耳机。



IPX4 级防水、V5.0 高通芯片加持、24H 超长续航、CVC 8.0 双 MIC 降噪、还有 aptX 音频解码,保留更多你爱听的的音乐细节...更多惊喜等你体验,扫描上方图片中二维码或戳文章底部左下角「阅读原文」即可前往申请。

『热门推荐』

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存