Unity Labs|VR环境下的语音识别
Unity Labs的虚拟现实(VR)授权平台Carte Blanche将发布一个名为U的个人助理系统,用户可以通过语音控制它,很便利地执行一些操作。Unity Labs研发团队一直在研究可以实现这种声控命令的语音识别与分析工具。
观看下面的视频了解Carte Blanche中的个人助理系统U:
https://v.qq.com/txp/iframe/player.html?vid=f0328rv3l6d&width=500&height=375&auto=0
本文第一部分将介绍语音识别的概念和理论。它将简单介绍其相关概念和参考,以帮助读者了解更多关于语音识别方面的信息。第二部分将简单介绍在Unity Asset Store的安装包以及公开的代码库,我们封装了几个语音转文本的解决方案,还有一些用于对比各API的文本翻译的示例场景。
目前基于统计学的语音识别最重要的部分就是声学建模(Acoustic Modeling)。这个过程中用于识别声音开始时不同的波形,或者是语音结束时的一些音节。对于声学模型而言,通过查看声波输出,并尝试找出最可能输入的音节是什么, 从而分析出说话者究竟想表达什么。
如上图所示,这是声学模型中“x”的发音模型。椭圆表示我们正在尝试识别的音节。它们无法被直接观察到,但它们产生的概率波形(底部)是可以被完整观察到的。因此,波形自身是可以观察的,但必须及时从可观察的状态中分辨出音节。
假设语音已经被成功转换成了文本,现在程序需要分辨该文本究竟是什么“意思”,这时语义分析就可以登场了。人们日常生活中就无时不刻地在进行着语义分析。例如,在阅读这句话之前,你可能已经猜到接下来会是人们如何进行语义分析练习的例子。那是因为你能利用上一句(例如“人们日常生活中就无时不刻地在进行着语义分析”)作为上下文线索,从而很好地预测后续几句。因此,如果想要拥有非常逼真的VR体验,AI必须善于分析玩家的语句并给予正确的反馈。
我们提供的插件是对比目前Unity中几大语音转文本解决方案的简便方法,也很容易将其整合至你的项目。如果想在Unity中尝试其他API,使用该插件也非常简单,只需新建类继承自Speech-To-Text的Service基类,然后即成到示例场景或小部件即可。除了单独的语音文本转换SDK,插件还包括多个辅助类与函数(记录管理器,音频文件的创建和转换等等),以便集成和比较更多的API。
各大语音文本都各有特色,如果有兴趣,可以点击[阅读原文]查看关于Windows dictation recognition, Google Cloud Speech, IBM Watson, 以及Wit.ai四种语音识别解决方案的具体信息。
发布至Asset Store的自Speech-To-Text插件目前仅集成了几个语音文本转换解决方案,但这些足以用来比较现有语音识别工具的优缺点了。对Unity开发者而言,该插件只是起点,还可以根据具体需求来加入更多功能。
这项研究源于Carte Blanche项目最初集成AI机器人U来响应声控命令的计划。这涉及到语音文本的转换以及关键字识别。另一个有趣却艰难的挑战是创造出能与用户“对话”的机器人。人们在日常对话中经常包含类似于“嗯”或者是“啊”之类的语气词来表达感受。如果VR应用中的AI机器人不仅能够理解关键字,还能理解人类回话的各个部分,那它将让VR环境的沉浸感进入全新的层次。
点击[阅读原文]了解更详细的细节并下载相应资源。如果有任何意见或者想法,发送邮件至labs@unity3d.com或者在下面留言与我们交流。
更多实用Unity相关的技术文章:
重要提醒
Vision VR/AR 亚洲峰会 5折票价仅剩最后6天,优惠购买从速哦。