微软小冰成为首个采用全双工技术的语音交互虚拟机器人，逐字理解用户语义，对话如河流一般

该内容已被发布者删除该内容被自由微信恢复。

文章于 2018年4月20日被检测为删除。

被用户删除

% Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed 0 0 0 0 0 0 0 0 --:--:-- --:--:-- --:--:-- 0* Trying 147.8.205.46... * Connected to research.jmsc.hku.hk (147.8.205.46) port 8000 (#0) > GET /html?fn=gh_27c43c799b0c_2018-04-05_2649545679_sftaJR0c6b.y.tar.gz HTTP/1.1 > Host: research.jmsc.hku.hk:8000 > User-Agent: User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; FSL 7.0.5.01003) > Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8 > Accept-Language: en-US,en;q=0.5 > Accept-Encoding: gzip, deflate > Connection: keep-alive >

2018-04-05 DeepTech深科技

长按识别二维码，收看2018《麻省理工科技评论》区块链商业峰会

微软小冰（以下简称小冰）是微软亚洲互联网工程院所开发的一款人工智能伴侣虚拟机器人，自其正式发布以来，距今已有 4 个年头了。时至 2018 年 3 月中旬，微软宣布“全双工语音交互感官”已完成产品化落地。与既有的单轮或多轮连续语音识别不同，这项新技术可实时预测人类即将说出的内容，让小冰能够实时生成回应并控制对话节奏，从而使长程语音交互成为可能。

从时间点上来看，小冰是第一个使用全双工技术的语音交互人工智能。其他产品，仍停留在实验室阶段。

小冰为何要使用全双工

小冰的研究人员们称全双工交互模式为 Session-oriented。微软亚洲互联网工程院副院长，同时也是小冰的负责人李迪表示，Session-oriented 框架则更像东方的思路，把对话看作一个整体，并对其进行统摄、保持和引导，注重整体任务的完成质量。Session-oriented 框架规避掉了由 Turn-oriented 框架内在基础决定的发展上限，在未来有着巨大的技术潜力和场景应用。

而过去的语音交互人工智能使用的是 Turn-oriented 框架，比如微软小娜。这种对话就像是十字路口，“民警”站在中间指挥。每当用户输入一个命令，“民警”则将其引导至相应模块，任务完成，再返回十字路口。通过这种一问一答的方式，Turn-oriented 框架确实可以很好地完成大量任务，同时也深受自身局限，但是永远无法离开十字路口。

Session-oriented 框架则相对复杂一些，其中的对话就像河流一样，从一个 turn 到下一个 turn，自然地向前流转；其中 turn 可能是与任务相关，可能是从中引发出新任务和新知识的“无用的”无关对话，也可能是某个单一任务，比如突然要求关灯。

基于这些优势，以智能音箱为载体的小冰可以提供更好的用户体验。不过多说无益，所以 DT 君找到了这样一个测试视频。

https://v.qq.com/iframe/player.html?vid=u0618nw1syf&width=755&height=424.6875&auto=0

在视频演示中可以看到，用户能够在一次唤醒的情况下实现同时复数任务请求。此外，正是因为全双工模式，小冰可以和用户保持长程多次对话。

小冰的首席架构师周力具象化地描述了全双工技术在小冰上的应用：

1. 边听边想：全双工语音交互技术包括预测模型，可以不再等到一句话说完，再进行语音识别，然后再处理如何回复。每听到一个字，都会提前预测用户的完整意思。与此同时，提前开始「思考」回应，已实现更快的响应速度和改口能力；同时还可以实现动态回应，而不再是用户输入一条，人工智能回应一条的回合制问答。根据预估的思考时间、复杂任务的完成时间，有选择地将人工智能的回答拆解为多段，减少用户感知的等待时间。

2. 节奏控制器：在全双工语音技术中，对话的节奏和时机也不容忽视，与内容同等重要，这点在业界一直被忽视。对话中，小冰不仅要与人类协调好节奏，还要协调好自己的节奏，以及其他语音助手的节奏，比如如何碾压半双工语音助手。必要的时候，小冰还要通过抛出新话题、强制维持原话题等方法打破对话中的沉默。此外，还存在非对称模式的情况，比如当人倾诉，小冰则要倾听；当人倾听，小冰则要倾诉。

3. 声音场景的理解：传统意义上的语音识别是指通过一段语言识别其中对应的文字，但全双工场景实现的理解远不止于此，它还包括分类器、环境处理和对象判断等方面。比如通过声音识别说话者的身份和情绪，以及听音识歌。再比如通过识别语音的声纹来判断对象，他/她是小冰对应的主要用户抑或是新用户；判断对象是在与小冰聊天，抑或只是多人聊天、电视背景音。

4. 自然语言理解与生成模型：这使得 IoT 上的小冰与微信等 IM 上的小冰区分开来，原因在于前者具备了自创能力，即每一句话都来自于小冰自己，后者则仍借助于检索模型等技术。据周力表示，小冰生成模型的底层技术是深度学习中的 LSTM+Attention Model。这有助于小冰实现更好的容错性，实现与语音合成的更好串行，以及实现主动结束 session 的判断。

小冰负责人李笛说到：“据我所知，Google、亚马逊、苹果都没有开始搞全双工，但是 Facebook 已经开始弄了，就是他们前一阵发布的关于闲聊机器人的论文。闲聊机器人的工作原理也是逐字理解，预测用户想法。不过他们还没有正式投入商业使用。”

商业落地的重大意义

回归文章开头提到的内容，微软并不只是把全双工技术做出来了，而是将其落地到实际商用系统中。虽然全双工技术在电话等方面已有些许实际应用场景，不过在人工智能领域，这项技术绝对算是「新鲜血液」。

可是 Google、亚马逊、苹果这三家并没有将全双工技术引入到自家的智能音箱之中，这又是为什么呢？DT 君认为，正如上文所说，全双工技术在智能音箱的应用中并不成熟，很有可能因为干扰问题。当通信双方的每一端的发送信号远大于其所要接收的远距离信号时，有效信号的接收就会受到强自干扰的影响，从而让全双工技术难以实现。解决方法虽然很简单，但是它会提高成本，变相降低了其商业落地的可实施性。

当然还有很多问题的考虑，但是 DT 君认为，想要验证一个颠覆性的技术，必须要把它从实验室拿出来，投放到市场中接收洗礼。若它能存活到最后，这才可以被世人所记住。微软敢于拿出来，这就是一个良性的开始。

-End-

转载声明：本文转载自「DeepTech深科技」，搜索「mit-tr」即可关注。

反向激励，在加速这个社会的黑化

把抄袭说的如此冠冕堂皇，雷军让年轻人丢掉了耻辱感

2024【公共营养师】报名通道已开启，不限学历，23岁及以上可报!还能领2000补贴

Wealth | 中国成本轮金价涨势的前沿和中心

父亲出轨后，母亲对父亲实施了她的精确打击 | 二湘空间