查看原文
其他

在和「小爱同学」相处数日后,我发现语音智能把 IoT 盘活了

2017-12-04 最「硬」的 深圳湾



- shenzhenware -


本周二,小米在北京召开了首届小米 IoT 开发者大会,雷军宣布,在接入 8500 万设备之后,小米 IoT 平台迎来全面开放,包含模块和硬件开放准入、米家 APP 开放接入、新零售渠道开放、智能设备互联互通开放控制和 AI 云、大数据的开放共享。


四个月前,小米的智能音箱「小爱同学」发布时,小米在 IoT 领域的积累为 AI 产品带来的助力就已经显露出来。



作为「小爱同学」的第一批用户,顺为资本投资经理段誉在自己的公众号上,撰文讲述了自己和「小爱同学」的相处时光,以及他对语音智能的一些行业洞见。


本文系段誉的投稿,深圳湾(公众号 ID:shenzhenware)在保留原文内容基础上,对文字进行了部分优化。


段誉,2013 年初加入顺为资本,主要负责考察移动互联网和智能硬件领域的投资机会,曾参与了华米科技、Yeelink、Ninebot、驭光科技等公司的投资。段誉毕业于北京大学经济学院,拥有经济学学士和硕士学位。业余时间,他喜欢健身和越野跑,曾完成了北京 TNF 21KM,宁海 50KM 越野挑战赛等赛事。


▎故事的开始


前两天朋友跑来问我,如何在自己的豪宅布置智能家居。交流了各种协议走线问题后,我问他控制中心怎么做,这位壕哥提出,打算用美帝的 Control4 的触控面板做中控。


美帝的 Control4 的触控面板


屌丝终于在此刻找到了自豪感,我淡淡地告诉他,自从用了粗粮家的「小爱同学」,家里的无线开关已经开始积灰了,更不用提智能家庭 App 了。


▎我在「小爱同学」身边发现了语音交互的妙不可言


虽然无法精确度量,但喜欢窝在沙发上看国剧的我,本能地发现说一句「小爱同学,关闭客厅的灯」,要比伸手去找遥控器(或者遥控器替代品)要省时、省力、耗能少。


某声学项目的 FA 曾严谨地比较过不同交互方式的优劣,当然他们的结论是 Voice First(语音交互优先)。而我的理解是:对于不同的指令任务,有不同的最佳交互路径。


对于复杂的长时间输入(例如写这篇文章,或是 coding),目前仍然需要键盘的支持。对于多轮次复杂逻辑的交互,视觉交互的反馈更快,触控也具有一定优势,例如重设一部手机,或是在 App 上买机票。


但如果是单轮轻度输入,语音交互的优势就会很明显,例如,让「小爱同学」帮忙设置早上 7 点的闹钟,绝对是「Killer App」。更有趣的是,在这个场景下,复杂的输入设置——早晨、7点、每天重复、确认——通过语音交互可以一气呵成,妙不可言。


键盘、鼠标、触控屏、语音,交互方式比较


我们更喜欢语音交互,并非因为有语音识别技术,或是语音智能对话,而是因为语音交互第一次突破了人机交互距离的限制。能够躺在床上/沙发上随意发号施令,过去只能由「真人助理」来完成,现在可以由设备来完成了。


虽然这些年 Siri 等手机语音助手一直致力于解决同样的问题,但单纯拿起手机按下 Home 键再举到嘴边做这个发号施令的动作,就已经很令人扫兴了,更不要说因为中文对话不够智能,Siri 时不时的答非所问。


除了语音交互技术之外,还有通过视觉或超声波的「隔空手势识别与交互」的技术,但它们相对于同样远距离的语音交互,使用的复杂度和学习成本都太高了。


▎我在「小爱同学」身后学习了远场语音技术


远场语音交互的一系列功能是如何实现的呢?它和近场语音的区别在哪里?


带着这些问题,我研究了相非老师的技术架构图:

远场语音技术架构,点击查看大图


在进行语音识别(包括本地和云端)之前,有一系列复杂的声学前端算法,包括:


  • 回波抵消(去除音箱自己播放的音乐)


  • 波束形成(只听人说话的那个方向,去除其他方向的干扰)


  • 去混响(去除桌椅板凳的声音反射)


  • 声纹识别(区分爸爸在说还是妈妈在说)


经过这一系列的声学处理,相对「干净」的语音信号才会进入负责唤醒的模型,唤醒之后才会进一步地进入云端负责语音识别的模型。


这一交互涉及到了:


  • 物理硬件层(声腔结构设计,麦克风阵列设计)


  • 信号层(上述声学处理)


  • 后续的数据层(语音识别、NLP、TTS 等)


这三层分别需要物理声学、信号处理、和计算机专业三个领域的人才相互配合,是一个相当复杂的系统工程。


以上这些知识,还只是语音技术层面。作为消费级产品,智能音箱想要达到好的用户体验效果,还涉及到产品层面、以及产品之上应用层面的一系列问题。


智能音箱多维度比较


▎我在「小爱同学」身上看到了未来已来


IoT 喊了很多年,从 20 年前的智能家居,到 2009 年无锡落地的物联网产业园,再到 2014 年火热的智能家居创业,乃至去年底孙正义大神提出的「鞋子比人更聪明」,IoT 都处在只打雷不下雨的尴尬状态。究其原因,我曾经认为是「云-网-端」三层中端的密度不够,即设备数量还不够多,从而数据量不够大,和人接触点也不够多。


根据小米最新公布的数据,MIoT 在 2016 年底大约 5000 万入网设备,2017 年中达到 6000 万台,2017 年 11 月在小米 IoT 开发者大会上,公布了 8500 万的入网设备。



在我看来,5000 万和 8000 万并没有本质的差别,但这些 IoT 设备一旦融入了智能语音交互后,原先的 App 指令控制、传感器触发,就变成了远场语音控制。这样一来,交互界面从单一的手机 App(家里不方便)、传感器触发(冷冰冰且不丰富),扩展到了无处不在的语音指令(方便且有温度)。


用 App 指令控制、传感器控制、智能语音控制的典型场景,以及典型设备


当然,语音交互绝不只是远距离版的遥控器而已。


独立于智能家居的硬件设备外,语音交互有机会将随身设备、车载设备、乃至互联网的一系列服务串联起来。常见的语音交互场景包括:在车里通过语音交互设备,提前把外卖点好(已经实现);在跑步时通过智能耳机,把家里的热水器打开(还需要解决低功耗唤醒问题);在家通过智能音箱,把凯叔召唤出来给孩子讲故事(已经实现)。


智能设备的落地场景、核心技术、以及服务聚合,点击查看大图


技术本身就是让原本少数人的特权(钢铁侠拥有的 Javis)飞入寻常百姓家。能够见证这一过程,的确令人兴奋。


投稿:段誉 / 深圳湾的好朋友

编辑:陈壹零 / 深圳湾

 题图:电影 / 钢铁侠


· ● 深圳湾语音智能专题 ● ·



// 语音智能深度分析 //

Alexa 未来趋势

语音技能 | 语音 OS 平台 | 语音助手

国内百箱争鸣 | 国外音箱全家桶


// 语音智能设备 //

Echo | Google Home

HomePod | 微软 Invoke 音箱

Facebook | 索尼 Xperia Hello

Anker | 天猫精灵 | 小米 AI 音箱

小雅音箱 | 叮咚 | Rokid


// 家庭陪伴机器人 //


索尼 Xperia Hello | Jibo 

Kuri | 富士康晓乐

Zenbo Qrobot 


// 语音智能平台商 //

DuerOS | AliGenie  | 腾讯云小微

思必驰 | 科大讯飞 | Rokid | 出门问问


//  方案商 & 开发者 //

DeepBrain | 海知智能 | 云知声

 图灵机器人 | 蓦然认知 微纳感知

羽恒科技 & 酷曼科技

杜志鹏 | 王兴超 | 杜军 | 宋少鹏


// 智能音箱产业链峰会 //

峰会回顾


// WARE 2017 语音智能峰会 //

第 II 季回顾

百度景鲲 | 富士康李国瑜 | 海翼阳萌 | Rokid Misa

思必驰赵恒艺 |  DeepBrain 李传丰 | 米唐宋少鹏

哈曼宋柏勋 | LifeSmart 董熠   | Vinci 朱大卫

灵隆科技魏强 & 超声音响刘晓彤 & 猫王曾德钧


第 I 季回顾

Alexa Travis Grizzel | 搜狗王砚峰 | 瑞声科技张金宇

优必选梁嘉豪 | Omate Laurent Le Pen | GGMM 童建超


· ● 热门活动 ● ·


12 月 7 日,「深圳湾·超级硬课堂」栏目的第 II 期,我们特别邀请了飞鱼设计合伙人吴冬,从产品定义、功能定义、用户体验优化、外观设计等多个角度,全面解读在中国家庭场景下,语音交互产品的软硬件设计。


长按图片识别二维码,极速预定课程!


· ●  深圳湾招人啦! ·


深圳湾招人啦!!!深圳湾正在招聘「真知灼见的科技记者」、「四通八达的运营编辑」、「才华横溢的市场策划」、「技能爆表的活动运营」、「热情四射的社区达人」,如果你对科技领域有满满的热情、想把玩最新最酷的科技产品、喜欢分享一切有趣科技成果,那就快到「湾」里来吧!

简历传输门👉 s@shenzhenware.com


深圳湾(公众号 ID:shenzhenware)连接全球硬件创新者,连接硬件生态链上下游,连接跨界产品的设计、技术、生产、渠道、商业、创新。深圳湾持续关注「AI+硬件」带来的场景和交互创新,以及与平台和应用相连的全产业链升级,欢迎相关团队与我们联系,微信私人客服:小炫(ID:warexx)


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存