在和「小爱同学」相处数日后,我发现语音智能把 IoT 盘活了
- shenzhenware -
本周二,小米在北京召开了首届小米 IoT 开发者大会,雷军宣布,在接入 8500 万设备之后,小米 IoT 平台迎来全面开放,包含模块和硬件开放准入、米家 APP 开放接入、新零售渠道开放、智能设备互联互通开放控制和 AI 云、大数据的开放共享。
四个月前,小米的智能音箱「小爱同学」发布时,小米在 IoT 领域的积累为 AI 产品带来的助力就已经显露出来。
作为「小爱同学」的第一批用户,顺为资本投资经理段誉在自己的公众号上,撰文讲述了自己和「小爱同学」的相处时光,以及他对语音智能的一些行业洞见。
本文系段誉的投稿,深圳湾(公众号 ID:shenzhenware)在保留原文内容基础上,对文字进行了部分优化。
段誉,2013 年初加入顺为资本,主要负责考察移动互联网和智能硬件领域的投资机会,曾参与了华米科技、Yeelink、Ninebot、驭光科技等公司的投资。段誉毕业于北京大学经济学院,拥有经济学学士和硕士学位。业余时间,他喜欢健身和越野跑,曾完成了北京 TNF 21KM,宁海 50KM 越野挑战赛等赛事。
▎故事的开始
前两天朋友跑来问我,如何在自己的豪宅布置智能家居。交流了各种协议走线问题后,我问他控制中心怎么做,这位壕哥提出,打算用美帝的 Control4 的触控面板做中控。
美帝的 Control4 的触控面板
屌丝终于在此刻找到了自豪感,我淡淡地告诉他,自从用了粗粮家的「小爱同学」,家里的无线开关已经开始积灰了,更不用提智能家庭 App 了。
▎我在「小爱同学」身边发现了语音交互的妙不可言
虽然无法精确度量,但喜欢窝在沙发上看国剧的我,本能地发现说一句「小爱同学,关闭客厅的灯」,要比伸手去找遥控器(或者遥控器替代品)要省时、省力、耗能少。
某声学项目的 FA 曾严谨地比较过不同交互方式的优劣,当然他们的结论是 Voice First(语音交互优先)。而我的理解是:对于不同的指令任务,有不同的最佳交互路径。
对于复杂的长时间输入(例如写这篇文章,或是 coding),目前仍然需要键盘的支持。对于多轮次复杂逻辑的交互,视觉交互的反馈更快,触控也具有一定优势,例如重设一部手机,或是在 App 上买机票。
但如果是单轮轻度输入,语音交互的优势就会很明显,例如,让「小爱同学」帮忙设置早上 7 点的闹钟,绝对是「Killer App」。更有趣的是,在这个场景下,复杂的输入设置——早晨、7点、每天重复、确认——通过语音交互可以一气呵成,妙不可言。
键盘、鼠标、触控屏、语音,交互方式比较
我们更喜欢语音交互,并非因为有语音识别技术,或是语音智能对话,而是因为语音交互第一次突破了人机交互距离的限制。能够躺在床上/沙发上随意发号施令,过去只能由「真人助理」来完成,现在可以由设备来完成了。
虽然这些年 Siri 等手机语音助手一直致力于解决同样的问题,但单纯拿起手机按下 Home 键再举到嘴边做这个发号施令的动作,就已经很令人扫兴了,更不要说因为中文对话不够智能,Siri 时不时的答非所问。
除了语音交互技术之外,还有通过视觉或超声波的「隔空手势识别与交互」的技术,但它们相对于同样远距离的语音交互,使用的复杂度和学习成本都太高了。
▎我在「小爱同学」身后学习了远场语音技术
远场语音交互的一系列功能是如何实现的呢?它和近场语音的区别在哪里?
带着这些问题,我研究了相非老师的技术架构图:
远场语音技术架构,点击查看大图
在进行语音识别(包括本地和云端)之前,有一系列复杂的声学前端算法,包括:
回波抵消(去除音箱自己播放的音乐)
波束形成(只听人说话的那个方向,去除其他方向的干扰)
去混响(去除桌椅板凳的声音反射)
声纹识别(区分爸爸在说还是妈妈在说)
经过这一系列的声学处理,相对「干净」的语音信号才会进入负责唤醒的模型,唤醒之后才会进一步地进入云端负责语音识别的模型。
这一交互涉及到了:
物理硬件层(声腔结构设计,麦克风阵列设计)
信号层(上述声学处理)
后续的数据层(语音识别、NLP、TTS 等)
这三层分别需要物理声学、信号处理、和计算机专业三个领域的人才相互配合,是一个相当复杂的系统工程。
以上这些知识,还只是语音技术层面。作为消费级产品,智能音箱想要达到好的用户体验效果,还涉及到产品层面、以及产品之上应用层面的一系列问题。
智能音箱多维度比较
▎我在「小爱同学」身上看到了未来已来
IoT 喊了很多年,从 20 年前的智能家居,到 2009 年无锡落地的物联网产业园,再到 2014 年火热的智能家居创业,乃至去年底孙正义大神提出的「鞋子比人更聪明」,IoT 都处在只打雷不下雨的尴尬状态。究其原因,我曾经认为是「云-网-端」三层中端的密度不够,即设备数量还不够多,从而数据量不够大,和人接触点也不够多。
根据小米最新公布的数据,MIoT 在 2016 年底大约 5000 万入网设备,2017 年中达到 6000 万台,2017 年 11 月在小米 IoT 开发者大会上,公布了 8500 万的入网设备。
在我看来,5000 万和 8000 万并没有本质的差别,但这些 IoT 设备一旦融入了智能语音交互后,原先的 App 指令控制、传感器触发,就变成了远场语音控制。这样一来,交互界面从单一的手机 App(家里不方便)、传感器触发(冷冰冰且不丰富),扩展到了无处不在的语音指令(方便且有温度)。
用 App 指令控制、传感器控制、智能语音控制的典型场景,以及典型设备
当然,语音交互绝不只是远距离版的遥控器而已。
独立于智能家居的硬件设备外,语音交互有机会将随身设备、车载设备、乃至互联网的一系列服务串联起来。常见的语音交互场景包括:在车里通过语音交互设备,提前把外卖点好(已经实现);在跑步时通过智能耳机,把家里的热水器打开(还需要解决低功耗唤醒问题);在家通过智能音箱,把凯叔召唤出来给孩子讲故事(已经实现)。
智能设备的落地场景、核心技术、以及服务聚合,点击查看大图
技术本身就是让原本少数人的特权(钢铁侠拥有的 Javis)飞入寻常百姓家。能够见证这一过程,的确令人兴奋。■
投稿:段誉 / 深圳湾的好朋友
编辑:陈壹零 / 深圳湾
题图:电影 / 钢铁侠
· ● 深圳湾语音智能专题 ● ·
// 语音智能深度分析 //
// 语音智能设备 //
// 家庭陪伴机器人 //
// 语音智能平台商 //
// 方案商 & 开发者 //
// 智能音箱产业链峰会 //
// WARE 2017 语音智能峰会 //
百度景鲲 | 富士康李国瑜 | 海翼阳萌 | Rokid Misa
思必驰赵恒艺 | DeepBrain 李传丰 | 米唐宋少鹏
哈曼宋柏勋 | LifeSmart 董熠 | Vinci 朱大卫
Alexa Travis Grizzel | 搜狗王砚峰 | 瑞声科技张金宇
优必选梁嘉豪 | Omate Laurent Le Pen | GGMM 童建超
· ● 热门活动 ● ·
12 月 7 日,「深圳湾·超级硬课堂」栏目的第 II 期,我们特别邀请了飞鱼设计合伙人吴冬,从产品定义、功能定义、用户体验优化、外观设计等多个角度,全面解读在中国家庭场景下,语音交互产品的软硬件设计。
长按图片识别二维码,极速预定课程!
· ● 深圳湾招人啦!● ·
深圳湾招人啦!!!深圳湾正在招聘「真知灼见的科技记者」、「四通八达的运营编辑」、「才华横溢的市场策划」、「技能爆表的活动运营」、「热情四射的社区达人」,如果你对科技领域有满满的热情、想把玩最新最酷的科技产品、喜欢分享一切有趣科技成果,那就快到「湾」里来吧!
简历传输门👉 s@shenzhenware.com
深圳湾(公众号 ID:shenzhenware)连接全球硬件创新者,连接硬件生态链上下游,连接跨界产品的设计、技术、生产、渠道、商业、创新。深圳湾持续关注「AI+硬件」带来的场景和交互创新,以及与平台和应用相连的全产业链升级,欢迎相关团队与我们联系,微信私人客服:小炫(ID:warexx)。