在和「小爱同学」相处数日后，我发现语音智能把 IoT 盘活了

Original 2017-12-04 最「硬」的 深圳湾

- shenzhenware -

本周二，小米在北京召开了首届小米 IoT 开发者大会，雷军宣布，在接入 8500 万设备之后，小米 IoT 平台迎来全面开放，包含模块和硬件开放准入、米家 APP 开放接入、新零售渠道开放、智能设备互联互通开放控制和 AI 云、大数据的开放共享。

四个月前，小米的智能音箱「小爱同学」发布时，小米在 IoT 领域的积累为 AI 产品带来的助力就已经显露出来。

作为「小爱同学」的第一批用户，顺为资本投资经理段誉在自己的公众号上，撰文讲述了自己和「小爱同学」的相处时光，以及他对语音智能的一些行业洞见。

本文系段誉的投稿，深圳湾（公众号 ID：shenzhenware）在保留原文内容基础上，对文字进行了部分优化。

段誉，2013 年初加入顺为资本，主要负责考察移动互联网和智能硬件领域的投资机会，曾参与了华米科技、Yeelink、Ninebot、驭光科技等公司的投资。段誉毕业于北京大学经济学院，拥有经济学学士和硕士学位。业余时间，他喜欢健身和越野跑，曾完成了北京 TNF 21KM，宁海 50KM 越野挑战赛等赛事。

▎故事的开始

前两天朋友跑来问我，如何在自己的豪宅布置智能家居。交流了各种协议走线问题后，我问他控制中心怎么做，这位壕哥提出，打算用美帝的 Control4 的触控面板做中控。

美帝的 Control4 的触控面板

屌丝终于在此刻找到了自豪感，我淡淡地告诉他，自从用了粗粮家的「小爱同学」，家里的无线开关已经开始积灰了，更不用提智能家庭 App 了。

▎我在「小爱同学」身边发现了语音交互的妙不可言

虽然无法精确度量，但喜欢窝在沙发上看国剧的我，本能地发现说一句「小爱同学，关闭客厅的灯」，要比伸手去找遥控器（或者遥控器替代品）要省时、省力、耗能少。

某声学项目的 FA 曾严谨地比较过不同交互方式的优劣，当然他们的结论是 Voice First（语音交互优先）。而我的理解是：对于不同的指令任务，有不同的最佳交互路径。

对于复杂的长时间输入（例如写这篇文章，或是 coding），目前仍然需要键盘的支持。对于多轮次复杂逻辑的交互，视觉交互的反馈更快，触控也具有一定优势，例如重设一部手机，或是在 App 上买机票。

但如果是单轮轻度输入，语音交互的优势就会很明显，例如，让「小爱同学」帮忙设置早上 7 点的闹钟，绝对是「Killer App」。更有趣的是，在这个场景下，复杂的输入设置——早晨、7点、每天重复、确认——通过语音交互可以一气呵成，妙不可言。

键盘、鼠标、触控屏、语音，交互方式比较

我们更喜欢语音交互，并非因为有语音识别技术，或是语音智能对话，而是因为语音交互第一次突破了人机交互距离的限制。能够躺在床上/沙发上随意发号施令，过去只能由「真人助理」来完成，现在可以由设备来完成了。

虽然这些年 Siri 等手机语音助手一直致力于解决同样的问题，但单纯拿起手机按下 Home 键再举到嘴边做这个发号施令的动作，就已经很令人扫兴了，更不要说因为中文对话不够智能，Siri 时不时的答非所问。

除了语音交互技术之外，还有通过视觉或超声波的「隔空手势识别与交互」的技术，但它们相对于同样远距离的语音交互，使用的复杂度和学习成本都太高了。

▎我在「小爱同学」身后学习了远场语音技术

远场语音交互的一系列功能是如何实现的呢？它和近场语音的区别在哪里？

带着这些问题，我研究了相非老师的技术架构图：

远场语音技术架构，点击查看大图

在进行语音识别（包括本地和云端）之前，有一系列复杂的声学前端算法，包括：

回波抵消（去除音箱自己播放的音乐）
波束形成（只听人说话的那个方向，去除其他方向的干扰）
去混响（去除桌椅板凳的声音反射）
声纹识别（区分爸爸在说还是妈妈在说）

经过这一系列的声学处理，相对「干净」的语音信号才会进入负责唤醒的模型，唤醒之后才会进一步地进入云端负责语音识别的模型。

这一交互涉及到了：

物理硬件层（声腔结构设计，麦克风阵列设计）
信号层（上述声学处理）
后续的数据层（语音识别、NLP、TTS 等）

这三层分别需要物理声学、信号处理、和计算机专业三个领域的人才相互配合，是一个相当复杂的系统工程。

以上这些知识，还只是语音技术层面。作为消费级产品，智能音箱想要达到好的用户体验效果，还涉及到产品层面、以及产品之上应用层面的一系列问题。

智能音箱多维度比较

▎我在「小爱同学」身上看到了未来已来

IoT 喊了很多年，从 20 年前的智能家居，到 2009 年无锡落地的物联网产业园，再到 2014 年火热的智能家居创业，乃至去年底孙正义大神提出的「鞋子比人更聪明」，IoT 都处在只打雷不下雨的尴尬状态。究其原因，我曾经认为是「云-网-端」三层中端的密度不够，即设备数量还不够多，从而数据量不够大，和人接触点也不够多。

根据小米最新公布的数据，MIoT 在 2016 年底大约 5000 万入网设备，2017 年中达到 6000 万台，2017 年 11 月在小米 IoT 开发者大会上，公布了 8500 万的入网设备。

在我看来，5000 万和 8000 万并没有本质的差别，但这些 IoT 设备一旦融入了智能语音交互后，原先的 App 指令控制、传感器触发，就变成了远场语音控制。这样一来，交互界面从单一的手机 App（家里不方便）、传感器触发（冷冰冰且不丰富），扩展到了无处不在的语音指令（方便且有温度）。

用 App 指令控制、传感器控制、智能语音控制的典型场景，以及典型设备

当然，语音交互绝不只是远距离版的遥控器而已。

独立于智能家居的硬件设备外，语音交互有机会将随身设备、车载设备、乃至互联网的一系列服务串联起来。常见的语音交互场景包括：在车里通过语音交互设备，提前把外卖点好（已经实现）；在跑步时通过智能耳机，把家里的热水器打开（还需要解决低功耗唤醒问题）；在家通过智能音箱，把凯叔召唤出来给孩子讲故事（已经实现）。

智能设备的落地场景、核心技术、以及服务聚合，点击查看大图

技术本身就是让原本少数人的特权（钢铁侠拥有的 Javis）飞入寻常百姓家。能够见证这一过程，的确令人兴奋。■

投稿：段誉 / 深圳湾的好朋友

编辑：陈壹零 / 深圳湾

题图：电影 / 钢铁侠

· ● 深圳湾语音智能专题 ● ·

// 语音智能深度分析 //

Alexa 未来趋势

语音技能 | 语音 OS 平台 | 语音助手

国内百箱争鸣 | 国外音箱全家桶

// 语音智能设备 //

Echo | Google Home