查看原文
其他

从亚马逊 Echo 到谷歌 Home:浅谈麦克风阵列的生态

2016-10-27 清风 极客公园

 极客公园微信号:geekpark

智能家居 

本文为 云知声 投稿于极客公园,作者清风。头图/亚马逊 Echo(左)谷歌 Home(右)。


亚马逊和谷歌等大公司先后推出智能家居中枢产品,并且都选择了智能音箱作为切入点,推进人工智能落地的战略。这方面已经有很多文章涉及。这一次,我们从比较专业的声学麦克风阵列的角度对比一下这二者的高下,进而引出生态布局的思考。

在刚刚过去的 Google 秋季发布会上,谷歌正式推出了 Google Home 智能音箱。它是 Google Home 将自己的两大技术:Google Now(智能语音系统)与最新版本的 Google Assistant(智能服务平台)结合打造出的一款智能音箱。Google Home 作为谷歌最为看重的智能中控出生,并采用了双麦克风的硬件配置,售价定为 129 美元。

众所周知,2014 年亚马逊推出了第一款智能音箱 Amazon Echo,从推出起至今已热销超过 400 万台,俨然成为了最新一代的科技宠儿。据悉,苹果也即将推出 Siri 智能音箱。各大巨头和创业企业,纷纷看中智能家居中控这块「肥肉」,由此也拉开了人工智能领域新一轮战役的序幕。

Google Home 和 Amazon Echo 都代表了行业巨头通过智能 WiFi 音箱为入口,推进人工智能落地的战略。这方面已经有很多文章涉及。这一次,我们从比较专业的声学麦克风阵列的角度对比一下这二者的高下,进而引出生态布局的思考。

双麦克 vs 多麦克阵列 技术上各有高下

谈及 Google Home 的硬件配置,不难发现它和 Amazon Echo 相比有一个最大的差异,那就是少用了 5 个麦克风。Amazon Echo 采用的是环形 6+1 麦克风阵列,而 Google Home 只采用了 2 个麦克风阵列。

Amazon Echo 采用 6+1 麦克风阵列

麦克风阵列是什么呢?就是放置在空间中不同位置的多个麦克风。根据声波传导理论,利用多个麦克风收集到的信号可以将某一方向传来的声音增强或抑制。利用这种方法,麦克风阵列可以将噪声环境中特定声音信号有效的增强。由于麦克风阵列技术具有很好的抑制噪声和语音增强的能力,又不需要麦克风时刻指向声源方向,因此在语音处理领域具有非常好前景,可以用在非常广的应用领域。

根据麦克风数量不同,麦克风阵列具有不同的特点。行业采用的以双麦克居多,比如几乎所有中高端手机都采用双麦克降噪技术来提升通话效果。四麦克、六麦克、八麦克线性阵列和环形阵列在行业内也有应用,但还远远达不到双麦克应用的数量级。

首先,双麦克和多麦克阵列的一个重要区别,是成本的不同。显然,双麦克的成本相对多麦克低得多,除了可以直观观察到的麦克风数量不同之外,为了支持多麦克通道而必须具备的硬件电路、为了处理更多的信号数据而额外需要的计算能力,都使得成本体现较大的差异。所以我们看到两者的售价体现的极为明显,Google Home 为 129 美元,Amazon Echo 售价为 179.99 美元,差价约 50 美元。值得注意的是,这两家的硬件产品的战略没有多大区别,都是硬件基本不赚钱。

其次,双麦克和多麦克的技术路线区别较大。双麦克和多麦克采用的技术路线虽然有类似之处,但算法体系存在较大区别。显然,麦克风越多越容易实现更好的降噪和语音增强效果,所以为了达到同样或者类似的效果,双麦克阵列技术相对多麦克阵列的技术挑战性更高。但因为成本问题,采用双麦克阵列的技术挑战虽然大,但从应用普及的角度上却是大势所趋。

另外,从效果上看,如果技术优化足够好,在 3~5 米的家庭环境中,双麦克阵列虽然可以和多麦克阵列做到几乎一样的降噪和语音增强效果。但双麦克有个缺点,就是声源定位只能定位 180°内的范围,而环形麦克风阵列(不管是 4Mic、6Mic 还是 8Mic)都可以做到 360°全角度范围内的定位。所以 Google Home 只能有四个 LED 灯来显示状态,而 Amazon Echo 可以用 LED 灯显示说话人的方向。当然,这个差别仅对具有声源定位需求的产品存在影响,而且对一些本来就需要靠墙摆放的设备如空调、电视机等是没有任何问题的。而对于类似机器人等摆放在室内中央的产品,如果希望它能定位说话人位置,那就只能采用多麦克方案了。

最后,从产品的角度,双麦克方案简单更易落地。多麦克阵列最大的问题是,无论线性阵列还是环形阵列,其对产品的外观、结构设计都有极为严苛的要求,因为麦克风是要求必须在空间上均匀分布的。而双麦克显然就不必考虑这些因素。

基于双麦克阵列的产品生态构建更具优势

麦克风阵列作为实现智能语音的必备硬件,可以说是人工智能感知的硬件基础。因此,麦克风阵列的布局,将深深影响人工智能产品的生态布局。

首先,众所周知的是,谷歌是以生态见长的公司。比如,Android 构建了整个移动互联网的生态基础。在谷歌从移动互联网向 AI 转型的时候,提出了「AI First」的口号,并推出了开源深度学习系统 TensorFlow,这个系统被认为是人工智能领域的 Android。

那么,谷歌为什么在如此重视 AI 战略的时候,推出这款 Google Home 的智能家居产品,并且采用双麦克的方案呢?相信对于谷歌这样的公司,成本和技术绝不会是阻碍他们采用更好技术的原因。

据业内人士分析,最关键的就是上面提到的广泛的适用性和落地的便捷性,可能让谷歌最后选择了双麦克方案。谷歌布局整个智能硬件产业链,而非只打造一款爆款产品。现在做 Google Home 智能音响,以后也可能做电视、汽车等等,所以在软硬件选择上都会考虑更通用、更长远的方案。多麦克阵列对外观和结构的严苛要求,使得该方案的应用场景极为有限,不具备广泛的适用性,以 Google 的远大抱负,显然会选择适应性更强的双麦克方案。

目前,谷歌明确表示会部分开放对接的子系统,包括灯控、温控器、开关三大类,媒体分析,谷歌随后还会提供针对家庭第三方设备的免费软件开发包,以方便鼓励第三方开发商增加新的服务功能,提升 Google Home 的兼容性。以对抗出货量 400 万台的 Echo 营造的生态体系,因为 Echo 对接的名单已经是很长一大串,其中就包括了 Nest。

双麦克阵列在智能家居领域落地最为广泛

虽然多麦克阵列方案在业内炒的如火如荼,但在落地过程中,双麦克方案却成为家电产业中出货量最大的方案。据了解,目前国内主流家电厂商应用语音交互技术的产品中,包括乐视电视、海信电视、格力空调、美的空调、华帝烟机等,出货量最大的产品搭载的都是双麦克方案。

另外,国内的主流人工智能企业也都在双麦克方案上重点布局。据悉,仅云知声一家企业,目前搭载双麦克的芯片模组每月的出货量就超过几万片,而科大讯飞目前也在紧锣密鼓研发双麦克方案,争夺智能家居市场。

据家电行业资深技术人士介绍,从 2012 年开始行业内就开始寻求语音交互技术应用在家电产品中,并明确要求:

1. 用户直接通过语音方式控制产品,且不受产品自身噪声影响;

2. 一定距离的远场语音交互得以实现;

3. 方案成熟,成本控制。远场语音交互是关键中的关键。当时市场上普遍解决方案都是八个麦克风收音,虽然语音识别准度得以提高;但实施成本、结构难度、生产安装等问题却接踵而来。但像空调、电视这类家电产品,它永远都是贴墙放,八个麦克风在实际应用上是多余的。双麦克技术在任何产品上均可自然适配。

该人士称,双麦克风阵列的结构简单,成本低、容易实施、功耗低等特点让它更容易在家电产品中实现落地。相信在未来一段时间内,双麦克都将成为智能家居产品中的主流配置。

不同应用场景下自由配置

虽然双麦克有性价比和结构简单的种种优势,但并不能完全覆盖所有场景下的产品需求。

比如,在机器人领域里,对声源定位的要求比较高,所以一般都会使用环形多麦克方案。这两年国内比较火的 Rokid 机器人就采用了 8 麦克的阵列。

未来人工智能领域还需要更多适配的硬件,以满足不同智能产品的需求。因此,国内像科大讯飞、云知声等行业领军企业都相继推出了 6+1 麦克、4 麦克阵列方案,满足智能音响、机器人领域的产品需求。

从长远来看,麦克风阵列解决的只是感知这一块,更快的落地(双麦克更有优势)、更多种的形态(双麦克和多麦克阵列可配置),是建设人工智能生态的第一步。




/ 更多阅读 /


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存