【AI智能音箱之夜】"思享国"开源硬件平台合伙人如是说

原创 2017-09-26 陆斌泉 芯世相

点击上方“芯世相”，选择“置顶公众号”

上周四，9月21日我们在上海张江IC咖啡总部举办了AI智能音箱之夜的活动，为了方便大家的观看，将视频剪辑成五个小段并配上文字（今天分享的是第二弹，没有看第一弹的同学们可以从历史消息里观看一下哟）。

今天我们带来的是思享国开源硬件合伙人陆斌泉的分享。

https://v.qq.com/txp/iframe/player.html?vid=l0554b7warf&width=500&height=375&auto=0

“思享国”开源硬件平台合伙人陆斌泉分享部分视频

下面是文字全记录

通过AI音响硬件、技术、前景

带你全面认识AI音响

思享国开源硬件合伙人陆斌泉在演讲

首先今天带到现场和大家一起玩耍这三个音箱，分别是国内大火的小米的小爱同学、京东叮咚、天猫精灵，那市场上主流AI音响都有什么？这些主流AI音响都有什么构成？AI音响涉及的方案和技术是什么呢？今天我就从这些方面好好跟大家聊聊AI音响。

AI音响硬件

主流音响的设计除了出于美学和交互设计的考虑外，还要和音腔设计、麦列方案、等相互耦合，需要通盘考虑。

现在主流的AI音箱主要有主控、麦克风阵列、功放、codec、触摸电路、LED阵列组成，与传统音响最大的区别就是主控和麦克风序列。

ECHO智能音箱的拆解图

AI音箱和传统的WIFI蓝牙音箱第一个大的区别就是他有云端，AI音箱件事本身挑起的就是Amazon，因为Amazon因为有强大的云端语音处理能力，所以我们先从Amazon开始。

Amazon做了一个skill技能，到九月份skill技能已经突破了两万个了，Skill大家可以简单理解成手机端的一个和手机APP相类比的，一个语音端的的智能音箱的APP的npr接口。现在在这两万个的skill当中，上升最快的是三类的skill，播报式、指令式、互动式。

播报式主要是音乐和新闻；

指令式主要是我们传统的智能家居通过音箱来控制；

互动式主要是娱乐和游戏

我觉得后面智能音箱生态建立起来后，可能他的机会在智能音箱本身并不是很大。因为巨头都已经在做了，而且他可以硬件上不赚钱，但是在这个平台这上，比如说智能家居可能会迎来一个新的春天，还有一些游戏厂家、内容厂家可能会有一些新的机会。智能硬件的话其实我们也可以考虑如何和智能音箱相结合去做一些爆品，在这个生态系统上面去做一些事情。

在国内的话 bat各自也有自己的平台（腾讯云、DUEROS、AliGenie）也在做，来抢占这个流量的路口，科大讯飞、思必驰也在做一些从云端到整个硬件模块的一些方案。

AI音箱和传统的蓝牙音箱另一个区别就是它做了麦克风阵列，下图看到的是目前以6（+1）麦为主流的方案，图中（绿色的部分对应的是麦克风）。

AI音箱的麦克风阵列

AI音箱技术

最近两周我在家体验AI音箱，给我带来的感受，第一个是远程交互，通过关键词的唤醒就可以与他交流。我去做一些应用的时候葛优躺也可以，我还可以远距离的和他说话，我尝试过在家里有十米的距离我和它沟通，连上网之后我发现反应也是非常快的。最快的我觉得是Echo，从开始说话到反馈小于一秒，这个体验是非常好的。然后国内厂家的话，我觉得小米也是非常的快，天猫精灵稍慢一些，但是总体来说还可以接受。

AI智能音箱有哪些特点？

AI音箱对传统音箱主要有两大块的技术区别，一块是语音信号的前处理，包括回声消除、波速成型、音源定位、降噪、去混响、自动语音电平控制这块是偏硬件的控制。还有一块是智能语音交互，包括语音关键词搜索、本地语音识别、声纹识别、语音合成。

语音处理流程：语音检测→基本信号处理→模块唤醒→麦列信号处理→语音交互

第一步（语音检测）因为会有很多环境噪声，音箱要识别是否为语音这个是基础。

第二步（基本信号处理）识别到语音之后去判断是不是唤醒词、识别到唤醒词之后才开始启动麦克风阵列然后再进行语音交互。

Echo 框图

Echo TI的一个框图，主要是以语音信号前端 TI主要运用了DSP ，麦克风阵列主要运用了PCM1864去做的，DSP主要做了回声消除、波速成型、音源定位、降噪、去混响、自动语音电平控制。智能语音交互，主要运用了语音关键词检测、本地语音识别、声纹识别、语音合成.Echo能做到一秒钟的语音交互和在本地做的事情有很大的关系,当然还有云端做的速度非常的快.

语音检测（VAD）

语音检测（英文一般称为Voice Activity Detection，VAD)的目标是，准确的检测出音频信号的语音段起始位置，从而分离出语音段和非语音段（静音或噪声）信号。由于能够滤除不相干非语音信号，高效准确的VAD不但能减轻后续处理的计算量，提高整体实时性，还能有效提高下游算法的性能。

VAD算法可以粗略的分为三类：基于阈值的VAD、作为分类器的VAD、模型VAD。基于阈值的VAD：通过提取时域（短时能量、短期过零率等）或频域（MFCC、谱熵等）特征，通过合理的设置门限，达到区分语音和非语音的目的。这是传统的VAD方法。

噪声抵消

主要利用自适应滤波。自适应滤波，就是利用前一时刻以获得的滤波器参数的结果，自动的调节现时刻的滤波器参数，以适应信号和噪声未知的或随时间变化的统计特性，从而实现最优滤波。滤波挑取人声有效能量较大的频谱段300Hz〜2.7KHZ。

科大讯飞波形图原始声音加噪音后滤波后的波形图

声学回声消除

AEC也是一种常见的技术，在语音通话中，AEC是必不可少的基础技术。具体的AEC的目的是在音箱扬声器工作时，从麦克风收集的语音中，去除自身播放的声音信号。这是双模工作的前提。否则，当音乐播放时，我们的声音信号会淹没在音乐声中，不能对音箱进行有效的语音控制。

去混响处理

在室内，语音会被墙壁等多次反射，被麦克风采集到。混响对于人耳完全不是问题，但是，延迟的语音叠加产生掩蔽效应，这对语音识别是致命的障碍。

对于混响，一般从两个方面来尝试解决：

去混响
对语音识别的声学模型加混响训练。

由于真实环境的复杂性，一定的前端去混响算

法还是非常有必要的。

利用麦克风阵列去混响的主要方法有以下几种：

基于盲语音增强的方法，即将混响信号作为普通的加性噪声信号，在这个上面应用语音增强算法。
基于波束形成的方法，通过将多麦克风对收集的信号进行加权相加，在目标信号的方向形成一个拾音波束，同时衰减来自其他方向的反射声。
基于逆滤波的方法，通过麦克风阵列估计房间的房间冲击响应，设计重构滤波器来补偿来消除混响。

波束形成

波束形成是利用空间滤波的方法，将多路声音信号，整合为一路信号。通过波束形成，一方面可以增强原始的语音信号，另一方面抑制旁路信号，起到降噪和去混响的作用。

唤醒

出于保护用户隐私和减少误识别两个因素的考虑，智能音箱一般在检测到唤醒词之后，才会开始进一步的复杂信号处理（声源定位、波束形成）和后续的语音交互过程。

一般而言，唤唤醒模块是一个小型语音识别引擎。由于目标单一（检测出指定的唤醒词），唤醒只需要较小的声学模型和语言模型（只需要区分出有无唤醒词出现），声学打分和解码可以很快，空间占用少，能够在本地实时。

语音合成

语音合成又叫做文语转换，更常见可能是TTS这一称呼。TTS的终极目标是，使机器能够像人一样朗读任意给定的文本。评价实用的语音合成系统的两个主要的标准是可懂度（人能够听懂）和自然度（使人听着舒服）。目前，可懂度的问题基本得到解决。参数合成和拼接合成是TTS的两种主要合成方法，其中，参数计算量小，部署灵活，但自然较差；拼接接近真人发音，存储和计算资源高，一般只能在线合成。

声纹识别

声纹识别是据语音波形反映说话人生理和行为特征的语音参数，自动识别说话人身份的一项技术。微信中的声音锁就是声纹技术的一项具体应用。

End

欢迎关注思享国

天下方案一大抄，要抄就抄最好的

与好方案死磕到底

本次活动已分享内容：

AI智能音箱之夜，89页现场PPT分享

思必驰移动事业部总经理胡总分享文字全记录

后台回复"PPT",提取89页PPT文件

点“阅读原文”来【芯片超人】，让采销不再难

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

61岁上海大爷相亲：年轻貌美，婚后AA，不能吃太多