老司机阿孔飙车载你重温AI智能语音之夜 | 文字全记录
https://v.qq.com/txp/iframe/player.html?vid=m0554cys1uy&width=500&height=375&auto=0
视频全记录
老司机阿孔
滴!滴!滴!赶 快 上 车 了
阿孔带你巡航硬件配置,方案选择,主控赏析,Wifi/BT方案选择等内容,以下是分享文字全记录:
智能音箱一般会分为三个部分。
第一个部分是整个的音频前端,由麦克风矩阵和拾音算法组成。
第二个部分是硬件,所有的载体,都离不开硬件,硬件是基础。
第三个部分,接下来AI能不能智能听得清,能不能理解人说的话,目前还需要云端的语音识别和理解的方案。其中很重要的一部分就是要和云接和无线连接WiFi。
为什么要按照时间顺序呢?
在Amazon echo促使下,智能音箱市场火起来了。
对照表格可以看出,相关技术的一部分也是在不断往前进步的。
Amazon echo是在14年8月份发布的,它用的芯片是TI的,cpu使用的是ARM的,是当时ARM的第一代产品A8。它的频率只能跑在800~1000Mhz之间。echo采用的是环形6+1的麦克风阵列。目前这个技术也越来越成熟,后面我会详细的介绍。
麦克风阵列供应链
如果你拾音要想十分精准的话,你需要一些Audio ADC 、Audio Codec协助,以及涉及这些东西的方案。
接下来介绍JingDong A1,它采用的是2015国内的本土厂商 Allwinner R16,使用的是A7双核处理器,麦克风阵列也是采用了本土的方案-科大讯飞的7+1的麦克风阵列,BT/Wifi采用了正基的模块。
在国内AI音箱非常的火,我想重点强调两款产品:
7月5日发布的天猫精灵和7月26号小米发布的小爱同学。
我想强调的是什么呢?
大家从这个历史横轴上,我们可以看得出,随着echo市场的火热,整个的产业链都在不断提高自己的技术。
接下来咱们看看麦克风整列的方案。
我们如何解析芯片的能力?
你在选一个方案的时候,第一个是CPU,第二个是Wifi模块。
后续就是拓展性的东西,例如:GPU、Video……
ARM的产品技术:
其实ARM并没有用一个系列涵盖所有的应用产品。ARM的产品从Cortex系列开始(分为A/R/M三个产品系列),加起来刚好是ARM的缩写。
A系列主要针对high-level的应用来做的,假设你想跑安卓、跑智能化的OS那你选择系统必须要选择Cortex-A。
R系列一般应用于手机的基带、SSD、我们开的车里,可以说无处不在。
M系列很多应用于穿戴智能设备、智能的家电上,有时也应用于智能音箱上。
SecurCore系列广泛应用于 身份证、银行卡。
大家可以比较一下,下面这张图也是以时间轴往下走、大家可以看到对WIFI的支持标准也是不断的在升级,主要是增加WIFI连接的稳定性。
网上有同学在问WIFI和蓝牙的比较。和蓝牙相比,WIFI因为还涉及到路由器,所以对稳定的要求有点复杂。
另一个关键就是BT、蓝牙和WIFI很多时候是共存的,有时可以解决一些共同的应用场景。
最后发散一下,比如说以后NFC要不要加进智能音箱?智能音箱虽然说智能音箱,但是以后可能会变成家庭机器人那种?或者说是否可以购物?是否可以加视频?大家都可以发散自己的思维,开个脑洞,想想一下。
Others,我就想就说,今天的智能音箱基本上以交互为主。
就像刚刚有人提到的说:我脸转向音响的时候,音响是不是可以感应到我?我表情是在痛苦或是我比较欢乐,他是不是可以知道,他是不是会跟我一个互动?从方案考虑这些,需要VIDEO功能。
比如最早期的TI的功能,这样你就不能做到视频聊天、视频互动。如果你想选择一些图像处理,你要一些人脸识别、表情的识别等都要考虑再方案内,但是全部考虑还需要考虑成本。
比如视频不用的时候,你可以考虑做些数码相框,显示时间等,这时候就要考虑UI的东西。
另外还要考虑GPU,这些方方面面,都需要考虑进去。
欣喜的看到的是,国内的芯片行业蓬勃发展,以后我们很多的方案其实可以由我们本土的公司来去支持。
本次活动已分享内容: