查看原文
其他

【AI智能音箱之夜】思必驰移动事业部总经理胡总分享文字记录

芯片超人 芯片超人 2019-04-22


点击上方“芯片超人”,选择“置顶公众号”


上周四,9月21日我们在上海张江IC咖啡总部举办了AI智能音箱之夜的活动,为了方便大家的观看,将视频剪辑成五个小段并配上文字(满满的都是干货呦)。


今天我们带来的是思必驰移动事业部总经理胡显刚胡总的分享

https://v.qq.com/txp/iframe/player.html?vid=o0553brdwnn&width=500&height=375&auto=0


 花姐的开场

   芯片超人创始人-花姐


各位现场的朋友和各位直播间的朋友大家晚上好,非常感谢大家在今天来到我们的AI智能音箱之夜,非常荣幸。在过去的三天时间,整个行业被我们的那张海报刷屏了。那张海报据我们的线上数据统计大概被点了一万多次,参与进来的朋友有六千多个,现场今天到达的朋友有一百多个。


非常神奇的是今天这次活动把这个行业链整个覆盖到了:从芯片到原厂、从方案商到设计公司、从供应链到分销端、从终端产品到资本,还有很多基金的研究员加入到我们这次的活动,真的是互联网传播非常神奇的一个事件。


智能音箱最近非常的火热,缘起这次活动是因为7月26号我来IC咖啡也做了一次分享,当时只是分享了IC分销供应链的事情,认识了一些新的朋友,在过去的一个月时间,我们一直就在攒这件事。


我们打算来讲讲AI智能音箱从芯片到方案公司再到资本方,我们一个一个的揣,让大家看到了那些海报上的那些人。待会他们会一个一个的分享,看今天我们是不是能够把这件事给他彻底的说透。


下面首先登场的是思必驰移动事业部的总经理胡显刚先生,05年他就在移动互联网领域开始了创业,整个互联网他都经历过,现在他在思必驰,思必驰也是在智能语音输出方面的巨头之一。



胡总的分享


胡显刚思必驰移动事业部总经理。05年开始做手机行业相关的的互联网,给三星、华为、诺基亚提供操作系统及提供java信息。做过游戏、投资等。

01

智音泛在 万物有灵


智音指智能音箱,也不只是指智能音箱,因为智能音箱它没有耳朵。智音应包含耳朵在内,未来所有的东西都会包含智音。万物在你说话时都会倾听你的声音,所以万物其实也是都有灵性的。


现代传媒学的奠基人马歇尔·麦克卢汉认为所有的人造物都是人体器官的延伸,我延伸了一下,我觉得人造的电子设备也是人体器官的一个延伸,比如所摄像头延伸了人的眼睛,麦克风延伸了人的耳朵,音箱延伸了人的嘴巴,互联网和移动互联网实际是延伸了人的大脑,它的延伸可能会比人现有的功能加强数百倍、数千倍。我们今天认为麦克风、音箱今天没有人好的地方,未来都会比人本身的功能好很多。


物联网的连接使万物都有感知,感知主要通过麦克风还有千里眼(摄像头)、顺风耳(麦克风),通过物联网和互联网使这些感知的功能会具备越来越强的人工智能,也就是我们讲得人工智能。今天我们讨论的大部分都是弱人工智能,以后可能慢慢变成强人工智能。



02

语音是最自然的交互方式


语音是人类最自然最古老的交互方式,其实不只是人类,动物与自然的交互方式大多也是通过语音来交互、交流。语音构成了人类文明的基础,人类因此可以合作、可以协作、可以共同去想象一些东西,可以建立军队、国家,可以有今天的高度的文化、科技文明。


未来带耳朵的音箱可以说无处不在,我们今天所看到的所有人造物大部分都有嘴巴、都有耳朵。三年前Amazon Echo出来之前,没有人说过智能音箱,亚马逊发明了智能音箱。


未来我认为智能音箱会以更多的产品形态去存在的,未来的小孩生下来可能会生活在一个童话世界。我会跟他说猴子会说话,桌子会说话,未来可能这些都会是有灵性的。孩子们会觉得父母的只会和身边一些物体的智慧其实是差不多的,孩子们分不清楚以前,身边的物体是不会说话的,孩子们可能以后会永远生活在童话的世界里。



03

 语音识别不断取得突破


1952年贝尔实验室了的Davis发明了一套软件系统,这套系统可以识别10个英文数字发音,但是只能识别他本人,其他人的声音识别不了。


1990年IBM抛弃了原来的一些专家通过模式、文法的方式,采用了统计模型的方法推动语音识别真正的产业化。


真正使智能语音大发展是剑桥大学HTK智能语音的开源的项目,今天的所有公司,包括FacebookGoogle、微软都是在这个基础上去在迭代、去开发的。


很荣幸,我们思必驰的技术其实是来自剑桥大学,我们的教授于凯在智能语音方面有超过二十年的研究,他当年也是HTK开源项目的贡献者之一。


2009年的时候,深度学习+GPU就可以处理互联网的海量语料,使语音识别大幅度提高,从以前的让人无法接受的70%~80%,一年时间迅速提高到90%~95%,基本到了一个可商用的阶段。2016年我们思必驰的语音识别率超过了97%。



04

智能语音技术从云走向端


智能语音通过GPU/云端的训练,在手机或者音箱等侧进行使用,随着技术的发展,智能语音正从云走向端,端其实就是我们所说的终端,在终端我们会发现智能语音还是会面临各种各样的问题,比如声源定位及跟踪、远场及集外噪声环境、超低功耗语音芯片、非配合使语音交互、词汇主题及应用领域的演变、丰富的音频等。


在端的过程中,Amazon算是比较有颠覆性的,他们死磕了几年之后终于Echo智能音箱做的比较好,主要采用了麦阵远场识别的技术,主要包括:远场唤醒、远场增强、降噪及定向,类似于一种鸡尾酒的算法。


Apple AirPods虽然发布到现在不到一年时间,但是他革新了整个耳机行业。现在欧美的高端耳机60%以上都被AirPods取代。AirPods也用了端的技术,比如双波成型的麦克风,语音加速的感应器,过滤背景噪音等。


华为和苹果本月都发布了新款手机,并且都是支持AI芯片的。

05

创新总是发生在边缘地带


一个行业总是从分到合,从分散到集中的阶段。在现有的行业不太可能颠覆小米、华为。如果我们要创业,我们新的机会总是发生在边缘地带、没有人关注的一些地方,就是我们所谓的颠覆式创新,因为在这里面他的价值链还没有完全形成,所以说你可以重新构造产业的价值链。


我认为做创新观念在两点,也就是微笑曲线的两端,一块是技术,一块就是市场。在早期很多技术不成熟、但是你做的某些领域,你自己没搞定的始终有别人搞定。我觉得产业协同才能把这个饼做大。


从整个产业链,包括从技术的维度来看的话也是在走一个从芯片到终端到软件再到云端的一个融合智能,这里面每一块都涉及智能的东西及算法。


思必驰公司

01

思必驰公司介绍


 对话智能:端到端非配合自然口语交流

对话智能:端到端非配合自然口语交流

 唤醒、识音(信号处理、降噪、增强)、识别、意图、反馈、内容、 合成

7分钟定制一个能力VS四个人月(3个工程师+1个产品经理)

跪式服务:语音产业链的仆人

人才黑洞:不拘一格降人才

02

 核心技术


 抗噪识别:VDCNN Aurora4测试集7%单系统WER领先



 语义理解:双向LSTM神经网络+聚焦机制 最高精准



 PSD快速解码:X20解码搜索速度



 任务迁移:对话、状态、跟踪,循环多样式(RPN)


03

市场份额

智能车载后装No.1

智能音箱No.1

智能故事机No.1


结束语

大方无隅,大器晚成
大音希声,大象无形



本次活动全部内容分享:

 AI智能音箱之夜,89页现场PPT分享

 思必驰移动事业部总经理胡总分享文字全记录

【AI智能音箱之夜】"思享国"开源硬件平台合伙人如是说

 老司机阿孔飙车载你重温AI智能语音之夜 | 文字全记录

 那些年,我们踩过的智能硬件供应链的坑

 从资本角度看AI智能音箱及智能硬件产业

 欢迎来切磋,拍砖更喜欢 |【AI智能音箱之夜】观众问题答案回复


 阅读原文来【芯片超人】,让采销不再难

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存