查看原文
其他

硬创先锋 | 这家来自中科院的创业团队 给了小米AI音箱一双“耳朵”

2017-09-22 寓扬 智东西

远场拾音+远场语音识别,声智科技从声学出发提供语音交互解决方案。

智东西 文 | 寓扬

随着远讲语音设备的兴起,人机交互变革可以说是2017年的一个火热话题,到处都在谈论着人机交互的演进以及对语音交互未来的看好。

围绕着语音交互,芯片、麦克风阵列、远场语音识别、语义理解、语音合成、代工厂商、平台服务、终端智能设备等相关厂商都在蓄势待发,力求抢占语音入口的先机。

而“唤醒万物”的第一步需要智能设备具有一双“耳朵”,听清人的声音,从而理解人的意图。而声智科技就是一家赋予智能设备“耳朵”的创业公司,它让设备听清我们的声音,为后续的理解做好铺垫。

近期,智东西与声智科技创始人陈孝良围绕远场语音交互展开对话,看看这位来自中科院声学所的学者式创业者,有什么样的创业故事,他眼中的语音交互行业又是如何?

一、来自中科院声学所的创业团队

陈孝良给人的感觉是健谈、务实。有时抛出一个问题,他都可以围绕公司以及行业侃侃而谈,但谈话的内容也很务实,没有假大空。

他在2003年进入中科院声学所噪声与震动实验室,从事工业级、国防级声学相关研究。而在陈孝良进入声学所之前,他则在金山做过一年软件工程师。他声称在金山跟雷军等人学习到很多营销的知识。

(声智科技创始人陈孝良)

在声学所一待十余年之后,随着语音交互入口的到来,以及陈孝良开拓新“疆土”的决心,他在2016年4开启创业生涯,创办了声智科技。

声智团队最初的成员来自中科院声学所的三个实验室:噪声与震动实验室、中科信利实验室与国家网络新媒体。其中,噪声与震动实验室主要从事声学相关研究,中科信利实验室从事语音识别研究,而国家网络新媒体的主攻方向则在云端。因此,从一开始声智团队就具备声学、语音识别、云服务三种能力。

声智科技目前有50多名成员,其中40多人都从事技术工作。其人员构成除了声学所外,还来自杜比实验室、亚马逊、谷歌等。而声智所提供的技术也分为前端的拾音(声学)与远场语音识别两块。

而在融资方面,刚刚成立的声智科技就拿到了峰瑞资本和360的天使投资。紧接着在去年10月份,声智获得1600万元Pre—A轮融资,由洪泰基金领投,峰瑞资本跟投。此外陈孝良也透露到,声智科技的A轮融资也在进行中,并将在今年10月份进行公布。

可见在语音交互这个大风口下,具有中科院声学所背景的声智团队获得了资本市场的青睐。陈孝良称,融资一方面用于扩大业务和生产规模,另一方面则用于技术迭代与投资前沿声学的研究。

陈孝良也谈到国内一线的家居品牌使用的大都是声智科技的技术方案,如小米、360、海尔等。此外,百度、腾讯、阿里巴巴、思必驰等也都是声智科技的合作伙伴。

二、远场拾音+远场语音识别

如果将语音交互分为拾音唤醒、语音识别、语义理解、垂直搜索、语音合成等环节,那么声智科技主要做的集中在前两块,即前端的拾音环节和远场语音识别上,完成获取用户声音,并听清用户声音,将声音转换成文本,再交由后端公司完成其他任务。

具体来讲,声智科技从声学出发为客户提供软硬件到语音识别的远场语音交互解决方案。它提供远场拾音到远场语音识别一整套技术,从而实现拾音和语音识别之间模型与算法的匹配,让语音识别的速度和精度更高,提供更好的前端效果。陈孝良谈到,“拾音、语音识别是很难拆分的两块,前面怎么处理,会直接影响后面的精度”。

(声智科技技术产品)

他还谈到,相对来说,远场语音交互的核心问题是解决真实场景下的声学问题,如混响、噪声问题等,而不在于简单的拿数据训练一个模型。而国内公司很少有团队专注于声学这块,这也恰恰是声智科技的优势所在。

在具体的业务上,声智科技有两条线。一条线是“给人听”的,偏重于声学方面,比如语音通话解决方案、视频会议方案。另一条线是“给机器听”的,主要是远场语音交互的智能设备,声智提供前端的软硬件解决方案,具体包括麦克风阵列模块(PCBA)、拾音算法、以及远场语音识别。

在拾音环节重要的就是麦克风阵列,相比于其他家的麦克风阵列技术,声智科技的方案能够以场景和用户为中心, 阵列的结构也更加开放。陈孝良提到,无论是单麦、两麦还是多麦克风的方案声智科技都有,但并不太关心这块,他们以场景为核心定位,结合场景和产品去决定使用具体的方案。

比如智能音箱就比较适合用环形的麦克风阵列,笔记本适合线性的阵列,而很多家电设备则适合“L型”的阵列。另外也要考虑客户对效果的需求以及成本,来给出最适合的方案。

而在语音识别上,声智科技只做远场语音识别,目前远场识别的准确率在90%左右。而远场语音识别最大的痛点在于环境的复杂性,如房间里的混响、噪声等。语音识别的提高,尽管可以用自适应的方式来做,但总是有一些负面效果。这需要前端物理模型的更新,后端云平台训练模型的更新。

目前声智科技的技术解决方案主要应用在智能家居、车载前装、安防和金融场景,具体产品则有智能音箱、智能电视、消费机摄像头、安防级摄像头、车载设备等。这方面的客户则有小米、360、联想、京东、创维、海尔等。

三、工业级应用成核心盈利来源

尽管当下语音交互以及智能音箱火热,但是市场尚未打开,销量也没起来,声智科技又是如何盈利的呢?

(声智科技开发套件)

陈孝良坦言,声智的商业模式很简单,就是卖方案,具体而言就是卖硬件,语音识别则是免费的。在硬件方面,声智科技出售麦克风阵列模组、PCBA电路板以及多个系列的开发套件。

尽管去年刚刚成立,声智科技现金流已经为正。陈孝良表示,声智去年盈利已达百万元,而今年则在千万量级。

但其核心的盈利场景并不在智能家居、以及消费电子领域,而是工业级应用上, 如安防摄像头等,这块工业级应用占据了声智科技盈利的八成左右。

可见,尽管智能家居是众多企业深耕的一个场景,但是当下的智能硬件并不赚钱,公司需要依靠多元的业务结构尤其是现金牛业务来支撑企业的发展。

四、远场拾音当下的痛点问题

在远场拾音领域目前主要有两个流派,一种是以科胜讯为代表的将数据处理放在前端硬件实现,但陈孝良称这种方式的弊端是硬件端的升级较为麻烦,更新周期也更长。另一种是以谷歌为代表的将技术架构都放在云端,为了降低硬件端的计算因此选择了两麦。

而声智科技则选择了介于两者之间的路线,考虑到前端硬件迭代成本较高,将不依赖数据处理的放在前端硬件,将依赖数据处理的置于云端,升级的话只需要升级软件即可。

但陈孝良也谈到,消费级麦克风阵列技术刚刚开始,我们目前的技术只做到了能够应用,但效果并不够好。远场拾音上面临环境的复杂性,以及如何低成本的解决环境噪声、人声干扰等问题。而这需要麦克风的升级(矢量麦克风)、算法的迭代,还有很长的路要走。

目前的麦克风阵列技术还停留在声源定向层面,还没有做到声源定位,更不用提声源追踪。比如,你在移动中和智能设备进行沟通,由于波束形成,它会抑制主瓣之外的声源,在背景噪声存在的情况下,很可能无法完成交互任务,而这有赖声学前沿技术来解决。

此外,麦克风阵列也无法做到同时与多人交互。目前的波束形成技术还是单波束声源定向,这意味着会重点拾取某一个方向的声源,从而抑制其他方向的声源,因此机器无法同时与多人进行交互。而目前多波束技术还没有做到,即便多波束做到后又会诞生更复杂的问题,比如多波束如何分辨等,这都需要声学前沿技术的进一步突破。

五、看好电视、车载场景下的语音交互

在语音交互场景下,陈孝良谈到,明年他更看好智能电视,一方面传统电视需要升级,另一方面互联网电视也存在海量资源与高效获取的矛盾,语音交互是比较契合的刚需。而时间再晚一点,汽车中的车载设备也是也是一个比较看好的市场。

关于智能音箱,他认为如果把聚焦点放在“智能”上则不看好,因为很难靠智能带起一个新品类。但是如果把关注点放在“音箱”上,这个市场本身就存在,把智能音箱看做是蓝牙音箱的升级,一定的销量则是没有问题的。

(小米AI音箱使用声智科技远场语音交互方案)

而智能音箱市场的销量能否够爆发?他认为还需要半年时间来验证智能音箱这个趋势是否成立,然后才能再去验证何时能够爆发。百万量级是一个坎,如果这个销量达不到,那么人工智能的第一波就“硬着陆”了。

国内智能音箱真正的火热还要从BAT等互联网巨头的入局,他认为BAT等公司做智能音箱只是一个突破口,是第一个AI落地的验证产品,是对自身技术的验证。正如同小米AI音箱,音箱只是一个落地产品,而小米的AI大脑则是战略产品。

此外,新的人机交互方式、语言入口,必然会诞生新的平台出现,从而成为下一个巨头级企业。目前百度推出了DuerOS平台、思必驰推出了DUI平台,科大讯飞也有自己的AIUI平台等等,不论是互联网巨头,还是语音技术公司以及创业团队都在涌入语音交互平台。

陈孝良认为,做平台前期需要巨额的投入,来补贴上下游的合作伙伴以及客户,从而为各方创造价值。这也决定了未来平台需要大量的投入,也会面临激烈的竞争,众多玩家中只有几家能够存活。

以淘宝为例,它的成功不是技术的成功,而是商业模式的成功。淘宝在前期也花了很大的精力去拉商家做补贴。可见平台前期需要大量的投入,去补贴合作伙伴补贴客户,从而共同打造一个生态,这和做技术是完全不同的思路。

虽然现在各家都在拉合作伙伴做开放平台,但是现在的AI平台,并没有过多考虑合作伙伴的利益,也没有将补贴落到实处。平台最怕的就是没人用,一旦没有客户进入,所有的平台、合作伙伴都会成为空谈。

他还认为,平台的核心是在于商业模式,目前各家平台都处于起步阶段,各家都存在机会,但各家的策略十分重要,不能拿技术的思路做平台。未来谁家平台的策略更精准,能够获得客户,为产业链上下游合作伙伴创造价值,谁就能够获得更多优势。

结语:风口下的语音交互行业

随着语音交互的火热,行业对于声学需求也在不断增大,也推动了中科院声学所这样的科研学术机构走到了时代的前沿,涌现出了像陈孝良这样的创业者,将更多的声学研究应用于消费级场景。

但是语音交互才刚刚开始,一方面需要整个产业链打磨自身技术,并提供更多优质的应用技能。另一方面就声学本身而言还存在远场语音识别、声源定位追踪、多人交互等难题,需要更多前沿科技的投入,共同推动行业的发展。






延伸阅读

点击下方图片直接阅读





加入社群

智东西行业社群继续招募

来这里,遇见潜在的行业伙伴!

要进群,请加小助手微信zhidx007

请备注相应群的关键词👇审核后邀请进入

人工智能 · 自动驾驶 · 机器人 · 物联网 · 智能家居 · 无人机 · 智能医疗 · VR/AR




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存