干货 | 思必驰雷雄国:语音识别将是万亿级物联网设备的标配
- AISpeech -
敬请关注
11月13日,由B12、观数·涂子沛频道主办,智东西、良仓加速器、腾讯大浙网、创享基金联合主办的第二届万物互联创新大会「创业下一潮水:大数据与智能时代」在杭州召开。本次大会邀请国内外的尖端大脑,用一场盛大的跨界聚会,带你突破人类延伸的极限,探索人工智能的未来,创造脑洞大开的生产力。
图1 思必驰VP雷雄国演讲现场
你一定有所意识,人工智能的应用已经逐渐渗透到生活的方方面面,并开始影响、改变人们的各种习惯。在人工智能覆盖的众多应用里,语音识别无疑是最接地气也是落地最快的,例如,语音助手已经成为了智能手机的标配。
不过,语音识别的下一个战场并不是智能手机行业,国内外企业已经纷纷把目光投向了市场空间更大的物联网领域,这是语音识别乃至人工智能领域的一个最新的动向。在昨天的第二届万物互联创新大会上,思必驰副总裁雷雄国分享了语音识别公司的下一个突破口以及面临的挑战。
语音识别将成为万亿级的物联网设备的标配
其实上午有聊到很多的例子,讯飞听见的语音识别其实已经达到一个很高的水平。怎么样才能让未来机器为人服务,能够帮人完成任务这件事情,事实上还有很长的路要走。我们回头来看互联网以及交互方式的发展,能够看到一个比较清晰的脉络。
我们已经完成了从PC互联网到移动互联网的跨越,下一个阶段将是物联网(IoT),而在这个发展过程中,用户数基数是呈倍数增长的。雷雄国认为,围绕硬件形态以及联网的形态,在上述转变过程中,交互模式也在不断的发生变化。
传统的PC端,无外乎网页的搜索,文字形的。再到手机端是通过触屏的方式,甚至有一些带语音交互的APP,甚至包括手机自带的一些语音服务,都逐步从实验室走向大众消费者。举个例子,苹果早在iPhone 4s上就加入了语音工具siri,在此之后,siri在每一代iPhone中都有质的提升。从最开始命令式的控制,到最后聊天式,再到现在苹果未来大的方向,它真正能够达到一个助理、个人秘书的产品发展方向。
不过,智能手机市场已经遇到了天花板,语音识别公司也必须做出战略上的改变。那么手机之后,还有什么设备会集成语音识别的功能呢?
雷雄国给出的答案是所有物联网设备,小至智能音响,大到汽车、风力发电机,这些设备的交互方式都会因语音识别在未来得到改变。而这样的改变也是必然趋势,“因为它可能没有屏幕,或者屏幕非常小,这个时候语音的交互显得尤为重要。”
毫无疑问,如果每一台物联网设备都植入语音识别功能,那么以万亿级出货量的物联网市场来算,这将会是一个巨大的市场空间。
挑战:如何从听见到听懂?
这和语音交互密不可分,可以说语音交互第一个入口就是语音识别,语音交互能够得到快速的发展得益于声学模型、语言模型以及声学处理这三个核心技术的逐步成熟,以及移动互联网时代收集的大量数据。
不过,雷雄国也坦言,虽然语音识别已经达到非常高的可用化程度,但要从听见到听懂,还有很多挑战要克服。例如,对于人说话习惯的适应,以及在人使用这个设备时不同的场景,不同的噪音环境都会有比较大的条件。在这些深入垂直领域需要更多的技术人员,以及创业的团队,甚至像BAT这些大公司投入比较大的力量,把这些核心技术攻关掉。
从学术角度讲,有一种语义不确定性,即同一句话,它能够代表的意思根据上下文,根据你所在的用户使用场景,会是非常大的不一样。
雷雄国表示,围绕这个不确定性,在学术界语音识别公司要从语义,以及从多轮交互上,甚至在统计模型上做一些比较深入的解决方案出来,才能准确的识别信息;另外,深度神经网络也将在语音识别问题上发挥重要作用。
除此之外,在机器人以及其它形态的智能硬件中,因为交互距离会比手机更远,所以还需要加入一些远场降噪的核心技术,同时在应用场景上需要把一些回声对消做上去,这样使得整个交互场景更加的人性化,体验会更好。
具体来讲,从听见到听懂的过程就是人机对话。雷雄国表示,人机对话可以分成三类:第一类,闲聊式的,举个例子,用户说“我饿了”,siri会跟你说,你饿了就去吃饭呗,它的应用场景非常有限;第二是问答式对话,例如,用户问现在是几点钟了,语音助手就会给出确定的回答;第三类是最热的任务式对话,它会结合你个人很多信息,然后综合去判断接下来怎么样去做归零,完成一个任务。
这是一个完全不同的场景,例如你还是说我饿了,任务式对话会问你要吃什么菜,什么口味,大概是什么价位,以及你能够承受送货的时间是多少,等等这一系列的对话,通过这种对话式交互之后,最后才帮你解决问题,这是对话式交互核心要素。
雷雄国介绍,在任务对话模式下,要完成“我饿了”到实现定餐的闭环,有两个核心点:第一是语义,一定要理解“我饿了”,他并没有说要买什么东西,一定要理解他在这个情景下需要定餐;第二,对于这个意图的跟踪,多轮次的交互要结合上下文,甚至在纵向纬度需要结合你的日常,例如,未来我们可能会和阿里后台一些数据做一些对接,对于你饿了的习惯做一些多纬度的决策依据,做更人性化的自然语言交互。
这和传统一轮式的语音交互(语音输入进去,理解后给一个反馈)有很大的区别,我们需要有关于对话的管理,以及对于环境和当前对话所在的知识理解更为系列的后台知识库,围绕这些知识库做不同的反馈。最终的效果就是,不同的人说相同的话,机器也能给出不同的反馈。
中国为何造不出Echo?
在众多语音识别和智能硬件的结合案例里,亚马逊的Echo无疑是最受追捧的一个产品。但遗憾的是,中国有大量的智能硬件公司,也有不少优秀的语音识别企业,却并没有一款像Echo这样的产品。
雷雄国认为这主要有两个原因:
其中一个很重要的原因是交互并没有做好,我们知道亚马逊在做Echo这件事情上面投入非常大,第一是2C产品本身的事情上。万众创新,双创的这两年里死了非常多的创业企业,这里说明一件事情,要把硬件2C产品做好是非常难的一件事。
第二,人工智能整个语音交互,以及它背后不仅仅是语音识别,包括语义,包括你们听懂它之后,里面的内容和服务都是非常大的挑战。我们能够欣喜的看到国内有出类似的产品,但是并没有把这个热潮,把这个产品做成一个爆款。
综合这两个原因,我们可以理解为语音识别的落地需要以模式创新和技术创新为基础,尽管要做到这两点道阻且长,但可以确定的是,未来语音识别将无处不在,也是最有效地交互方式之一。
◆ ◆ END ◆ ◆