其他
语音交互技术原理首先介绍一下语言识别的原理,语音识别由四个部分组成,一是解码器,二是声学模型,三是语言模型,最后就是特征提取的一个过程。语音识别是如何实现的呢?首先一段声音进入之后,语音识别系统会做声音的特征提取,把一段声音分成一帧一帧的状态,几个状态组成一个因素,这个因素就是声学模型。举个例子,我要去天安门,这个“我”其实被拆分成很多帧,几帧组成一个状态,这个状态翻译成“我”这个拼音,这就是声学模型转移的过程。声学模型就是把刚刚转成的因素,比如“你现在在干什么”,通过声学模型转成拼音,但是哪个“你”,哪个“现”,哪个“在”,是由语言模型来控制的,下图中可以看出“你现在在干什么”有很多不同的路线,每个路线都有不同的概率,这个是通过模型训练出来的,算出一个总的概率,取一个概率最高的路线,就是机器会显示的结果。语音交互方案车里的语音方案,第一步不管做语音识别还是采集都是麦克风,现在如果在车里有两个麦克风,就可以做左边或右边的声学定位,声学定位的功能是什么呢?比如在车里我要说一句话,比如说“我要开窗”,但是其实你不知道它要开哪个窗,但是车里如果三到四个麦克风就可以做空间的立体定位,它会做一个区分,开对应的窗户。麦克风采集完成之后就是做降噪,车内并不是很好的语音识别的环境,必须要做一个降噪芯片,主要功能是降噪和去回声,降噪就是把胎噪,发动机噪声,风噪,空调噪音以及其它一些路面的噪音消除。对于这些比较稳态的噪音,用一个降噪芯片就可以把这些噪音全部消除。降噪之后就是去回声,不管是打电话还是做语音识别都需要去回声的功能,因为打电话的时候会听到对面说的话,不做去回声会被收录进麦克风。给喇叭的同时会给去回声芯片一段声音,当它比对这两段声音一样,就不会收录进麦克风,这就是去回声的功能。当声音进入之后就可以做语音识别的动作,语音识别分两块,离线的语音识别和在线的语音识别,目前汽车联网率并不高,但肯定比离线要准,离线是把语言模型和声学模型放到本地去做,而车机本身的配置是受到局限的,不能把太多东西放到本地,所以在云端的配置肯定要高很多,服务器配置肯定比本地的高很多,这时候就需要加一个判断模块,能联网的时候自动走云端,不能联网的时候走本地。语音交互车联网解决方案现在车企需要的是一整套车联网服务,单独的语音识别已经满足不了整车厂的需求了,因此后台需要集成各种内容,像电台,网络音乐,股票,天气等都已经做到了云端,提供整套车联网服务,下面就几个专题逐一进行分析。1、实时+后台数据分析第一部分,对后台的语音数据如何分析?现在在量产的项目中,大多是在云端的,不管车机是通过4G,WiFi还是Tbox联网,车机都是有联网能力的,一些联网的车机用户在用语音识别时,数据都会传到云端,这部分云端数据怎么用,目前大家都在讨论,这个可以通过用户的数据建一个平台,实现到不同的项目不同用户的数据,有了这些数据之后就可以做一个简单用户画像,比如有的人喜欢听音乐,有的人经常导航去户外,之后车厂做营销的时候这部份数据会是比较好的参考。语音数据分析在汽车行业做得比较晚,在金融行业已经做了很多了,举个例子,大家都会经常接到推销保险的电话,而每个人接到的电话话术都是不一样的,因为我们基本上每个人在银行都有一个标签,他会基于历史的聊天记录去做一个判断,类似的事情,在车里也是可以这么去做的,因为车机以后也可能是个营销平台,它会去做一些后市场营销,比如卖正版音乐,卖耳机,卖保养,当我们知道用户在做什么的时候,给用户贴上一些标签,做一个变相的营销。当然没有一家语音公司可以拿到每家车厂的用户数据,如果要做的话,这个数据一定要存在主机厂或tr1的内网上,去做绑定,没有用户数据绑定的数据是没有价值的。后装市场很多时候跟用户是绑定不上的,用户用了你的后装车机,但他不知道你是谁怎么联系,这个数据是没有价值的。但前装不一样,前装知道你这个人,知道车牌号,在什么位置,叫什么名字,这些是非常有价值的,都会发在车厂的内网上。2、针对用户特征机器自学习第二个专题就是机器自学习过程,这是比较接近人工智能的。