取钱就朝ATM喊“给钱”?全靠声纹识别!
全文共1818字,预计阅读时长3分钟
小芯最大的白日梦,就是在对着ATM大喊一声“给钱”时,可爱的毛爷爷能在取钞口探出脑袋。
在AI时代,这或许不再是白日梦了。研究人员告诉小芯,只需要等待银行上线声纹识别系统,ATM就能够做到“要钱给钱”。
但这不过是用声纹识别代替了数字密码。要让ATM“遇声出钱”,最重要的还是——卡里有钱。
声纹识别能否实现?
音频信号处理,一直在人工智能领域研究中占有重要位置。
所谓的声纹,其实就是对语音中所蕴含的、能表征和标识说话人的语音特征,以及基于这些特征所建立的语音模型的总称。而声纹识别,则是根据待识别语音的声纹特征识别该段语音所对应的说话人的过程。
世界上没有两片相同的树叶,世界上也没有拥有一样声音的两个人。由于每个人的口腔、鼻腔、声带等器官的结构各不相同,发音时牙齿、舌头的运动更是千差万别,对于不同个体之间,声音的确是具有区分性的。同时,声音在人类成年后,可以在相对长的时间内具有稳定性,这也让其具备了标识人类身份的能力。
而且,声纹识别较之虹膜识别、面部识别更加经济,在信息采集过程中也更加方便,仅仅只需要麦克风的帮助。这让声纹识别有着广阔的应用范围与市场前景。
需要强调的是,我们常说的语音识别与声纹识别是不一样的。语音识别技术,其目标是以电脑自动将人类的语音内容转换为相应的文字,与声纹识别不同,语音识别并不能够确认说话人的身份。
当然,声纹识别研究目前还有着难以逾越的障碍。
首先,是声纹的安全度较低的问题。声纹采集需要个体对自己的声音进行录制。这样的数据是可以直接通关声纹识别的。不仅如此,如今有许多语音合成技术已经能够做到高度模仿声音采集对象。可以说,教会AI识别发声来源,是建立声纹识别系统的当务之急。
其次,声纹识别也会因为客观条件的变化导致其识别性能降低。例如,人的声音会受到年龄、身体状态、情绪等影响,从而需要大量采集个体音频以实现识别的准确性。
又如,在一些嘈杂的环境中,AI难以排除噪声从而顺利进行声纹识别。不过,目前,针对环境音的复杂性,许多研究所已经开始展开研究,并取得了较为显著的效果。相信,这一难点在不久之后就能够被成功攻克。
声纹识别如何实现?
声纹识别的研究最早可追溯到20世纪30年代,当时研究者们主要通过观察人类对语音的实际反应,研究人耳听觉机理对说话人的辨识。但直到1945年,“声纹”的概念才被正式提出。
现代的声纹识别技术通常可以分为前端处理和建模测试阶段。
所谓前端处理,即采集音频信号并进行特征提取的过程。在这一阶段,研究人员会录入大量的音频资料,并将其分为单帧。而为了减小吉布斯效应——即单帧划分音频后产生的不连续现象带来的影响,目前主要的做法,是引入能够减少截取后信号泄露的窗函数。
随后通过单帧音频的频谱,研究人员便能利用诸如线性预测倒谱系数等特征提取参数,对于频谱特征进行提取,并建立多复合声纹模型库。
到了建模测试环节,研究将会分为几个阶段。
首先,是让AI对某段音频进行特征处理,之后判断该音频是否属于预先建立好的多复合声纹模型库中的采样对象。这一阶段,AI可以知道,该音频的主人是否进行过声音采集录入,从而判断出有没有一对一匹配的必要。
紧接着,被判断为进行过声音采集的对象的音频,会被纳入一对一比较的范畴。也就意味着,第一步提取出的特征,将会与符合声纹模型中的每一个采样对象的参考模型进行匹配。
目前常用的匹配方法有许多,例如模板匹配法、概率模型法、人工神经网络法等.其中概率模型法具有灵活性强、理论意义完整等特点,是目前声纹识别中使用的主流匹配方法。
所谓概率模型法,即在给定的查询串中,不断定义理想结果集,从而定位查找目标的方法。通俗来讲,就是AI大致浏览结果文档,决定哪些是相关的,哪些是不相关的,然后系统利用该信息重新定义理想结果集的概率描述。重复以上操作,就会越来越接近真正的结果文档集。
运用这一模型也就意味着,在比较过程中,AI会不断缩减匹配集中的对象。当匹配对象缩减到一个时,便会作为正确结果输出,从而达到确定采样对象的效果。
读芯君开扒
声纹识别,是鸡肋吗?
对于吃瓜群众的我们来说,声纹识别缺乏安全性、准确性,用于代替银行卡密码恐怕并不明智。
但这对于公安司法、军队国防来说却有着重大意义。设想一下,如果有了高效的声纹识别,遇到电话诈骗,不需要查找通话地址、也不需要在银行守株待兔,通过一段电话录音,公安机关便能快速确认嫌疑人身份,进而寻找其下落。这无异于大大提高了公安机关的办案效率,也为规束民众行为、预防犯罪活动提供了有力支持。
留言 点赞 发个朋友圈
我们一起探讨AI落地的最后一公里
作者:羊习习
参考文献链接:
http://36kr.com/p/5129031.html
如需转载,请后台留言,遵守转载规范
推荐文章阅读
长按识别二维码可添加关注
读芯君爱你