聆音察理——声纹动态数字简介及其应用
验“金”室
声音是一种波,从感官上讲,虽然声音不如人脸和指纹的个体差异那么直观,但由于每个人的声道、口腔和鼻腔存在个体差异,所以每个人发出的声音也各有不同。声音不仅具有独特性,而且相对稳定。成年后,人的声音可以在很长一段时间内保持相对不变,这为生物特征识别技术在声音领域的发展提供了先决条件。
“闻声识人”:
计算机声纹识别原理
在经典谍战片《碟中谍5》中,要解开存有黑暗组织“辛迪加”信息的存储器,需要英国首相的一段语音,这里采用的就是声纹识别技术。
声纹识别是计算机通过声音判别说话人身份的技术。声纹是指用电声学仪器显示的携带言语信息的声波频谱。实验证明,无论讲话者是故意模仿他人声音和语气,还是耳语轻声讲话,即使模仿得惟妙惟肖,其声纹也无法与本人完全相同。这使得人们在某些场景中可依靠声纹鉴定技术对所采集的声纹进行检验对比,以确定所获证据是否可靠。声纹识别的方式可分为三大部分:特征、模型、打分。其工作流程大致如下:
提取语音进行预处理,提取特征;
利用训练好的模型,计算该语音对应的声纹模型或者声纹特征;
最后进行相似度打分,得到结果。
“琴瑟相调”:
声纹技术分类及对比
用于验证说话人身份的声纹就是通常人们说的声纹密码,声纹密码支持三种类型:文本相关(密码为指定文本内容)、文本无关(密码为非指定内容)和挑战式(密码有一定范围,由系统产生并提示用户,比如动态数字)。三种类型的技术说明和特点总结见表1。
表1 声纹密码说明以及特点
其中,挑战式由于密码是变化的,可防止声纹造假,增强安全性。挑战式声纹密码常被称为动态数字,因为数字串是挑战式声纹系统常用的密码,在声纹注册时,用户按照系统提示朗读一定数目的数字串;在声纹验证时,系统随机产生数字串并提示用户朗读;之后,声纹系统会判断用户的声纹特征,同时判断数字串的内容是否和系统提示一致。
“绘声绘色”:
动态数字式声纹应用于声纹登录
在面向客户的应用场景中,考虑到受众的个体差异,业界一般选用最容易接受的数字文本作为声纹注册及验证的内容。在数字文本模式下,动态数字具有随机性及不可预知的特点,相比固定数字具有更高的安全性,且防攻击效果好,因此,业界多采用动态数字的声纹应用模式。
目前,业界多采用“动态数字式声纹+人脸识别技术”实现声纹登录及身份验证。以手机银行的登录场景为例,声纹注册时,使用“声纹+人脸”多模态验证方式。采集用户声纹信息时,系统随机产生多组数字串,用户录入语音后,系统建立账户并保存特征码。同时,采用人脸视频活检技术进行防攻击检测,增强安全性。声纹登录时,系统随机产生一组数字串,用户录入语音后,系统对声纹和语音内容进行识别(如图1所示)。在内容识别方面进行容错处理,在满足客户体验的同时,兼顾识别的准确性和安全性。手机银行声纹登录充分利用了声音特性,在疫情期间为用户提供了便捷的账户辅助验证手段。
图1 手机银行声纹登录流程
“余音绕梁”:
声纹识别应用展望
随着物联网时代的到来,声纹识别将拥有更为广阔的市场前景。声纹识别技术使用方便,具有唯一性,识别设备成本低,适合远程身份确认,算法复杂度低,无论是应用于普通场景身份验证,还是作为高安全要求应用场景的辅助认证手段均有明显优势。未来,声纹识别技术将运用于对客服务和风控领域,辅助实现远程视频面审和电话客服的信贷审批及可疑交易确认等场景的欺诈风险检测和增强身份核验。声纹识别技术将会给我们的生活带来更多可能性,让我们拭目以待!
更多精彩内容
FCC30+
长按左边二维码
关注我们不迷路