声纹究竟靠谱不靠谱？声音的三个维度

查看原文

其他

声纹究竟靠谱不靠谱？声音的三个维度

2017-10-18 声振之家

来源：会听声学公众号（ID：huitingshengxue）授权转载

指纹、虹膜、人脸识别，越来越多的生物识别技术开始在消费市场中被应用。同时，一些我们乍看之下较为晦涩陌生的概念也进入了大众的视野，比如“声纹”、“耳纹”等概念。

今天我们就来讲讲声纹（Voiceprint）这个有趣的家伙。

首先，抛出一个自测提问：你用过声纹登陆自己的微信吗？

其实，微信声音锁的登陆功能2年前就有了。在安静的环境录制一段声音，后续该手机登陆微信时通过说话即可验证登陆。操作看似简单，然而大家却并没有非常踊跃地使用。而这似乎还是源自人们对这一声纹验证的安全性存有疑虑。

究竟，这个看不见摸不着的声纹有啥讲究的呢？接下来就用大白话简单唠一唠。

其实，就像指纹一样，我们每个人的声音也都有“纹路”上的差别。为了方便讲解，按照声音信息的长短分成了以下三个维度去讨论：音节、语音句子和语音段落。

音节维度

在我们说话的过程中，语音信号会随发音的不同而不停变化。为了想要研究声纹中不变的特征，我们就不得不把声音信号截取得尽可能短一些。一般情况，20-30毫秒长度的语音信号就可被假定为一个稳定的信号来看待。

然后，通过研究这个短时间信号的频谱及频谱包络，我们就可以提取到关于很多的声纹特征。

说到这里，我们就得稍微了解一下人是怎么发出声音的。

实际上，咱们之所以能发声要归功于我们的“呼吸”作用。

空气从肺部经过气管来到喉部，在声带（Vocal Folds）处产生振动，从而产生声波，并最终经过咽部、口腔传出。

在此过程中，我们的声带起到了至关重要的作用。如上两幅喉咙俯视图所示，声带既可以作为阀门控制通气与否，又可以作为振源振动产生声音。

而具体到每个人身上，发声的差异则是由声带的形状、声道的长度和尺寸、口腔的空间、牙齿舌头的位置等等因素导致。

本质上看，我们每个人的说话声都是复杂声波，是由一系列不同频率的声波叠加而成的。为了方便理解，我们可以把它当作是一个基频加上各种谐波的组合。而在声纹的识别过程中，最关键的往往就是识别出每个人自带的基频F0。

句子维度

前面我们研究了20-30毫秒的声音，那么如果把长度延长一些会怎么样呢？

当语音信息达到了句子的长度时，声音在韵律上的不同就凸显了出来：对于同一句话的表达，每个人会都有自己的声调、重音、停顿、语速等不同的呈现。

通过对调制频率的研究，这一部分的声纹特性也可以被刻画出来。但需要注意的是，针对这部分的特性信息比之前音节的会更难被采集提取，所以将需要更多的数据支撑。

不仅如此，它对于文本本身及语言种类的依赖性也更强。

段落维度

研究完韵律，我们再把研究范围扩大一些，变到语音段的大层面。

这时候，各地口音、同一个意思不同的选词构句、某些词的特定发音，甚至是通过哪种设备进行的语音表述，都会变成重点研究对象。比如，你用手机录音和自己直接的说话声其实就有差异。

这些特征和声音主人天生的物理特征关系不大，主要跟人的生活环境、受教育程度、个人性格特点、家庭环境有关。虽然关于它们的分析，需要比刚才更多的数据，但这种因素鲁棒性其实最高。因为它最不容易受到环境噪声和通道的影响。

最后，为了帮助大家记忆，小编贴心地制作了下图。

好啦，关于声纹特性的介绍就到这里。我们说说关于声纹安全性的考量。

我们不妨拿微信的声纹登陆作为例子来看，其实只要在旁边播放说话者之前的电话录音，任何人都可以轻松登陆该人的微信账号。

随着声纹识别的精细化，机器模仿人声的技术也在一起进步。类似柯南的蝴蝶结变声器的产品一定会在未来层出不穷，并且能把不同人声音的各种细节都模仿得惟妙惟肖。

也正是因此，声纹验证的未来更多的会是，搭载在其它生物识别技术上作为一个辅助身份验证，或在娱乐化产业（比如智能机器人听主人命令）中发挥身份识别的作用。

关联阅读：

比指纹、人脸更适于远程身份认证的声纹识别

《最强大脑》人机大战：声纹识别技术初露锋芒

厉害了！声纹鉴定能让“蒙娜丽莎”开口说话？

合成人类声音，语音不再是人类的专利！

声明：本微信转载文章出于非商业性的教育和科研目的，并不意味着支持其观点或证实其内容的真实性。版权归原作者所有，如转载稿涉及版权等问题，请立即联系我们，我们会予以更改或删除相关文章，保证您的权利！

反向激励，在加速这个社会的黑化

Wealth | 中国成本轮金价涨势的前沿和中心

“Green & IntelligentManufacturing” Chinese Bridge Online Program

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

券商大佬卸任，曾任多家券商及公募基金一把手！