想做语音识别的你,真的了解语音吗?
本文节选自《语音识别基本法:Kaldi实践与探索》一书!
--正文--
从起初的一声巨响,到梵音天籁,到耳旁的窃窃私语,到妈妈喊我回家吃饭,总离不开声音。
声音是这个世界存在并运动着的证据。
假设我们已经知道了声音是什么。
我们可以找到很多描述声音的词语,如“抑扬顿挫”“余音绕梁”。
当我们在脑海中搜索这类词语时,描述对象总绕不过这两个:人的声音和物的声音。
人的声音,就是语音;物的声音,多数是指音乐。
这样的选择源于人的先验预期:语音和音乐最可能有意义,有意义的事情人们才会关注。估计不会有人乐于用丰富的辞藻来描述毫无意义的声音。所以,语音研究的意义在于语音本身所传递的意义是什么,以及语音为什么能够传递意义。
声音有很多,每时每刻每次的振动都能产生声音,可是有意义的声音实在不多。
我们可以使用机器随机生成一段声音,心想着也许这段声音可以产生一些文字内涵。这个想法与很多年前就开始忙不迭地敲打莎士比亚巨著的大猩猩没有差别。不管重复多少次,这些随机的声音听起来都是噪声,没意思。
很显然,在这样一个庞大的声音空间中,有意义的语音和音乐只是其中极微小的一点,这也是“大音希声”的一种解释吧。偏偏人类就能毫不费力地找到那个点,并且能说会道,这种搜索能力也是千百年来积攒下来的。不过就算是这么一个小点,古往今来的文学和音乐经典也并未占据多少地盘,这也使得语音语言的研究、文学音乐的创作有着广阔的发挥空间。
从大音希声中,我们可以得到以下一些启示:
语言是高度概括和规范化的产物,它的熵值(简单理解为系统的混乱程度)极低,所以语言本身反映了一种思维方式,比如,不同语言对“过去时”“现在时”“将来时”的处理方式体现了对时间的不同感受,不同语言对主谓宾的排序体现了对空间层次的不同感知;还有,语音在声音空间中是高度集中的,这使得我们在解析一段语音时不用搜索整个声音空间,少了一些盲目性(不过语言本身的博大精深已让人叹为观止了)。
声音以波的形式传播,即声波(Sound Wave)。
当我们以波的视角来理解声音时,却又大繁若简起来:仅凭频率(Frequency)、幅度(Magnitude)、相位(Phase)便构成了波及其叠加的所有,声音的不同音高(Pitch)、音量(Loudness)、音色(Timbre)也由这些基本“粒子”组合而来。
下图展示了几种简单的波形,世上形形色色的声波都可以“降解”到基本波形上,这也是傅里叶变换(Fourier Transform)的基本思想。
不同的声波有不同的频率和幅度(决定音量),人耳也有自己的接收范围。
人耳对频率的接收范围大致为 20 Hz ∼ 20 kHz,于是以人为本地(其他动物可以听到不同范围的声音)将更高频率的声波定义为超声波(Ultrasound Wave)、更低频率的声波定义为次声波(Infrasound Wave);人耳对音量的接收范围已经进化到适应了地球上的常规声音,小到呼吸声、飞虫声,大到飞机起飞、火箭发射的声音(已经不是地球的默认配置),再往上,人的身心就越来越承受不住了,为了衡量音量的大小,再一次以人为本地将人耳所能听到的 1 kHz 纯音的音量下限定义为 0 dB。
语言是人类的标志性能力之一,是一项发明,只不过这个发明是人类群体在长远的历史中不断打磨而成的,趋近于稳定而不得稳定,因为新的事物和新的思想总是不断涌现,语言随之进化,根据社会的需要不断做出改变,比如小到每年产生的新词,大到一种语言的消亡和另一种语言的诞生(计算机语言也是一种情形)。
当语言通过声音的形式表达出来时,即为“语音”,它是指由人类发出的、承载特定语义的声音,其中语义不仅可以借助文字本身来传递,也可以借助声音的音高、音强、音长、音色及其组合来表示不同的情感、态度等信息。
语音是新一代人机交互方式,语音识别是实现这一方式的关键环节,也是实现人工智能的基本步骤之一。
想要了解更多语音识别基本法方面的内容,可以阅读《语音识别基本法:Kaldi实践与探索》一书!
▊《语音识别基本法:Kaldi实践与探索》
汤志远 等 著
清华语音团队打造!
全彩印刷,图文并茂!
语音技术全景图速览!
本书结合当下广泛使用的 Kaldi 工具,对语音识别的基本概念和流程进行了全方位的讲解,包括 GMM-HMM、DNN-HMM、端对端等常用结构,并探讨了语音识别在实际应用中的问题,包括说话人自适应、环境鲁棒性、小语种语音识别、关键词识别与嵌入式应用等方面,也对语音技术的相关前沿课题进行了介绍,包括说话人识别、语种识别、语音情绪识别、语音合成等方向,从而为读者构建一个完整的语音技术全景图。
本书的写作以让读者快速、直观理解概念为目标,只展示最基本的数学公式,同时本书注重理解与实践相结合,在对语音技术各个概念的讲解中都展示了相应的 Kaldi 语音处理命令,以让读者进一步融会贯通。
(扫码了解本书详情)
热文推荐