查看原文
其他

【科普资料】十大声学分支学科(十):语言声学

2016-05-14 声振之家


语言声学也称为语言通信,是近代声学中的一个分支学科,是用声学方法研究语言的产生、传递、接受和转换的一门科学。


语言是既具有自然属性又具有社会属性的复杂的信号系统。声学方法不但直接用于研究语言信号的声学特性本身,而且用于研究语言的心理特性和生理特性。语言分析、合成和感知是语言声学研究的主要方法。在研究语言时,声学特性是主要的;在研究音节时,便要考虑到音节结构;而在研究词句时,则又需要考虑语法和语意。因此,在语言声学研究中,还涉及到语言学和信息论。 


早在一二千年以前,人们便对语言进行了研究。由于没有适当的仪器设备,长期以来,一直是由耳倾听和用口模仿来进行研究。因此,这种语言研究常被称为"口耳之学",所以对语声只是停留在定性的描写上。

19世纪60年代,亥姆霍兹应用声学方法对元音和歌唱进行了研究,从而奠定了语言声学的基础;1876年电话的发明,以及电话通信的飞速发展,促进了语言信号的声学特性及其与语言感知的关系的研究。电子技术的发展,为语声的定量研究,提供了有力的手段。


20世纪40年代,一种语言声学的专用仪器--语图仪问世了。它可以把语声的声学特征用语图表示出来,从而得出了"可见语言"。这对语言声学的发展作出了重要贡献。50年代对语言产生的声学理论开始有了系统的论述,到了60年代语言声学研究得到了计算技术的帮助,使得过去受人力、时间限制的大量的话声统计分析工作,得以在电子计算机上进行。在此基础上,语言声学不论在基础研究方面,还是在技术应用方面,都取得了突破性的进展。


反过来,电子技术和计算技术的发展,又对语言声学提出了新的课题。当前,计算机的语言输入和语言输出、自动应答装置、自动语言识别、嗓音鉴别、语言理解系统等,都迫切需要对语言信号的许多基本问题作出新的解答。


根据声学观点,语言的产生可分成三个部分:声源激励、声道调制和声波辐射,其中决定语声性质的是声源激励和声道调制。语言产生的研究内容包括:激励声源的特性、发声器官的工作状态和声道的声学性质等。所采用的研究方法,大多是用电-力-声类比的方法,以建立声带波产生的模型、声道模型和语言产生的参量模型。

实验表明,由声道形状决定的共振峰,是主要的信息要素。目前,从语声中准确地分离出声源特性和声道调制特性来,还存在许多困难。为研究语言的产生,除对语声的物理特性进行研究之外,还对发声生理进行研究,如利用肌电图配合声学测量,来研究发声器官的肌肉活动。


语言分析是用分析的方法来研究语言的自然特性。其主要内容是:分析语声的时间特性和频率特性,以及发声器官的发声分析。语声的时间特性和频率特性包括:波形、长度、强度随时间的变化、短时间相关函数和功率谱、短时频谱分析、长时平均功率谱、共振峰分析和基频分析等。在说话时,语声是处在语流之中的。从一个短暂的时间窗口去观察语声的声学特性,便是短时频谱分析,而长时平均频谱则表示语言的统计平均特性。共振峰分析,是根据语音的频谱和语言产生的原理,推算出声道的共振频率。


基频分析,是从语言波中提取出声带振动的基本频率,其方法既可以是测量基频本身,也可以是利用谐波来求出基频。基频随时间的变化方式,构成了声调和语调,它们是重要的语声特征。在专用的语言分析设备问世以前,曾采用浪纹计和示波器分析语言波形,以后又使用滤波器组或频率分析仪。但是,对于大量的多变的语声来说,这些分析方法都有很大的局限性。因此,对语言特性的认识也受到一定的限制。


40年代出现的语图仪,可以把可听的语言描绘成可见图样--语图。这便是所谓"可见语言"。语图可以表现语声的三维特性,横轴代表时间,纵轴代表频率,而黑度代表强弱。语言频谱显示设备可以在一个电视屏幕上把说的话用语图的形式显示出来。此外,还发展了许多用于语言分析的专用软件,以便于利用计算机进行语言分析。


用人工模拟语言产生的过程,以合成出语言来,供直接应用或进行研究。最初是用机械的方法来模拟人讲话。在18世纪便做出了可以产生连续语言的机器。一直到20世纪30年代还在研制结构更为复杂的机械发声装置。它们所发出的语声的音质都很不好。


1939年出现了所谓语言合成仪。它是用电子线路来模拟发声器官的动作。其工作方式很像电子琴。一个受过训练的人,可以用它"演奏"出可以听懂的语言。另一种语言合成方法称为语图还音。把语图用墨线画在透明胶带上,再用一个音轮调制线光源来照射走动的胶带。根据胶带透射过去的光通量的变化放出语声来。由于在绘制语图时改动方便,所以语图还音装置曾在语言合成中起过重要作用。


20世纪50年代开始采用传输线来模拟声道。既可以整体模拟,也可以分段模拟。由一个适当的电源激励,经过放大器和扬声器,便可发出语声来。改变传输线的参量,便可以发出不同的语声。现在,利用电子计算机,根据语言产生的原理,把它写成一些发声规则和参量,再将其组合成语言。

自动语言识别是根据语言信号的声学待征,有时加上语言的结构规则和语意线索,由机器认出输入的语言来。可以根据使用要求,由机器以不同的方式作出响应,如打印出与该语声相应的文字、符号,完成规定的动作等。它分为孤立单词自动识别和连续语言自动识别,自20世纪50年代开始系统而广泛的研究。对单个人小量词汇的自动识别已取得了较大的进展;但是,在更换发话人和扩大词汇容量方面现在还有困难。


自动语言识别的实现,面对着三个重大的语言声学基础课题:首先,语言知觉的基本单位是什么,是音素、音节还是单词;其次,是否存在音素的心理常量,如果有,它是什么;最后,如何对连续语言进行分段。


现在,有限词汇的、在一定条件下适用的自动语言识别装置,已进入实际应用。适用于多数发话人的、不怕环境噪声干扰的和无限词汇的自动语言识别系统还有待于大量的基础研究。


嗓音鉴别也称为发话人鉴别,它包括两个方面:发话人鉴定和发话人辨别。发话人鉴定是根据发话人已有贮的嗓音(口声)材料,与发话人现时提供的材料相比较,鉴定是不是发话人本人在说话。这可用于银行业务中,存款人用嗓音代替印鉴,以便于通过电话来办理存取手续。发话人辨别是从大量的已有的嗓音样本中,辨别出哪一个与发话人的嗓音最相似或者与它们都不相似。

与自动语言识别不同,嗓音鉴别在于利用语声当中代表发话人个性特征的部分,而自动语言识别则是利用不同发话人或同一发话人在不同时刻发同一语声时的共性特征。嗓音鉴别多采用听音-看图法,即由有训练的专业人员审听嗓音材料、检视语图特征--声纹,以作出判断。嗓音鉴别已在法律程序中作为一种证据使用。


声码器是达德利在1939年发明的,由于语音质量较差、体积庞大、造价高昂,以致很长时间未能获得广泛应用。近年来,应用大规模集成电路做成的声码器,已可随身携带,其音质与普通电话相仿。因而不只可用于政府首脑通信和军事通信,而开始进入商用通信。


根据工作原理,声码器分为:通道声码器、半声码器(语声激励声码器)、相关声码器、谐和声码器、共振峰声码器、线性预测声码器和同态声码器等多种,发展较多的是通道声码器和线性预测声码器。用声码器来压缩语言信号的数码率,是实现人-机对话的重要手段。

来源:声学世界



声明:本微信转载文章出于非商业性的教育和科研目的,并不意味着赞同其观点或证实其内容的真实性。版权归原作者所有,如转载稿涉及版权等问题,请立即联系我们,我们会予以更改或删除相关文章,保证您的权利!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存