查看原文
其他

王雅琴、刘海涛:数据驱动语体研究的进展与前瞻

点击蓝字关注👉 语言治理
2024-09-03

数据驱动语体研究的进展与前瞻

王雅琴 广东外语外贸大学

刘海涛 浙江大学 



摘    要:

语体研究是应用语言学研究的重要领域,但因涉及因素多,不少问题仍亟待解决。数据驱动的定量方法为语体研究带来了新的机遇。本文首先介绍语体研究的主要方法,包括语料库语言学方法、多维度多特征分析以及计量语言学方法,继而从理论描写和实践运用两方面回顾语体定量研究的新进展,并对前人研究的局限和不足进行述评,最后从完善定量方法、拓展理论描写研究和加强实践导向性研究三个方面展望未来研究趋势。

关键词:

语体研究;多维度多特征分析;计量语言学方法;数据驱动;  

文献来源:王雅琴,刘海涛.数据驱动语体研究的进展与前瞻[J/OL].现代外语:1-11[2023-06-23].



01

研究背景

语体研究是应用语言学研究的重要组成部分和研究热点。传统研究多从个别、具体语言特征出发,未能概括语体的复杂性和特殊性。近年来,数据密集型科学研究蓬勃发展,基于数据的方法因可反映语言的本质特征——梯度性和概率性,提升对语言规律的解释力(刘海涛 2021),为语体乃至语言研究带来了新的机遇。数据驱动方法的精确性和复杂性有助于在理论层面发现普遍的语言学规律。如果将理论层面的发现应用于现实生活,将有助于解决语言学的实证问题,推动实现应用语言学的学科目标。这样一来,应用语言学研究与真实语言使用间的联系势必更为紧密,可在更广泛的意义上推动语言学学科发展。数据驱动的方法也可用于解决语体研究长期存在的问题:如何从数据角度掌握语体的复杂特征?该研究范式会为语体研究乃至语言学研究带来怎样的机遇与挑战?本文从数据驱动的语体研究出发,对前人文献进行整理,从研究方法、理论描写研究和实践运用研究三方面介绍相关研究的优势与不足,以期为新文科建设背景下的语体研究提供借鉴和参考。

02

定量语体研究方法

与传统研究相比,数据驱动的研究方法是语体定量研究的核心部分。该领域的研究方法主要有语料库语言学方法、多维度多特征分析方法、计量语言学方法以及机器学习、自然语言处理方法等。自然语言处理和机器学习方法主要包括K-近邻算法(K-NN)、朴素贝叶斯分类方法(naïve Bayes)、支持向量机(support vector machine)、泽塔法(Zeta method)等(Savoy 2020)。近年来,随着深度学习方法的崛起,大数据和人工神经网络方法盛行,卷积神经网络(convolutional neural network)和循环神经网络(recurrent neural network)等方法被大量使用(Wanetal.2021)。在语言学领域,语料库语言学和多维度多特征分析方法经常同时出现,可归为一类。应用较为广泛的研究手段还包括计量语言学方法。本文重点从这两方面对研究方法进行介绍。

第一种常见方法是语料库语言学和多维度多特征分析方法。该类方法基于语料库收集的真实语言材料,使用语料库语言学方法(如关键词检索、高频词、词语搭配、语义韵以及语法类别等),将材料中的词汇和文本特征量化,再集合统计方法(如聚类分析和主成分分析法等)和语体理论,描述和比较不同语体的风格。其中,Biber(1986)的多维度多特征分析模型(multi-dimensional analysis)是基于语料库语体研究中应用较多的方法。该模型立足于统计科学中的多元分析,定义了多个维度,包括了文本中频繁共现的词汇语法特征。总的来说,Biber对语体特征与语体变异模式的考察反映了语言的概率性本质。该分析方法通过模型构建,从系统和宏观的角度概括不同的语体特征,打破了传统的二分法,从而确定语体规范,对语言运用有非常重要的指导意义。

第二种研究方法是计量语言学方法,指在系统观的指导下,基于真实的语言材料,采用数学的方法对语言现象、语言结构、结构属性以及它们之间的相互关系进行抽象和动态分析描写,以揭示语言现象的规律(刘海涛 2017)。此类方法包括计量语言学的词汇特征指标、依存关系、语言层级定律参数以及复杂网络方法等。本文以依存关系为例,介绍相关方法的逻辑思路。依存语法的观点认为,句子是有组织的单位,其基本组成元素是词,词与词之间相互联系。这种关系通常是不对称的,在构成依存关系的两个词中,一个是支配词,另一个是从属词(刘海涛 2022)。从心理学和认知角度来看,基于依存距离的语言分析或理解反映了一个词会一直保存在人的工作记忆中,直到和从属词结合,产生实际意义,因此依存距离的大小反映了句法关系的认知负荷程度。很多相关研究采用多个类齐普夫分布模型(Zipfian distributions)对依存距离分布进行调查,探索语言和语体的普遍性与特殊性,如右截尾修正齐普夫-阿列克谢耶夫(Right Truncated Modified Zipf-Alekseev)模型。该领域的实证研究发现,很多语言都符合该类幂律模型分布,呈现出依存距离最小化(dependency distance minimization)的趋势(刘海涛2022),反映了句法结构模式受人的普遍认知机制约束这一规律。模型参数亦可反映语言和语体差异(Wang&Liu2017)。这对理解人类认知机制和语言间的关系有一定启示,对语体的普遍性和复杂性调查也有借鉴意义。

03

理论描写研究

除了宏观调查之外,亦有很多研究从微观视角出发,包括自上而下和自下而上两个角度(Biberetal.2007),调查同一语体内部或话语分析、语用功能以及语言结构的特点。

自上而下的研究以传统语体理论为框架,如系统功能语法、Swales的CARS(create a research space)模型等,语料库方法多为辅助手段,统计某一类语体或话语中的特定语法构式、词串的频次,对文本的修辞手法和话语功能进行分析(Blanco 2020)等。该类研究结合定量结果和定性分析,探讨不同语境中的话语特征或语用效应。

相对而言,自下而上的研究范式通过统计相关的词汇语法特征,对重复出现的语言特征进行总结分类,对某一类语体(如诗歌(Pan&Liu 2021)、社交媒体(Wang&Liu 2022))或语言结构和语法难度(Biber etal. 2022)进行调查,包括基于多维度多特征的分析和计量语言学研究。就话语功能而言,Biber团队(Biber etal. 2021b)将多维度多特征分析模型中的词汇语法特征延伸至情境方面,对情境特征进行标注,进一步细化语体分析,调查同一语体中不同语境下的文本类型,尤其有助于描述网络媒介中的复杂文本类型。Sun etal.(2021)在修辞结构理论的框架下,结合依存树库计量方法,搭建依存结构树,计算平均话语距离(mean discourse distance),再使用复杂网络的方法,从语篇的角度调查语体风格。该研究首次验证了此类方法在语体研究中的可行性,并揭示了前人研究未发现的语体特点,突出了系统科学方法的优势与长处。

04

实践运用研究

语言作为一种由人驱动的复杂动态系统,受到人类认知机制的约束和影响,而语言研究的意义在于发现人类认知规律和机制对语言系统运作的影响。因此,基于真实语言材料,使用数据驱动方法对语体进行描写研究,运用定律抽象总结语言规律,有利于深化对语体乃至人类语言的认识。对语体的理论描写主要包括两类研究:宏观视角下对不同语言、语体的对比研究和微观视角下对特定语体、话语和语言结构的调查。

宏观视角研究主要从同一语言内部和跨语言的语体对比两部分出发,调查语体特点。就同一语言内部分析而言,一类研究基于真实语言材料,采用语料库语言学和多维度多特征分析方法,对不同语体进行宏观描写。这类研究主要围绕同一语言或同一语言变体展开宏观调查,如英语、西班牙语等印欧语系和日语、韩语等其他语言,亦有不少研究围绕汉语展开。例如,刘艳春(2019)对汉语语体进行对比分析,在建立多维度多特征分析模型时,纳入了汉语的独特特征,对汉语语体研究有启发意义。该类研究多关注具体的词汇语法特征和背后的功能特征。另一类研究——计量语言学研究则从语言定律角度出发,采用数学模型拟合调查语体特点。计量语言学中“描述了语言结构在语言系统和语言使用中的定量特征”(刘海涛2017:43)。例如,Jayaram&Vidya(2008)基于齐普夫定律(Zipf’s law),对六种印第安语言的语体秩频分布进行拟合,结果显示模型的参数值在不同语体中存在差异。Houetal.(2020)采用门策拉-阿尔特曼定律(Menzerath-Altmannlaw)对汉语语体进行研究,发现了语言层级定律参数在区分不同语体中的作用。句法特征方面的语体研究则主要在依存语法的框架下进行,目前基于依存距离的研究已取得不少成果。其中,Wang&Liu(2017)和Wang(2021)基于依存关系调查英语语体的特点,使用不同概率分布模型拟合不同语体(如新闻和小说)的依存距离分布,发现数学模型的参数可以用于语体对比研究。在依存树库的基础上,刘海涛(2007)利用两个汉语树库构建汉语句法网络,第一次从语言网络的视角展现了两种不同语体之间的差别。陈芯莹、刘海涛(2013)的研究显示句法网络的主要参数能对所研究的语体进行聚类分析,可以很好地区分不同语体的文本。上述研究发现,所有语体的概率分布都符合幂律分布特性,揭示了语言定律的普适性,同时也表明,人类语言均受到一定的认知机制约束。更为重要的是,这些研究基于不同数学定律与概率分布的参数,对不同语体进行比较,发现了模型和句法网络参数在语体对比研究中的重要性,为未来的语体对比乃至自然语言处理领域的技术应用提供了新的视角和手段。

除了不同语言内部的对比外,Biber(1995)开创性地调查了跨语言的词汇语法特征和文化情境特点,四种风格迥异的语言(英语、索马里语、努库莱莱语、韩语)在语言特征的共现范式等方面都具有很高的相似性。人类语言的普遍性特征使语体之间的差异具有普适性的范式和规律(Biber&Conrad 2019),这对跨语言研究有启发意义。Lietal.(2022)基于多维度多特征分析模型对60种语言的语体进行研究,验证了语体差异的普适性特征。就计量语言学方法而言,王雅琴(2020)综合多种模型拟合和数据挖掘方法,通过比较汉英语体句法特征,发现了语体差异在不同语言和不同句法特征中的多重表现,即相异性与相似性并存,凸显了语言的概率性和梯度性特征,验证了使用语体差异调查跨语言特征的可能性。

语体研究本质在于构建语体体系,对体系中“每类语体的整个特点体系进行描写研究,并在此基础上确定语体规范,以指导语言运用”(李熙宗 2016:11)。由此可以发现,语体研究的任务一方面在于对语体特点进行系统和科学的解释,如上文中的理论描写研究,同时也肩负着指导日常语言运用和语言教学的重任。除了理论解释部分之外,调查语言运用的实践研究也是语体研究的一个重要组成部分。实践运用研究主要包括语言习得研究和自动语体识别两个方面。

在语言教学中,语体习得是一个复杂的过程,需要终身学习。语体意识是一种关于语体得体性的本能知识,即在语言交际中对语言恰当性的意识(陈光伟2018)。汉语本体调查主要考察汉语母语者的语体识辨能力,二语习得领域则主要体现为对专门用途英语教学和学术英语教学(English for specific/academic purposes)的研究,可分为自上而下和自下而上两类。自上而下的分析以系统功能语法、语步分析(move analysis)等理论为框架,综合语料库方法,通过对大学生学习者写作(Yasuda 2011)、学术语篇写作(Lin&Morrison 2021)、话语与语用能力的培养(Hopkinson 2021)等方面的考察,揭示学习者对不同语体或特定语体的掌握情况,对基于语体的教学法和整体二语教学具有很强的指导意义。在采用自下而上方法的研究中,语料库语言学方面的研究(如Larssonetal.2021)采用多维度多特征分析方法,利用因子分析的优势,调查学生写作的语体变异特点。其他研究(Ouyang&Jiang 2018;Haoetal.2021)采用依存距离和句法网络等计量语言学方法,调查了二语学习者写作的句法特征。例如,Ouyang&Jiang(2018)发现,右截尾修正齐普夫-阿列克谢耶夫模型的参数值可以区分不同阶段的外语学习者水平。Hao etal.(2021)采取的依存句法网络参数可以反映外语学习者的口笔语差异。这些研究反映了模型参数在外语教学实践运用中的有效性,对外语学习者的语体能力发展调查有很大的借鉴意义。自然语言处理领域中,该类研究多使用监督学习的方法,训练分类机器学习语体的特征,从而实现语体的自动识别(automatic genre identification)。该领域也可分为自上而下和自下而上两种方法,前者注重调查不同语体和文本之间的差异,后者则基于具有某一语体典型特点的文本,训练机器对文本或语体进行正确分类,从而提高模型精度。一般而言,模型中囊括的向量多为表面特征,如词袋、n元组等。当前亦有研究尝试结合语言学特征与机器学习方法的优势,在操作简易的表面特征的基础上加入更能反应语言学特色、识别不同文本类型的特征,如蕴含丰富句法信息的深层句法特征。例如,Wan etal.(2021)发现,将复杂特征与简单特征相结合,可以提高自动语体识别分类的有效性。Vicente etal.(2021)共收集了153种语言学特征,发现这些特征可以对不同语体进行成功区分,从而证实了将语言学特征融合于机器学习技术的可行性。近年来,自动语体识别也延伸到了以计算机为中介的传播话语(如网络语体),该话语语体本身包含了许多新兴的语体,如网络评论、博客、社交媒体等。网络新媒介同时也为语体分析提供了强大的技术支持和创新手段。语言学领域中,学者们也对网络语体进行了相关研究。最近,Biber团队新研究(Laippala etal. 2021)尝试将自然语言处理中的语体自动识别方法与语言学分析相结合,以基于语言学特征的多维度多特征分析方法为基础,采用文本分类、深度学习等方法对不同网络语体文本进行分类训练,效果很好。

05

局限与不足

整体而言,现有的数据驱动语体研究呈现出蓬勃发展的状态,但相较于传统语体研究,研究方法与研究内容仍有很大发展空间,主要局限与不足归纳如下:

就定量研究方法而言,研究方法仍需要进一步完善和发展,并需与理论分析形成更加有效的联合。目前的数据驱动语体研究多注重以词为主的文本特征,缺少从整体的全局观和系统观出发的视角,部分语料库相关研究和计量语言学研究未能对计量指标进行深层次的探讨,语言学意义有限。

在理论描写研究中,多数宏观层面的研究仍聚焦语言内部的调查或少数语言的对比。虽然跨语言的语体分析具有重要意义(Biber 1995),但由于种种条件限制,现有研究数量仍然较少。就微观层面而言,由于语境特征量化困难,虽有少量研究采用因子分析和话语网络进行对其进行了尝试,但整体来说,采用自下而上的定量方法调查话语语用功能特征的研究仍然欠缺。这也导致现有研究多围绕书面语展开,对口语的研究仍处于起步阶段(Biber etal.2021a)。与理论描写研究相比,实践运用研究数量较少。具体而言,运用定量方法调查语体教学的二语教学研究仍在少数。相关研究进展较为缓慢,缺乏系统性,基于计量语言学方法的研究更是稀缺。Luetal.(2021)在对相关研究进行综述时提出,在学术英语写作领域中,基于语料库的语体分析(体裁分析)属于新型分支,目前研究数量仍然很少,亟待发展。随着网络时代的迅猛发展,越来越多的学者对网络语体(以计算机为中介的传播话语)进行专门研究。然而,自然语言处理领域的研究局限在于,现有模型采用的表面特征技术通常缺乏反映语体特色的特征向量,从而缺少对特定语体属性的内在解释,反映的语言学特征非常有限。此外,语言学相关研究较少,目前尚处于起步阶段,两个学科的结合仍有较大的发展空间。

06

未来展望

目前学界对数据驱动的语言研究仍存在较大争议:如何将纷繁复杂的语言现象量化?计算机技术手段会不会消弭语言背后的抽象性和人文性?这也是现有定量语体研究中存在的重要问题,本文对未来研究的展望如下:

一是发挥定量方法的优势,构建全面的评价体系。未来研究需要不断拓展手段,采取更加丰富、全面的研究方法。目前语言整体特征的研究仍有较大空白。而网络科学的方法顺应了新文科建设的要求,有利于从系统宏观的角度调查语体特点,揭示语言特征背后的隐现规律。鉴于其科学性和可操作性,该方法已在语言类型学、二语习得等研究中得到了不少运用,但目前学界鲜有采用网络科学方法调查语体特征。未来研究可采用语言网络方法分析语体,从动态的观点考察不同语体的整体特征。诚然,仅仅优化相关模型和方法,使用数理统计方法计算各种语言特征指标还远远不够,还需要探讨语言现象背后的情境、交际目的和社会文化动因,这就需要将定量方法和定性理论分析相结合。本文认为,未来研究应兼顾语体研究的科学性和人文性,构建全面的评价体系,从而综合不同量化方法(语料库语言学、计量语言学以及机器学习等方法)的优势,在理论框架下展开定量研究,再对结果进行定性阐释。唯有如此,才能更加深入、全面地解释人类语言现象。

二是丰富理论描写研究内涵,拓展语体研究外延。未来研究有必要从宏观和微观两个方向拓展语体研究外延。宏观描写研究若将语体差异和共性纳入语言对比,将对揭示人类语言的普遍性和特殊性发挥促进作用(Biber&Conrad 2019)。国际通用依存关系(universal dependencies)是一个为多种语言开发的统一标注方案(De Marneffe etal.2021),理念是提供一个通用的类别目录和准则,以促进不同语言间类似结构的一致注释,同时允许必要时进行特定语言的扩展。该标注体系是目前国际上覆盖语言种类最多的统一标注体系,为跨语言的语体分析提供了非常有价值的工具,未来研究可从这方面进行扩展。微观研究有必要对语体的话语功能进行系统性描写,将定量语体研究拓展至话语和语用方面,进一步调查日常生活中的口语交际话语特点(Conrad 2022)。这其中,如何量化语境特征一直是技术难题。不论是采用多维度多特征分析模型,还是采用新兴的话语功能语言网络模型,前期的人工标注工作都不可或缺。研究需要将人工标注和数据科学手段有效联合,对话语语用特征进行系统全面调查。如果未来能从以上两个维度对语体研究进行扩展和深挖,将有利于丰富语体分析知识体系,拓展研究领域外延,加深我们对语体乃至人类语言加工的理解。

三是加强实践导向性研究,探索语体意识的培养范式。外语学习者的语体能力培养在语言教学中具有不可忽视的紧迫性。本文认为,鉴于语体在二语教学中的重要作用(如学习者写作和词汇语体教学等方面),该方面有很大的研究空间和潜力。在外语教学与语言习得研究领域,未来研究可将数学定律、语言网络等定量方法和基于语言学的文本特征分析进行有效结合,联系传统语体理论对学习者写作进行全面调查。通过发挥数理统计方法的长处,该方面的研究有利于在系统观的方法论下,从客观的角度描写语言教学中的语体特点。研究成果有助于促进培养语体意识,指导汉语及二语写作教学实践。此外,在自动语体识别领域中,机器学习技术和语言学意义仍亟待更深层次的结合。基于语言学理论提出的文本特征,如词汇句法特征、语篇特征等,将为机器学习提供新的视角,将计量语言学理论中的数学定律特征纳入到自然语言处理和机器学习的实践领域中,将有利于扩大技术的应用范围,在海量数据的自然语言处理分析中囊括文本类型或语体因素,可以实现面向社交媒体等网络语体的深度分析。

07

结语

在新文科建设的背景下,学术创新的关键是复杂性、系统性和整体性的研究方法的转换(刘曙光 2020),外语学科与其他学科间的交叉融合已逐步成为整体发展趋势(戴炜栋等 2020)。数据驱动的方法运用与新文科建设要求的方法创新不谋而合,但研究任务仍然任重道远。在将语言视为一个人驱复杂适应系统的语言观的前提下,期待更多研究抓住机遇,结合各自领域的优势,如认知心理学科、计算语言学、自然语言处理等学科各自的优势,研究语体特点,发现语言规律,为新文科视域下的语体乃至语言学研究发展添砖加瓦。


编者按

欢迎查阅《现代外语》2023年第5期纸质原文。

本文编辑:同济大学 孙雨

郑重声明:本公众号推送的文章不能代表本公众号立场。本公众号推送的学术会议、博士招生不负责对接解释。有任何疑问请按照推送内容的官方联系方式对接!如果学术会议、博士招生有任何官方调整,责任不在我方。我们优先推广免费的学术会议、讲座、研修等项目。

语言治理

欢迎关注

Language Governance Alliance

球分享

球点赞

球在看

继续滑动看下一个
语言治理
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存