查看原文
其他

方昱、刘海涛:句法结构认知难度可以测量吗?

语言治理 语言治理研究 2022-12-22

句法结构认知难度可以测量吗?

1方昱 2刘海涛

1 同济大学外国语学院  2浙江大学 外国语言文化与国际交流学院

句法结构认知难度

句法复杂度是二语口笔语教学与研究中的一个重要构念,常用来衡量学习者写作和口语等语言水平的发展( 李茜, 2013; Lu,2011) 。目前常用的句法复杂度指标包括平均子句长度、并列句比例和从属句比例等。这些指标涵盖了句子结构的众多方面,但大多没有涉及语言学意义上的句法。准确来说,这些指标关注的是句子结构的复杂度。

句法复杂度的计算认知指标虽然源于认知科学、信息论和自然语言处理领域,但同样有助于语言规律的探寻。在促进多学科交叉和深度融合的今天,语言学研究者需要更加积极地学习和借鉴其他学科的研究成果。

因此,今天推出方昱老师和刘海涛老师的一项研究:句法结构认知难度的计算指标分析 。


本文将梳理句法复杂度两类计算指标,对比指标预测结果与实验结果,探究将这些指标应用于语言学研究的可行性,以期更好地了解语言结构的特点,揭示认知机制对语言结构的制约作用。

首先来分析第一种指标,第一类指标以工作记忆负荷为基础来衡量认知难度。研究者认为,句法加工是一个逐词递增的过程,人们会即时解析已出现的词与新出现的词之间的句法关系。如果句法关系出现在两个非相邻词wn和wn+i之间,工作记忆负荷就会增加,而人们的工作记忆容量是有限的,认知难度由此产生。本文介绍三种基于工作记忆容量限制的指标:存储成本、整合成本和依存距离。

其中,存储成本和整合成本是基于短语结构语法提出的,它们一起构成了依存局域理论(dependency locality theory,DLT)(Gibson,1998,2000)。这一理论认为,一个词出现后,语言使用者需要完成两种句法加工任务。其一,在工作记忆中保存当前尚不完整的句法关系,由此产生的认知难度用存储成本来衡量,以记忆单位(memory unit/MU)计;其二,从工作记忆中回溯与该词相关的句法信息,将其融入之前尚不完整的句法关系中,由此产生的认知难度用整合成本来度量,以能量单位(energy unit/EU)计。Gibson(2000,p.102)认为整合成本更为重要,多数情况下可以只用整合成本描述认知难度。

基于工作记忆容量限制的另一指标是句法距离(syntactic distance)。在依存语法框架下,句法距离(依存距离)指句子中两个有依存句法关系的词之间的线性距离(刘海涛,2009)。在计算依存距离前,需要对句子进行依存句法分析。图2为例(2a)和(2b)的依存句法分析结果。

同时,依存局域理论和依存距离对认知难度的动因有一致认识,即不断增加的工作记忆负荷与有限工作记忆容量的矛盾。存储成本测量的是理解过程中需要记住的不完整句法关系数量,需要记住的数量越多,认知难度越大。类似的指标还有瞬时信息块数(陆丙甫、于赛男,2018)、嵌入深度和F+L-(van Schijndel&Schuler,2013)等。整合成本和依存距离则以词间距离衡量认知难度,距离越长,认知难度越大。由于整合成本是依据短语结构语法定义的,依存距离是依据依存语法定义的,它们对距离的测算存在差异。整合成本关注短语结构树中两个投射的中心词之间的距离,依存距离则关注具有依存句法关系的词与词之间的线性距离。

总体上,三个指标都能较为准确地预测句子的认知难度,但它们却不一定能准确预测每个词的认知难度。这可能是因为这些指标强调的是词与词之间的句法关系,没有考虑词本身的特点。

然而,这三个指标也不能准确预测所有句子的认知难度。比如,在德语句末动词前插入关系从句,动词的阅读时间不仅不会增加,反而会减少,与整合成本和依存距离的预测刚好相反。要解释这类现象,可能得借助基于经验预测的指标。

第二类指标以经验的丰富度为出发点来衡量认知难度。研究者认为,在句子加工过程中,语言使用者会根据经验预测接下来出现的内容(Levy,2008)。某个词或某种句法结构出现的次数越多,语言使用者所获得的经验越丰富,预测的准确性就会越高,这个词或这种句法结构的认知难度也就越小(Levy,2008)。这里主要介绍两种基于经验预测的指标:惊异值和概率配价

“惊异”源于信息论,用来描述某一观测事件的信息值。假设随机事件X出现的概率为p(x),其惊异值便为-log2p(x)。惊异值自Hale(2001)引入心理语言学后,已被不少研究者用来评估句子的认知难度(Rajkumar,et al.,2016;Smith&Levy,2013)。如果将句中某个词的出现看作随机事件X,这个词出现的概率越大,它的惊异值便越小,认知难度也就越小。

另一个基于经验预测的认知难度指标是概率配价。配价是依存语法的核心概念,表示一个词(类)与其他词(类)的结合能力(刘海涛,2009)。当一个词(类)进入句子时,这种能力得以实现,多种可能的配价变为一种,此时词(类)与词(类)之间便形成了句法关系。因而,配价与句法关系是包含与被包含的关系,句法关系是实现了的配价。


下面来到本文的研究重点:

将这些认知难度指标应用于语言学研究之中的可行性。

首先,认知难度指标可以应用于二语习得研究,尤其是二语写作研究。我们在开篇已经提到,以往二语写作研究多关注句子结构的复杂度。现有的各种分析工具,如Coh-Metrix、二语句法复杂度分析器(L2 Syntactic Complexity Analyzer,L2SCA),能够从大规模文本中自动提取平均句长、并列句比例等复杂度指标,保证了数据处理的规模和速度。但是,这种复杂度并不是语言学意义上的句法复杂度。从语言学的句法角度出发来衡量句子的复杂度,需要考虑词与词之间的句法关系。

已有研究表明,依存距离可以用来衡量二语学习者语言水平的发展。Ouyang&Jiang(2018)对不同年级的中国英语学习者的作文进行了依存句法分析,探析依存距离的概率分布特点。他们发现各年级作文的依存距离均符合齐普夫-阿列克谢耶夫分布(Zipf-Alekseev distribution),但分布函数中的具体参数存在差异。随着学习者年级的增加(或者说随着学习者语言水平的提高),参数越来越趋近于本族语者作文的拟合结果。

除二语习得研究外,认知难度指标也可以用来描述母语者的语言产出特征。基于多语种依存树库的研究表明,自然语言有依存距离最小化的倾向(Futrell,Mahowald&Gibson,2015;Liu,2008)。基于英语或汉语近义句式语料库的研究表明,当多种句式可以表达相近意思时,说话者倾向于选择依存距离小、惊异值小的那个句子(Fang&Liu,2021;Rajkumar,et al.,2016)。基于德语书面语依存树库的研究表明,德语句子的破框现象并非特例,破框句的依存距离缩小,降低了认知成本(李媛、黄含笑、刘海涛,2021)。

还有研究者利用依存距离分析翻译文本的语言特点。比如,以同声传译和交替传译译文文本为语料,研究者对比了这两种译本的依存距离,发现交替传译译本的依存距离更小(Liang,et al.,2017)。

这些研究反映出语言学研究与认知科学相结合的趋势,说明将依存距离等计算认知指标应用于语言学研究是可行的。将认知科学领域的最新研究成果引入语言学研究,或可促进语言学研究的进一步发展,提高语言学研究的精确性和科学性。

本文梳理了计算认知科学中用来衡量句法结构认知难度的五个指标:存储成本、整合成本、依存距离、惊异值和概率配价。不可否认的是,认知难度指标的出现和改进是自然语言处理技术应用于语言和认知研究的结果。与心理语言实验相比,指标的计算更加省时省力,结果的可重复率更高,可以帮助我们更好地基于大数据、基于真实语言材料发现语言与认知的规律。正如计算语言学学会(Association for Computational Linguistics)终生成就奖得主、词汇功能语法理论的创立者琼·布利斯南(Joan Bresnan)所说:“我希望未来能加大对计算语言学理论、技术和资源的应用力度,以不断加深我们对人类语言和认知的理解(Bresnan,2016,p.613)。”这是一种信息时代的语言观,是信息时代对语言研究提出的新要求,也是信息时代为语言研究提供的机遇。在大力推动不同学科融合发展的今天,语言学研究者更应该积极学习借鉴计算语言学的相关技术和资源,推进语言研究的科学化进程。


今天的分享就到这里,欢迎感兴趣的朋友点击阅读原文下载原文。

本文来源于:方昱,刘海涛.句法结构认知难度的计算指标分析[J].南京师大学报(社会科学版),2021(6):126-137.


编者按

 欢迎查阅《南京师范大学学报(社会科学版)》2021年第6期纸质原文。

 本文编辑:同济大学 孙雨

 本文审核:同济大学 沈骑


长三角语言治理研究

欢迎关注

Language Governance Alliance 

球分享

球点赞

球在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存