该内容已被发布者删除 该内容被自由微信恢复
文章于 2021年12月26日 被检测为删除。
查看原文
被用户删除
其他

好文荐读|吴佩:句法复杂性特征对汉语句子复杂性的影响研究

吴佩 语言学心得 2021-12-26

“语言学心得”新版块掉落~好文荐读(第十六期)句法复杂性特征对汉语句子复杂性的影响研究~

好文荐读”不定期更新,为大家带来最新的核心期刊亮眼论文,希望大家多多支持,也欢迎给我们留言推荐更多值得一荐的好文哦~



句法复杂性特征
对汉语句子复杂性的影响研究

吴佩

清华大学教育研究院


文章简介

文章来源:吴佩.句法复杂性特征对汉语句子复杂性的影响研究[J].汉语学习,2021(04):91-101.


摘要:本研究通过自定步速阅读任务考察了 11 个通用的汉语句法复杂性变量对汉语句子复杂性的影响。结果显示:11 个句法复杂性变量可以提取为四个因子(句法复杂性数量特征、句法复杂性长度特征、话题数量、话题长度);句法复杂性特征能在一定程度上预测汉语句子认知  复杂性和整句复杂性;句法复杂性数量特征和话题数量对整句复杂性和认知复杂性的影响均显著,句法复杂性长度特征和话题长度对整句复杂性和认知复杂性的影响均不显著。

关键词:句法复杂性;汉语句子复杂性;认知复杂性基金项目: 中央高校基本科研业务专项资金(项目编号:15ZDY03);教育部人文科学研究规划项目“外国留学生汉字学习认知神经机制跟踪研究及预测模型构建”(项目编号:20YJAZH110)资助;


本文获得《汉语学习》期刊授权推广。

零. 引言

语言复杂性指在使用或学习语言时的心理困难程度(Crystal 1997)。基于这一定义,句子复杂性指的是语言使用者在理解和产出句子时所面临的难度。在汉语句子加工中,句子的复杂性特征决定不同句子的加工特点;在汉语文本可读性研究中,句子复杂性是决定文本难度的基础指标。句法复杂性特征是研究中常见的能代表句子层面的复杂性的指标。
       Bulté & Housen(2012)对40 项句法复杂性研究总结发现,常用的句法复杂性指标共有27类,句法复杂性指标有通用型指标,句子层面、亚句子层面指标,小句层面、短语层面以及句子中词汇的频率因素等指标。汉语二语习得研究中的汉语句法复杂性指标有:T单位的分句数量(安福勇 2015);学习者产出的每个T单位中述补结构、主谓谓语句数量;“把”字句、“被”字句的频数(韩笑、冯丽萍 2017);话题链数量、话题链中平均分句数、零形式数量(吴继峰 2017);AS单位(Analysis of Speech Unit)的词语个数、AS单位的小句个数、AS单位的句法等级(陈默 2015);特殊句式的使用情况,比如形式角度的述补、连动、兼语结构以及功能角度的处置、被动、存现句的使用等(王亚琼 2015);根据句法等级选取汉语句法复杂性指标(陈默 2015,韩笑、冯丽萍 2017)。
      关于汉语作文自动评分研究的相关成果显示,句子层面的指标如句子长度能够在一定程度上代表句子的复杂性。平均句长、平均分句长度、句子平均词数等指标是作文自动评分研究中常见的代表句子层面复杂性的指标(任春燕 2001,张晋军、任杰 2004,李亚男 2006), T单位长度、T单位数量也是研究中常见的评价指标(徐昌火等 2015)。汉语作文自动评分的一般思路是:从词汇、句子、语篇层面选取一系列指标作为自变量,通过回归分析或计算机模拟,发现所选取的自变量对作文分数的预测情况,构建汉语作文自动评分模型。这一类研究通常是基于大数据或者大样本的研究,选取的句子层面的变量有一部分取自已有研究成果,一部分是探索性的。这些句子层面的变量是否能够影响句子的加工难度?解决这一问题能够为作文自动评分中句子层面的变量选择提供支撑。
    句子作为承载完整意义单元的语言形式,是文本内容的构成部分,句子理解的复杂性是包含于文本可读性之中的。词汇难度和句子难度可以反映文本的难易程度(郭望皓 2009)。在英语的可读性研究中,代表句子难度的特征是平均句长,而词性、短语从句和句子层面的特征则可以代表句法特征(吴思远等 2018)。句子特征是汉语文本可读性的重要变量,在早期的文本可读性研究中,文本的句子特征主要是句子数量(张宁志 2000)、句子的平均字数(王蕾 2005,左虹、朱勇 2014)。张宁志(2000)在对汉语教材的难度进行比较时发现,平均句长可以区分不同汉语教材的难度,左虹、朱勇(2014)发现平均句长是预测文本可读性较好的变量之一。王蕾(2017)研究了适用于汉语二语者的文本可读性公式,句子层面的特征有句子数、句平均字数、句平均词数、分句数、分句平均字数、分句平均词数、语法点难度,其中分句数对汉语文本可读性的影响是显著的。蒋智威(2018)利用斯坦福大学的语法分析工具(Stanford Parser Tool),选取了16个能代表汉语特点的句法复杂性特征, 其中句子的语法树高度、句子中名词词组数量、动词词组数量和形容词词组数量是与句子复杂性相关的变量,发现这些变量可以有效提升文本可读性的评估效果。
      在汉语作文自动评分和汉语文本可读性研究中,句法复杂性通常作为反映句子复杂性的变量。句子层面的指标是汉语作文自动评分和文本可读性研究中指标选择的重点,但是研究中这些指标通常是作为众多变量集的一部分,在不同模型中,这些变量对文本难度的预测效果并不一致。语言产出、汉语作文自动评分、文本可读性研究中常用的汉语句法复杂性指标是否影响汉语句子的复杂性?

一、研究设计

1.1 研究问题
本研究关注的问题有:
(1)通用的句法复杂性特征是否影响汉语句子复杂性;
(2)这些句法复杂性特征能在多大程度上预测汉语句子复杂性。1.2 研究方法

1.2.1 被试
    共有44名来自三所高校的研究生参加实验,其中语言学专业的被试有26 人(男7人、女19人),计算机相关专业的被试有 18 人(男13人、女 5人),被试的年龄在25到35岁之间(平均年龄Mean=26.9、标准差 SD=3.1)。
     被试在本研究中相当于评分员,他们阅读一个句子所需时间作为句子的复杂性值。

      1.2.2 实验设计      本研究的自变量是句法复杂性特征,因变量是句子复杂性。句子复杂性的操作性定义是:母语者阅读汉语句子所面临的难度,即理解这个句子所需的时间。44 名母语者阅读同一个句子所需的平均阅读时间即为这个句子的复杂性值。
       句子的阅读时间主要有两个指标:一是整句阅读时间;二是句子的平均阅读时间。整句阅读时间指的是阅读整个句子所用的时间。由于本研究用于实验的句子长短是不一致的,为了便于比较,将字均阅读时间作为句子复杂性的另一个方面,即为平均阅读时间。句子的平均阅读时间,指的是句子中的每个字的平均阅读时间。
        整句阅读时间和平均阅读时间都是句子复杂性的体现。整句阅读时间反映的是句子的“整句复杂性”,指的是母语者阅读整个句子时的认知资源消耗情况;平均阅读时间反映的是句子的“平均认知复杂性”(下文统称“认知复杂性”),指的是句子的平均认知资源消耗情况。整句复杂性和认知复杂性的计算公式如下:
        整句复杂性=阅读整个句子所需的时间
        认知复杂性=整句阅读时间/句子字数

        1.2.3 实验材料
       从“现代汉语研究语料库”(孙宏林等 1997)和现当代文学作品集中随机选取 500 个句子进行实验。“现代汉语研究语料库”中的句子是经过语法标注的,按照不同句式特点进行分类,从中选取 100 个句子作为实验材料。为使所选句子更具代表性,我们又自建一个现当代文学作品语料库,收录了现当代作家如王蒙、余秋雨、老舍、汪曾祺等的作品,从该语料库中抽取了 400 个句子作为实验材料。在选取语料时对句子的语境独立性加以控制,所选语料均是脱离语境后具有完整意义的句子。
       1.2.4 实验任务和程序
        实验任务是自定步速(Self-paced)阅读任务,通过DMDX 软件编写实验程序自动记录被试的阅读时间和正确率,所有句子均以宋体黑色48 号字体呈现,屏幕背景为白色。每个被试在安静的房间进行实验。实验开始前,主试对实验程序进行说明,确保被试理解整个实验程序。
        实验开始前,被试先阅读四个句子进行练习。练习结束以后,主试询问被试是否完全理解实验程序,在被试确认完全理解实验程序后开始正式实验。
        正式实验开始时,屏幕上首先呈现的是一系列“#######”号,提示任务即将开始,被试按空格键开始。将每个句子按照语义进行切分,保证切分出来的片段是符合汉语语义关系的,每个句子分成四个部分。每点击一次空格键即呈现一部分内容,再按一次空格键时,屏幕上的内容消失, 两次空格键的间隔时间即为被试的阅读时间。实验材料在屏幕上的具体呈现情况如下:


        为了检验被试是否认真完成阅读任务,在被试阅读完一个句子后,屏幕上会出现一个有关这个句子的问题或者描述,被试需要按“是”“否”来回答问题或者判断描述是否正确。被试回答完问题以后,可以按空格键继续阅读下一个句子。在实验过程中,每隔 20 个句子屏幕会提示被试可以休息一下,然后按空格键继续进行实验。由于 500 个句子所需时间过多, 为了保证实验效果,实验分两次进行。

二、句法复杂性指标的选择和计算

3. 1 汉语动结式复杂的语法关系

通过总结语言产出研究(Jin 2007,吴继峰 2016,吴继峰 2018,师文、陈静 2019)中的句法复杂性指标,本研究选取了要考察的句法复杂性指标,分别为 T 单位数量、T 单位长度、句子长度、话题链数量、话题链长度、小句数量、小句长度、零形式数量、零形式分布等。

T单位指由一个独立谓语和其他附属小句组成的独立小句。本文参考安福勇(2015)、吴继峰(2018)的研究,确定了本研究 T 单位划分标准。T 单位的划分标准是:

(1)一个简单句作为一个T单位;

(2)在由两个小句组成的句子中,如果两个分句都有谓语,则划分为两个T单位,如果两个小句只有一个谓语,则划分为一个T单位;

(3)如果一个复杂句中嵌入的有一个包含谓语的分句,但是由于其是嵌入成分,不把嵌入的分句作为 T 单位;

(4)汉语的偏正(主从)复句算作1个T单位,联合复句中每一个并列的分句算作一个T单位,转折复句的每一个分句算作一个T单位。与T单位有关的指标的统计方法是:

T单位数量:指的是一个句子中含有多少个T单位

T单位长度=句子总词数/T单位数量

话题链指的是由两个以上分句组成的序列,其特征是几个小句共有一个主题。其中主题只在第一个小句中出现,其他小句均以零代词或零形名词出现(Jin 2007),这种没有主题的小句被称作零形式。话题链和零形式的指标反映出一个句子的话题密集度,本研究与话题链和零形式相关的变量的统计指标及计算公式是:

话题链数量:如果一个句子中有两个或多个小句共享一个主题,主题的数量就是话题链的数量

话题链长度=句子总词数/话题链数量

零形式数量=句子中未出现主题的小句的数量零

形式分布=零形式数量/小句数量

句子长度指的是一个句子所含的词数,小句数量指的是一个句子中包含多少小句,小句长度指的是一个句子中每个小句的平均词数。以下面两个句子为例来说明一下每个指标的具体计算方法。例如:

①冬月把巷子的土地照得光滑,我们小心翼翼地去看一位老友。(王蒙《初春回旋曲》)

②老友因为年长已经从工作岗位上退了下来,她有点怨气,更有点悲哀。(王蒙《初春回旋曲》)

例①共有两个小句,前后两个小句各有独立的主语和谓语,划分为两个T单位;例②有三个小句,但是最后一个小句是第二个小句的补充说明,划分为两个 T单位。例①前后两个小句说的是不同的话题,分别是“冬月”和“我们”,每个小句都有一个话题,因此例①包含两个话题链,没有零形式;例②三个小句说的都是同一个话题“老友”,并且最后一个小句省略了话题,因此例②包含一个话题链,一个零形式。

句法树高度和句法树节点数是代表句子复杂性的指标(蒋智威 2018),本研究考察了这两个指标对句子复杂性的影响。例如:

③中国和美国,他们都有自己独特及完全不同的社会文化和文化背景,这深深地影响他们的语言。

本研究利用 Stanford Parser 对每个句子进行句法分析,统计每个句子的句法树高度和句法树节点数。将句子输入程序之后,自动输出句法树,然后对句法树的高度和节点数进行统计。句法树高度指的是从句法树的最上到最下的层数,在最上层和最下层之间的节点叫作句法树的节点数。


图1显示了例③的句法分析情况,这个句子的句法树高度是12,句法树节点数是56。

三、结果与讨论

3.1 描述性统计结果

首先,对500个句子的整句复杂性和认知复杂性分布进行统计。将500个句子中的异常值剔除之后,发现句子的认知复杂性和整句复杂性的分布情况见图 2、3:


所选句子的整句复杂性(平均值 Mean=4785.27ms,标准差 SD=1109,样本量 N=494)和认知复杂性(平均值 Mean=160.85ms,标准差 SD=23,样本量 N=485)分布均是正态的。

本研究考察的句法复杂性特征指标有 T 单位数量、T 单位长度、句子长度、话题链数量, 话题链长度、小句数量、小句长度、零形式数量、零形式分布、句法树高度、句法树节点数共 11 个指标。句法复杂性特征各变量的描述性统计结果见表 1:


3.2 各变量间相关性分析结果

各个句法复杂性特征变量与句子复杂性的相关矩阵如表 2 所示:

分析结果显示,所选取的 11 个句法复杂性特征变量中,除小句长度外,其他 10个变量均与句子的认知复杂性显著相关:T 单位长度(r=-0.102, p<0.05)、T 单位数量(r=-0.208, p<0.01)、话题链长度(r=-0.204, p<0.01)、话题链数量(r=-0.160, p<0.01)、零形式比例(r=-0.137, p<0.01)、零形式数量(r=-0.215, p<0.01)、小句数量(r=-0.288, p<0.01)、句子长度( r=-0.391, p<0.01)、句法树高度(r=-0.123, p<0.01)、句法节点数量(r=-0.388, p<0.01)与句子的认知复杂性呈负相关,其中句子长度和句法节点数的相关系数相对较高。

由于整句复杂性和认知复杂性都依赖于句子长度,两者之间可能存在相关,因此本研究也对这两个变量的相关性进行了分析。结果显示,整句复杂性和认知复杂性的相关性不显著, 说明这两个变量是独立的。

研究所选取的11个变量中,句子长度(r=0.775,p<0.01)、句法节点数量(r=0.750, p<0.01)与整句复杂性的相关性较强。T单位长度(r=0.128, p<0.01)、T单位数量(r=0.775,p<0.01)、话题链长度(r=0.437, p<0.01)、话题链数量(r=0.199,p<0.01)、零形式比例(r=0.124, p<0.01)、零形式数量(r=0.225, p<0.01)、小句长度(r=0.203, p<0.01)、小句数量(r=0.403, p<0.01)、句法树高度(r=0.381, p<0.01)与整句复杂性的相关性均达到显著水平。


3.3句法复杂性特征对句子复杂性的影响

由于选取的 11 个句法复杂性指标中部分指标间的相关系数较高,比如话题链长度与话题链数量(r=-0.648)、T 单位长度与 T 单位数量(r=-0.697),因此在进行回归分析之前, 对句法复杂性变量进行了因子分析,将 11 个句法复杂性指标进行降维。

首先进行了 KMO 和巴特利特球形检验,检验结果见表 3:

KMO 测度和巴特利特球形检验能用来判断变量是否适用于因子分析。一般来说,KMO 值越接近 1,说明变量间的共同因子越高,研究越适用于因子分析;显著性水平越显著,说明越适用于因子分析。(刘国忠、秦晓青 2010)表 3 显示,这几个变量间的显著性水平小于 0.001,因此可以用于因子分析。表 4 为句法复杂性特征的因子抽取结果:

表 4 显示,采用主成分分析法提取因子之后,有四个因子的初始特征值超过 1。这四个因子的累计方差解释达到 82.49%,说明 11 个句法复杂性变量可以提取出四个因子。表 5 为提取的四个因子的成分矩阵。

变量的载荷值是判断因子意义的依据,载荷值的绝对值越大,说明变量与因子之间的关系越紧密,变量的载荷值只有大于0.3时才被认为有统计意义(秦晓青 2003)。

上面表5所显示的是各因子中载荷值大于0.3的变量情况。因子1中载荷值较大变量的是句法节点数量、T单位数量、小句数量、和零形式数量,说明其反映的是句法复杂性特征中的数量相关的特征,将因子1命名为句法复杂性数量特征;因子2中载荷值比较大的变量是句法树高度、T单位长度、话题链长度、小句长度、句子长度,说明因子2反映的是与长度相关的变量,将其命名为句法复杂性长度特征;因子3中载荷值比较大的变量是话题链数
量、零形式比例、零形式数量,说明因子3反映的是与话题数量相关的变量,将其命名为话题数量;除话题链数量和零形式比例外,因子4中载荷值较显著的变量是话题链长度,将因子4命名为话题链长度

采用主成分分析法进行因子提取,是为了在保留主要信息的前提下,将原有变量组合成相互独立的几个能充分反映原有信息的指标。因子分析的目的是对原始变量进行归纳,将相关性较强的变量归为一类,不同类之间的变量相关性较低,每一类变量之间存在一个共同因子。在因子分析完成后,保留每个因子的系数,以四个因子为自变量,分别以认知复杂性和整句复杂性为因变量进行回归分析。回归分析结果见表 6:

回归分析结果显示,句子的句法复杂性特征可以解释句子认知复杂性总变异的 18.3%(R2=0.183),F(4,485)=26.853,p<0.001;句法复杂性特征能够预测整句复杂性变异的64.3%, F(4,485)=216.468,p<0.001。具体影响见表 7:

句法复杂性数量特征的影响显著(β=-0.392, t=-9.490, p<0.01);话题数量的影响显著(β=-0.162, t=-3.938, p<0.01),句法复杂性长度特征和话题长度对句子认知复杂性的影响不显著。句法复杂性数量特征对句子认知复杂性的影响最大,其次是话题数量。上述四个因子对整句复杂性的影响见表 8:

回归分析结果显示:句法复杂性数量特征对整句复杂性的影响显著(β=0.792, t=29.067, p<0.01),话题数量对整句复杂性的影响也显著(β=0.117, t=4.289, p<0.01)。句法复杂性长度特征和话题长度对整句复杂性的影响不显著。

本研究以 11 个句法特征变量为自变量,分别以整句复杂性和认知复杂性为因变量,利用步进法进行了回归分析,各变量对整句复杂性和认知复杂性的影响见表 9:

回归分析结果显示:T 单位数量(t=2.09, β=0.15, p=0.038)、话题链长度(t=-6.67, β=-0.559, p<0.001)、话题链数量(t=-6.612, β=-0.523, p<0.001)、零形式数量(t=-2.113, β=-0.144, p=0.036)对句子认知复杂性的影响是显著的;句法节点数量对整句复杂性的影响是显著的(t=3.274, β=0.229, p<0.001);T 单位数量(t=1.996, β=0.106, p=0.047)、话题链长度(t=4.125, β=0.450, p<0.001)、话题链数量(t=3.235, β=0.324, p<0.001)、零形式数量(t=-2.288, β=-0.105, p=0.023)、句子长度(t=3.029, β=0.239, p=0.003)对整句复杂性的影响均是显著的。

四、结语

本文通过相关分析、因子分析和回归分析对句法复杂性特征对句子复杂性的影响进行了考察。结果显示,句法复杂性特征的11个变量中,仅有小句长度与句子的认知复杂性的相关性不显著。
     11个句法复杂性变量可以提取为四个因子:句法复杂性数量特征、句法复杂性长度特征、话题数量、话题长度。研究发现,句法复杂性对句子认知复杂性和整句复杂性的影响均是显著的,句法复杂性能够解释整句复杂性 64.3%的变异,能够解释认知复杂性18.3%的变异。四个因子中,只有句法复杂性数量特征和话题数量对整句复杂性和认知复杂性的影响是显著的,句法复杂性长度特征和话题长度对整句复杂性和认知复杂性的影响均不显著。
句法复杂性特征的长度指标在句子的认知复杂性和整句复杂性中的作用是不同的。只有话题链长度对认知复杂性的影响是显著的,而T单位长度、小句长度、句子长度对句子的认知复杂性的影响并不显著。长度指标在整句复杂性中的作用与在认知复杂性中的作用并不相同,其中话题链长度和句子长度对整句复杂性的影响比较大。话题链长度对整句复杂性的影响是最大的,说明一个话题所包含的字数越多,整句阅读时间越长;句子长度与整句复杂性的关系表现出同样的趋势。研究发现整体阅读时间更多的是由句子的形式特征如句子的长度所决定的。对汉语句子的认知复杂性影响较为显著的变量是句子的话题特点,如零形式数量、话题链数量、话题链长度等。
      句子的复杂性特征是汉语作文自动评分、汉语文本可读性研究、汉语二语产出研究中关注的重点。本文将常用的句法复杂性特征变量与句子复杂性的关系进行研究,为汉语句子复杂性变量的选择提供了参考,同时也为汉语句法复杂性指标的有效性评价提供了实验依据。


作者简介



吴  佩,河南正阳人,博士,清华大学教育研究院博士后,研究方向为语言习得与认知。

电邮:alicepeiwu@163.com。

本文来源:《汉语学习》

点击文末“阅读原文”可跳转下载



往期回顾


好文荐读|严辰松:原型角色、及物性和因果链


声  音|李宇明、翟艳:来华留学汉语教育70年:回顾与展望


声  音|文秋芳:中国国家语言能力70年的建设与发展


助  研|核心期刊编辑:定量研究切勿“炫技”太多


欢迎加入
“语言学心得交流分享群”“语言学考博/考研/保研交流群”


请添加“心得君”入群

今日小编:鱼蛋球

审     核:心得小蔓

转载&合作请联系

"心得君"

微信:xindejun_yyxxd

点击“阅读原文”可跳转下载

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存