查看原文
其他

汉语的句子真的很特殊吗?

周义凯 刘海涛 计量语言学
2024-09-03

点击蓝字关注 离知识更近一点

如果您还没有把中学语文知识还给老师,那一定还对“流水句”这个概念有点印象。“流水句”指的是现代汉语的书面语中一个小句接一个小句,标点符号“一逗到底”的现象。这在别的语言中并不多见,因而给汉语的句子蒙上了一层神秘的面纱,让我们下意识以为,汉语的句子是比较特殊的。作为语言研究者,想到这个话题,我们不禁要问:真的是这样吗?汉语的句子真的很特殊吗?人类语言的普遍规律一直是语言学家不懈探寻的目标。就汉语句子长度的普遍性与特殊性,周义凯和刘海涛在《外语教学与研究》上最新发表的文章用计量语言学的方法展开了讨论。


故事还得从赵元任先生提出的“零句说”讲起。


在1979年出版的《汉语口语语法》一书中,赵元任指出:“句子可以从结构上分为整句和零句。[“零”是畸零、零碎的意思。]整句有主语,谓语两部分,是连续话语中最常见的句型。零句没有主语—谓语形式。它最常见于对话以及说话和行动参杂的场合。大多数零句是动词性词语或名词性词语。叹词是最地道的零句。”(第41—42页)也就是说,从标点符号的角度看,汉语句子并不都是以句号类标点划分的,一个整句中可能包含多个零句。在一些研究中,零句又称为“小句”,并且有学者认为“小句”在汉语语法系统中处于中枢地位。如此一来,“流水句”与“零句”的关系是怎么样的呢?汉语的句子长度到底是符合人类语言共性的,还是一个例外呢?计量语言学可能是厘清这些问题的有效视角和工具。


在计量语言学中,句长是一个基础又重要的变量和指标,不仅与语言复杂性和语言类型有关,句长频率分布的参数还能够描述文本特征,区分文体和作者风格。前人已经对英语、汉语、德语、印地语等语言的句长做了频率统计,认为自然语言的句长分布是有规律的,但只有少数研究采用了概率分布模型对句长分布进行了拟合。而拟合是寻求更抽象规律的重要一环。现有对句长分布进行拟合的结果表明,句长分布与词长分布的特征类似,随着句长的增加,句子出现的频率先迅速上升,而后缓慢下降,呈现出经典的“长尾”特征。熟悉计量语言学的朋友一定对“长尾”不陌生,它往往代表着人类在某些方面的普遍性规律。若果真如此,那么汉语作为一种人类语言,理论上也应该符合这一规律。结合“零句说”,该研究收集了包括汉语在内共10种语言的小说文本,以及新闻、社论、散文三种文体的汉语文本,就三个问题展开了讨论:能否用计量语言学的方法验证现代汉语在句长分布方面的语言的普遍性?零句句长的分布是否有特殊性和跨文体差异?如果答案是肯定的,当如何理解零句说的价值与意义?


在以往的研究中,主要用于拟合句长分布的模型有扩展正负二项分布(Extended Positive Negative Binomial, EPNB)和超帕斯卡分布(Hyper-pascal)两种。作者用Altmann-Fitter软件对语料的句长分布数据进行了拟合,发现EPNB模型的拟合效果更好。该模型的表达式为:


其中,x是句长级别。该研究中,句子长度以词数计(因为句子由词组成),句长级别的跨度为3(个词),即1级为1—3词长的句子,2级为4—6词长的句子,以此类推。Px为长度为x级的句子出现的概率。kpα是模型的调校参数,其中α与句长分布的图形形态(参见图1、图2)关系较大。


为了采用尽量统一的方式进行跨语言比较,作者在统计各语言整句句长的标准是以句号、问号、感叹号、外语中的点号划分;统计零句句长时采用的划分标准是以冒号、破折号、分号、逗号、(日语中)顿号为分隔标点。


图1 汉语整句句长分布图


图2 汉语零句句长分布图


图1和图2显示,汉语语料的整句和零句句长分布都呈现了“长尾”特征。那么用EPNB模型拟合的结果会是怎样,与其他语言的小说语料相比有差异吗?我们看图3。


拟合结果参数中,C值是差异系数,一般认为C < 0.02时,拟合结果好,C < 0.01时结果极好;R^2是拟合的决定系数,越趋近于1,拟合效果越好。从决定系数R^2看,10种语言小说语料的整句句长分布都与EPNB成功拟合,但是汉语的C值和α值最大,也就是与EPNB分布的偏差最大。这是否意味着汉语的句子因为人们使用标点较为随意,“流水句特多”而有些与众不同呢?用时下比较流行的说法,汉语的句长分布和别的语言看起来“有点不一样,但又不完全不一样”。那我们的零句呢?


图3 整句与零句句长分布拟合参数值对比


整体而言,各种语言的零句句长分布都与EPNB模型高度拟合。并且,从C值和R^2值来看,拟合的效果普遍比整句句长分布更好,各语言间的拟合优度差异也更小。汉语的零句句长及其分布拟合参数kα在极值范围内,p参数也没有明显偏离其他语言的取值范围。这些结果说明,零句似乎更具有人类语言普遍性。存在即合理。既然如此,那零句分布应当更能发挥句长分布的作用,比如区分文体。是否真的这样呢?作者对汉语四种文体语料的整句和零句平均句长、拟合后的各项参数进行了对比。发现:四种文体的整句句长差异显著,效应量大(大于等于0.14时效应量大),而零句句长的文体差异更显著,效应量也更大。零句句长及其分布拟合结果参数比整句更能区分文体。四种文体在零句平均句长和α值上的差异最多。各种文体按零句句长分布特征的相对差异大小排序,依次为:新闻­­—社论—散文—小说。这和我们对这四种文体语言风格相对差异的一般认知是吻合的。看来,零句句长及其分布特征确实大有用处。为什么会这样呢?我们应该怎么理解零句的价值和意义呢?这就需要我们思考零句是怎么产生的,也就是零句和组成它的词有什么关系。


作者选用了h点和R1词汇丰富度这两个词频分布指标,将它们与整句句长、零句句长做了相关性分析。两个词频分布指标与整句长、零句长都显著相关,且相关度强(一般认为相关系数的绝对值在0.5以上为强相关)。零句句长与两个词频分布指标的相关度都超过了整句句长,说明在层级结构上,零句比整句更接近于词。具体而言,文本中实词的比例(R1词汇丰富度)越高,零句就越长;高频实词越少、主题越集中(h点越小),零句就越长。丰富的内容、集中的主题,我们心中小小的表达欲很容易使得句子变长。与此同时,我们的认知能力又是有限的——说话人不能无限制地输出过长的句子,沟通的另一方也没法理解太长的句子(还记得齐普夫的“省力原则”吗?)。但是,太短的句子又不足以承载我们需要沟通的信息。于是,“表达欲”和“省力”相互竞争、妥协,最终形成了我们现在看到的句长分布模式,零句因为与词在层级结构上更接近,其句长就是更直接的体现。在不同的文体和沟通场合中,因为其他一些因素(如表达风格、沟通渠道等)的约束,句长分布的具体形态又会动态调整,这也再次印证了刘海涛教授近年所倡导的观点——语言是一个人驱的复杂动态适应系统。







本研究的结果表明,零句是研究句子结构特征时不可忽略的对象。因为当我们结合零句和整句的句长一起看时,发现汉语的句长分布不仅具有人类语言的普遍性,而且确实也具有自身的特殊性。我们的句子可以很短,短到只有一个叹词;我们的句子又可以很长,小说里“一逗到底”的流水句比比皆是。但是万变不离其宗,拟合结果表明,我们在遣词造句时也不得不权衡“表达欲”和“省力”。


实际上,零句在我们当今的网络生活中也很常见。不少年轻人为了“省力”,在微信聊天时用空格代替了几乎所有标点,甚至每到觉得需要停顿时就按下“enter”键发送消息,于是有了这样的聊天界面。


您平时也这样聊天吗?

您会怎样在沟通时“省力”的呢?

关于汉语的普遍性与特殊性,还有很多可以聊……

继续滑动看下一个
计量语言学
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存