查看原文
其他

繁体字文本真的比简体字文本更复杂吗?

qler 计量语言学 2022-06-09

陳寅恪先生曾在1965年給中華書局編輯的信中強調,“請不要用簡體字”出版他的著作。你有没有注意到,前面这句话里有一些繁体字。但是,你看懂了,有没有?虽然可能与小编一样,并不能完全正确地书写“簡體”二字。


(图片来自百度搜索)


简化汉字是新中国成立后实施的三项重要的语言规划活动之一。但是,字形简化并不是新生事物。从汉字演化的历史看,自楷书定型以来字形结构一直在简化,简化字与正体字长久并存。那么,人们为什么要简化字形、使用简体字呢?因为简单。怎么就简单了呢?

汉字是记录汉语的符号,笔画-部件-汉字,是汉字构形的三个层级。汉字笔画的多少可以看作一种衡量字形结构“简单”与否的手段。采用这种手段,可以比较繁体字与简体字的字形复杂程度。

下图是2000个常用汉字简化前后的笔画数分布。汉字简化前后,都是既有笔画少(简单)的字,也有笔画多(复杂)的字。汉字简化使笔画少的字增加了,笔画多的字减少了,笔画数分布曲线的形态基本保持不变,整体向左移动了。从平均意义上看,简体字比繁体字笔画少,书写起来更省力。但是,无论是今天的报纸,还是两千多年来的书籍,汉字记录的文本中,既有结构复杂的字,也有结构简单的字,古籍中并不都是复杂汉字,微博上也并不都是简单汉字。那么,整体上,使用繁体字的文本比使用简体字的文本更复杂吗?



以往汉字简化研究大多关注具体字形结构与构形系统的局部细节,对构形系统整体规律在汉字简化过程中的特点,特别是在汉字使用中的表现,关注得不够。造成这种结果的原因,除了研究问题与视角不同外,也有研究方法与手段的不足。上述问题的答案需要采用适当的方法到文本中去寻找。最近发表在《语言文字应用》上的《汉字简化中的字形复杂度统计特征稳定性研究》一文,报告了基于计量语言学方法研究汉字构形系统整体规律在汉字简化前后的一些统计分析结果。

 


该研究基于真实语料的统计分析发现,字形简化确实导致文本用字的平均字形复杂度降低。这一结果是从两组语料样本中得出的。一组是用繁体字记录的台湾作家创作的散文与简体字记录的大陆作家创作的散文,另一组是繁体字与简体字版的《柳如是别传》文本。字形复杂度的操作性定义是汉字的笔画数。具体来说,散文用字平均相差1.7画/字,《柳如是别传》平均相差1.62画/字。

除了平均字形复杂度,该研究还比较了文本中的笔画数分布。虽然繁体字文本与简体字文本在平均字形复杂度上存在显著差异,但是字形复杂度的分布规律却是相同的:所有文本的字形复杂度都遵循混合负二项分布(mixed negative binomial distribution)。不仅如此,该研究还发现,从几百字到几万字不同规模的汉字字符集(例如《简化字总表》《GBK字符集》等)的字形复杂度分布也都符合这一规律。也就是说,静态的字符集与动态的文本中,字形复杂度分布规律没有本质区别。



这是巧合吗?会不会跟字形复杂度的定义方式有关呢?观察字符集屏蔽了汉字在文本中受使用频率影响的因素,而采用部件数和笔素数作为字形复杂度的操作性定义,则可以避免笔画数在衡量字形结构“简单”与否方面存在不足从而可能对统计结果造成的影响(这个句子又写得好长啊)。部件是介于笔画与汉字之间的汉字构形单位,笔素是一种比笔画更细致的描写字形结构的单位。统计结果显示,3000个常用字的笔素数也符合混合负二项分布,而语料样本的部件数分布都符合与混合负二项分布相近的修正的二项分布(modified binomial distribution)。基于这些发现,该文指出,字形复杂度分布的稳定性可能是现代汉字构形系统与汉字使用中的一个重要规律。同时,论文不还详细探讨了字形复杂度的混合负二项分布的四个参数同字形简化、文本篇幅以及文体等因素的关系。

众所周知,汉字的字形表达了字义(与字音)。汉字的连续使用形成了意义的组合。因此,我们常说汉字是一种表意文字、汉语是一种意合语言。那么,在回答“使用繁体字的文本比使用简体字的文本更复杂吗?”这个问题的时候,除了看单个汉字的统计特征,还可以看看汉字在形成的组合中的特点。使用繁体字的文本与使用简体字的文本中,汉字字形的组合模式一样吗?我们又该如何定义和测量“组合模式”呢?

该研究使用了“动链”的概念与方法。关于什么是“动链”,可以详细参阅论文引用的文献。特别推荐一下 Motif in Language and Text 这本书,因为它是迄今为止第一部研究语言动链的专题文集。简单来说,动链是一种专门研究(语言)线性特征的概念,指“(语言)结构单位定量属性的最长连续非减序列”。在这项研究中,结构单位指汉字字形,定量属性指字形复杂度(即笔画数),字形复杂度动链即文本中汉字形成的笔画数序列。例如,“汉字是一种表意文字”这句话的字形复杂度动链序列是“5-5-9,1-9,8,4-5”,它由4个动链构成。



该研究统计分析了繁体字文本与简体字文本中,字形复杂度动链的频次分布与长度分布,发现前者符合齐普夫分布(Zipf-Mandelbrot distribution),后者符合超帕斯卡分布(hyper-Pascaldistribution)(如下图)。


 

综合来看,虽然繁体字与简体字的字形复杂程度确实不同,但是汉字简化既没有影响字形复杂度在静态的汉字字符集与动态的汉字文本中的分布规律,也没有改变在一定程度上反映了汉字字形组合关系的字形复杂度动链的频次分布与长度分布规律,即字形组合模式没有因为字形简化而发生变化。

对于汉字简化过程中“字形结构整体趋简而字形复杂度及其动链的统计特征相对稳定”这一发现,作者结合汉字的功能、汉语词汇演化、人类语言认知机制以及汉字构形系统与汉语词汇系统共同演化等方面给出了解释。解释的具体内容,小编就不剧透更多了。感兴趣的朋友请下载阅读论文吧!




至此,为大家推荐的数据驱动的语言文字应用研究论文已经全部结束了。感谢大家的关注与支持!

 



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存