小编按:计量语言学是以真实语言材料为基础,用精确的数学方法研究语言结构模式与发展规律的现代语言学分支学科。近年来,越来越多的国内学者对计量语言学产生了浓厚兴趣,学习计量语言学的理论与方法并开展了大量研究实践,在国际上发表了不少研究成果。总体来看,我国的计量语言学在科学研究、人才培养、学术交流等方面都取得了一定的成绩。浙江大学出版社的“计量语言学研究进展”丛书,旨在持续出版国内计量语言学的最新成果。近日,浙江大学章红新博士的《汉英句法计量特征:基于依存关系的比较研究》,作为丛书系列的第3本正式出版。今日本号特刊发刘海涛教授为该书所做的序言,以飨读者。
2010年9月底,我从位于北京的中国传媒大学调到了位于杭州的浙江大学。时任浙江大学外国语言文化与国际交流学院院长的何莲珍教授希望我能带动一些青年教师搞搞研究,考虑到我当时从事的计量语言学研究比较艰深,外语学科的人一听可能就吓跑了,于是,我们商量,先做一个我也一直在研究的语言规划方向的讲座,看看能不能吸引一些人来。记得讲座是在10月29日上午做的,当天下午4点多的时候,我收到一封署名为Maria Zhang的简短英文邮件。发邮件的人说,听了我上午的讲座,她很感兴趣,询问我在豆瓣上的“语言规划”豆列地址,并希望我今后能给她们多讲讲有关研究的事情。我当即给她回了信,不到一个小时,我就又收到了她的回复,这次是用汉语写的,她说她是外国语言文化与国际交流学院的一名青年教师,叫章红新,硕士毕业,正准备考博。信中有几句话说得挺不错:“要真的做出一些更大的有价值的事情,还是要深入地去做些理论方面的研究的……但就是我自己居然会不知道往哪个方向发展可能最适合自己,最能让自己做些能实现自我价值的事情。”于是,我们就见面聊了聊,我给她提供了一些文献叫她读读看,当然,这些文献不是有关语言规划的,而是有关依存语法和计量语言学的。由于我当年来得晚,没能挂到2011年的博士招生简章上,所以,章红新是2012年考进来的,值得庆幸的是,那也是浙江大学允许教师在职读博的最后一年。在红新于2012年5月8日发给我的博研计划里面,她提到博士期间打算研究的主要内容是依存距离和语言复杂网络在语体语篇中的计量研究。十年过去了,在此期间,红新已经在国外学术期刊上发表过不少学术论文,内容不仅涉及依存关系计量,也涉及语篇结构的计量,她关于语篇计量的英文专著也即将在海外知名出版社出版,本书则是她基于依存句法树库所做的一些有关汉英语依存关系的对比研究。作为红新的博士导师,我见证了她从一名普通外语教师转变为一名语言科学家的过程,因此,我愿意在这里就她这本书的内容说两句。我想先说明为什么当时我们要选择依存句法关系作为研究对象,原因有二。第一,有关短语结构句法的计量研究已有不少,但有关依存句法的计量研究,除了我自己零星写过的几篇文章之外,仍缺乏系统的研究,这与依存句法在计算语言学等应用领域的实际情况极不相符;第二,我们需要从科学的角度来解释我在《依存语法的理论与实践》中提到的与短语结构语法相比,依存语法为什么具有“五更”优势,即更有利于自然语言处理应用、更便于从句法到语义的映射、更宜于处理灵活语序语言、更好的心理现实性及更易于构造面向应用的高精度句法分析程序。语言是一个人驱复杂适应系统,这就要求我们在探求语言系统运作规律时,尽可能对比多种语言,只有这样才能更好地发现语言的普遍性,才能区别语言的多样性。从这个意义上讲,红新这本书采用真实语料和计量方法来研究汉英两种语言的做法是特别值得夸赞的。第1、2章为理论基础部分。第1章主要介绍了依存语法和与其相关的配价理论。第2章介绍了齐普夫定律以及齐普夫用来解释该定律的省力原则。如果语言属性符合齐普夫相关分布,则可以认为它们是语言多样化进程的结果,这为全书奠定了建模(找出语言数据的数学规律性)的基础。第3章说明了研究路线、材料和方法。研究应用了两个新闻依存树库,先将汉语树库分成6个子库,再将英语树库拆成23个同样规模的子库,再从中随机选择了6个。这种采用完全相同规模子库的方法排除了语言随机性可能带来的影响,有利于发现多种语言属性的分布和关系规律。在看到同一种语言中的各个曲线几乎重合时,还是很振奋人心的,这使语言研究者也有了一种科学家的感觉。这种研究方法不仅排除了各种随机因素带来的影响,也发现一些有趣的规律自动涌现出来,在语料规模足够的时候,不失为一种可行的语料处理的方法。 第4章为本书的核心部分。前面两节主要是验证性的研究,考察了词性分布和依存关系分布的规律,验证了同一种语言的6个子库具有同质性,为后面各个属性的考察打下了基础。作者接下来考察了依存距离和依存方向,发现了两种语言中依存距离为正(支配词置后)与依存距离为负(支配词居前)的秩次有一种基本上相互间隔的特点。作者还分析了依存距离从小到大的变化规律以及对应依存结构的变化,发现了依存距离正负交替变化的总趋势:在汉语中几乎都是先出现正的依存距离,然后再出现负的值;而在英语中,随着支配词与从属词之间的距离增大,一直到它们之间相隔6个词,都是支配词居前的情况更多。这可能是为什么汉语绝对依存距离和依存距离均值均大于英语的原因之一。相关成果推进了前人的研究发现。在依存树的结构方面,作者以节点为基础,考察了节点的位置,节点所在依存子树的长度,所在层级,依存子树的树宽、树高等形式化特征。同一个对象,可能有多种操作化的方式来进行定义。以位置为例,可以有至少三种定义方法,比如在句中的线性位置、母节点下的位置、依存树所在层级的位置等。这说明,单位/属性是一种概念模型,是通过定义存在的。研究者根据其理论框架和研究目标,可以选择合适的方式来定义概念。前述的几种位置就符合超泊松分布或者修正的右截尾齐普夫–阿列克谢耶夫分布。对于长度,作者考察了长度的线性语言特征,考察了时序图和动链的分布规律,在下一级的所在层级研究中,将结构继续抽象,考察了层级动链的分布,并进一步考察了层级动链长度的分布。只要能找到其语言学意义,这样的抽象方法就可以一直继续下去。这样的考察体现了计量语言学的一个特征:抽象程度更高,规律性更强,发现更具数学意义;在这里,已不再考察具体的词,而考察词性、依存关系、长度等抽象的单位/属性。根据所在层级宽度的均值,作者给出了汉语和英语的典型依存树,从中可以看到两种语言在依存树树形方面的一些异同点。作者也考察了依存树最明显的形式化特征——树的宽度和高度,并发现它们具有类似的分布规律。二者此消彼长的关系也是一个很有意思的研究着眼点。在这章里,红新共考察了10种基于依存关系的句法单位/属性,它们均符合齐普夫相关的分布,都可以算是语言多样化进程的结果。而这些单位/属性都还是可以继续拓展的。考察这些单位/属性,可以发现许多句法规律,下一步可以考察这些单位/属性之间的关系,建立一个基于依存关系的协同语言学的语言模型,进而有助于形成具有科学哲学意义的语言学理论。书的第5章汇总了全书的主要发现和创新,展望了未来。总的说来,本书采用数据驱动的研究范式,以真实的人类语言为材料,采用计量语言学的通行方法,将重点放在发现共性规律的同时,也兼顾了语言的多样性差别,从汉语和英语中发现的诸多规律也可以用更多的语言来进行验证,具有新文科和数智时代语言研究的鲜明特征。遗憾的是,由于时间、材料等因素的限制,本书的研究仅使用了新闻语料,相信随着更多依存树库的出现,红新在未来会有更多的新发现。12年前,作为一名普通外语教师的红新说,她想做一点具有理论价值的研究,想做一些能实现自我价值的事情。理论是什么呢?按照科学哲学来说,理论是由定律组成的。12年后,我很高兴在红新的这本书中看到了数据,看到了公式,看到了定律,有了定律,我们离理论还会远吗?
刘海涛
2022年9月24日
于杭州启真湖畔
目前,本书已经上架销售,点击文末“阅读原文”可以直接购买。