小句复合体理论系列学术讲座
讲座概要
北京语言大学信息科学学院宋柔教授著的《小句复合体的语法结构》一书近日由商务印书馆正式出版发行。
为向读者和研究同行详细介绍小句复合体理论体系及著作核心内容,学院特别邀请宋柔教授为北京语言大学语言智能校级拔尖人才实验班开设小句复合体理论系列学术讲座,并同时通过线上同步直播方式向全社会公众免费开放,欢迎大家通过线下或线上方式参与讲座和讨论。
宋柔教授系列学术讲座安排和专著简介附后,供各位读者参考。
学术讲座时间安排:
从2022年9月5日开始,每周一晚7点到10点,约12次。
线下参与:北京语言大学教二楼125
(供北语校内师生线下参与)
线上参与:
#腾讯会议:683-7399-6863 会议密码:123456
(供参与线上讨论使用)
#B站直播链接:
https://live.bilibili.com/h5/25795586
(供线上聆听/回放使用)
学术讲座简介
讲座内容
讲授汉语小句复合体是如何由小句复合而成的。以话头话身结构和成分共享机制的概念为基础,使用二维的换行缩进图式表示小句复合体的语法结构,介绍小句和小句复合体的定义,以及小句复合成小句复合体的各种模式以及相关性质。进而用这一体系分析英语的小句复合体,说明英汉小句复合体中的小句如何对齐并相互转换。
讲座理念
以可操作、全覆盖的方式考察语篇的文本,从语料考察中归纳并抽象出概念和相关性质,所得的结论可验证、可应用。
讲座目标
讲授小句复合体语法结构的理论和实践,培养以可操作、全覆盖的方式研究自然语言的能力。
讲座方式
主讲人讲授,每次讲座都安排听众自由提问和讨论,线上与线下相结合。各周讲座内容
1. 标点句和换行缩进图式
2. 话头话身结构的分支模式、新支模式、后置模式和汇流模式
3. 超级小句复合体导引模式和模板模式,模式的组合和流水句
4. 基本概念:话头话身结构
5. 基本概念:NT小句和合规小句
6. 基本概念:MSN结构和小句复合体
7. 成分共享模式的语法性质
8. 成分共享模式的语义性质和规模
9. 基本概念:成分共享机制
10. 英语小句复合体和小句
11. 英汉小句对齐和转换
12. 课程总结和讨论
(讲座内容安排可能会动态调整)
《小句复合体的语法结构》专著介绍
内容简介
自然语言的语法层面有语素、词、词组/短语、小句、小句复合体。小句复合体是小句之上的语法层面,大体上相当于句子。小句复合体的语法结构是语法研究的薄弱环节。本书基于汉语缺少形式标记的特点,通过相当规模的语料考察,提出小句和小句复合体的定义,以及小句划分和小句复合体划分的操作方法。
小句复合体语法结构的研究中,本书展示文本的二维表示方法,抽象出话头话身结构和成分共享机制的概念,归纳出以话头话身关系为主的成分共享的语法模式及其性质,设计了相关算法,提出了成分共享区别于成分省略的特征。本书的工作说明,话头话身关系是小句的基本结构关系,成分共享机制是构建小句复合体的基本语法手段。
本书通过英汉小句对齐语料库的建设实践,将汉语的理论体系推广到英语,说明它同适于汉语和英语,原因在于认知方面的共性。本书进而研究了汉英小句复合体语法结构的异同和转换方法。
本书的工作属于语言本体研究范畴,追求对语言现象的可操作和对语篇的全覆盖,并注重认知解释,可服务于自然语言的计算机处理和认知科学研究。
沈家煊先生序
处于当今人工智能的时代,从事语言本体研究的语言学家感到被冷落了。语言智能是人工智能的核心部分,然而他们的研究成果,人工智能专家不管不问,依靠大数据输入和机器自我学习,就能大致管用。这不能怪人家,要怪就怪自己,因为语言学家描写的语言现象、总结的语言规律,在从事语言工程的人看来,缺乏可操作性。有的“规律”(要打引号)覆盖性差,只见树木不见森林,有的“规律”复杂无比,甚至比语言事实还复杂。我曾经问一位专攻语言智能的工程专家,阻碍前进的瓶颈在哪儿,他回答说,机器究竟是如何处理语言的,这是一只黑箱子,我们还不清楚里面是怎么回事。看来要弄清电脑是如何处理语言的,还是先要弄清人的大脑是如何处理语言的,人脑内部处理语言的机制,虽然已经成为研究重点,但基本上还是有如一只黑箱。
本书的作者宋柔先生,是从事计算语言学的资深专家,既有自然语言处理方面的专长,又熟悉和关心语言学本体研究的现状和进展,他相信语言学的研究只要路子对头,是可以为人工智能和语言工程做出贡献的。计算机方面我是门外汉,在通读宋先生的书稿后,不仅受到很多启发,而且有一种欣喜,一种令人耳目一新的感觉:原来汉语的语法描写和分析是可以这样进行的。
一,标点句。记得吕叔湘先生曾经说过,汉语的语法分析不能全依据文本的标点,那是因为汉语文本现行的标点法是借鉴西方语言的标点法引进的,不能完全反映汉语口语的实际情形。但是从另一方面看,由于汉语缺乏印欧语的那种语法形态,大致反映口语中停顿的标点不能不说是从事语法分析的重要依据,也是机器认识汉语的唯一可直观的标记。本书定义的“小句”就是真实文本显示的标点句,一个标点(逗号句号)一个小句。汉语的句子只能定义为两头有停顿的片段,因此确立标点句的重要地位,是符合汉语实际的。
书中举例:①突然,②他听到洗手间有流水声,③警官与特警踢开门,④将洗手间内的人猛地摔倒在地并铐住,⑤经辨认,⑥正是叶成坚。
这是6个标点句组成的话语片断(本书称作“小句复合体”),其中①⑤⑥也认定为小句,这并不奇怪,赵元任先生早就说过,汉语以这样的“零句”为根本。文本有了明确的小句标记,对计算语言学而言,这就有了可操作性。
二,话头话身。这是作者提出的一对重要概念。汉语语法学家已经接受赵元任先生的观点,汉语句子的主语和谓语就是话题和说明,但是受印欧语语法观念的束缚,学界对话题的认识还是过于偏狭。宋先生早先提出“广义话题”的概念,现在改称“话头”,更加贴切。请看书中的例子:
他把左手伸出来。
他因为重感冒了。
他曾经登上过珠峰。
除了“他”是话头,“把”“因为”“曾经”也是话头。在传统的观念里,介连、连词、副词怎么可能看作话题呢?然而作者说,从语言的实际使用特别是对话来看,完全可以把话身看作话头的引出成分,这正是“话头”的直观意义所在:
问:“把什么怎么样?”答:“把左手伸出来。”
问:“因为什么?”答:“因为重感冒了。”
问:“曾经怎么样?”答:“曾经登上过珠峰。”
书中对话头话身结构的性质有详细阐述,并从认知上做出解释,说明它为何适合机器的处理,另外还辨析了话头和主语、话题、主位等传统概念的异同,令人信服。
三,话头共享。汉语语法学界有人从话题出发,研究话题的延续性,也就是开头一个话题连续管辖后头多个小句。有了话头的概念,用话头共享来替代话题延续,更加贴近汉语的实际,能覆盖的语言事实就更广了。共享这一概念还能覆盖话头话身的套接现象,即话身或话身的一部分成为新的话头。请看书中的例子:
王老师生病了,(1)
今天李老师来上语文课,(2)
同学们觉得很新鲜。(3)
其中(1)是话头,(2)是话身,(2)又成为(3)的话头,也就是(2)兼为话头话身,是前后小句的共享成分。按赵元任的说法,这种递系式结构正是汉语的造句精神所在。作者还特别论述,这种套接结构有如几何学论证的“双父共享结构”,其树形图不是单向的左分叉或右分叉,而是双向分叉的对称结构,这使我们对汉语的造句精神有了更深刻的认识。作者还辨析了话头共享和话题缺省、零形指代等传统概念的异同,指出前者比后者的合理和优越之处。书中还描述了各种话题共享的模式及其计算方式。当前语言学关注语言的互动性,在互动性的观照下,一切文本都具有互文性,话头共享正是互文性的体现。
综合起来,话头话身结构以及话头共享结构的提出,大大加深了我们对汉语流水句构造原理的认识。过去我们只知道汉语特多流水句,可断可连,但是对于流水句是怎么在语义上衔接连贯起来的,不甚清楚,现在本书依照逻辑语言关系把一维文字流转化为换行缩进的二维图式,就清楚多了。
四,全覆盖性。除了可操作性和简单性,这也是作者追求的目标。全覆盖是指,提出的一套分析和操作程序要覆盖所有的文本,不论语体。作者分析处理的对象涵盖各种语体的真实文本。语体的差异以及对语体差异的研究固然重要,但是在总体上弄清楚汉语造句和文本构造的精神和原理,就目前而言无疑是更加重要的。
难能可贵的是,作者认为这一套基于汉语事实的分析操作程序也可以覆盖英语等西方语言,并且在书中专列章节加以比较和演示。我想到英语的后置定语从句:
He is a man (that) you can safely depend on.
他的为人,你可以信赖。
汉语的习惯表达不是“他是一个你可以信赖的人”,而是采用上面那样的话头话身结构。如果在那个英语句子的man后头加个逗号,取消关系代词that,那岂不就是一个话头话身句?
一百多年来的汉语语法研究,基本上是学习和借鉴西方语法的分析方法和理论,是向西方看齐,现在作者先避开西方语法的主干主谓结构(也避开词类分别、单句复句分别),尊重汉语的实际,建立话头话身结构和话头共享结构,结果发现它具有普遍价值,从而也可以让西方向东方看齐,具体说,就是把主谓结构看作话头话身结构的一个特例。
上面四点是我阅读书稿后的主要收获和感受,书中还有许多给人启迪的亮点。我相信,此书的出版一定会引起关注,从事语言本体研究和各种应用研究的人都能从中汲取新的知识和思想,推动我们一步步打开黑箱,洞悉人脑和电脑如何处理语言的秘密。
沈家煊
2021.4.23
前言
1. 本书的研究内容
本书研究书面文本的一个语法层级—小句复合体,注重于它的语法结构。
书面文本区别于口语。我们关注的是文字序列,而不是语音序列,也不是口语交谈的书面记录。本书一般不涉及语调、停顿等语音特征。即使提及,这些特征也不是我们的研究中进行归纳的依据,我们依据的是对语音特征有所表现的标点符号等字面上可见的特征。本书把有一定篇幅的文章称作语篇(text),而不是篇章(discourse),后者常常联系于口语交谈,这不是本书所关注的。本书关注的语篇是各种常见的书面文本,包括小说、百科、工作报告、新闻、述评等,但不包括诗歌、剧本、口语记录等特殊语体的文本。
功能语法把语篇内的语法层级划分为语素、词、词组/短语、小句、小句复合体(Halliday 2004),本书研究的是小句复合体层级。小句复合体大致上相当于通常所说的句子,包括汉语语法中说的单句和复句。为了说清楚小句复合体,必须说清楚小句,因为这是它的直接成分;还要说到语篇,因为小句复合体是语篇的直接成分。对于小句,本书并不深入涉及常说的主谓关系的句法结构,而是另做分析。对于语篇,仅限于说明它们同小句复合体的关系,并不做详细讨论。
本书研究的自然语言主要是汉语,全部材料来自白话文,包括白话文的古典小说。本书还在一定的深度上论及英语。在单一的语言中很难把一个语法层级说清楚。通过英汉比较,可以更深刻地理解小句复合体。
2. 为什么要研究小句复合体的语法结构
每一个语法层级(词,词组/短语,小句,小句复合体)都应该有该层级的构造法则,即如何由下一层级的语法单位构造出该层级的语法单位,使语言的使用有所约束和依凭,使语言的使用者之间能在交际中相互理解。对于自然语言处理来说,也能提供有一定刚性的约束和依凭。
词层级的构造法则是语素如何组成词的规则,即词法;词组/短语层级的构造法则是词如何组成词组和短语的规则,即词组/短语语法;小句层级的构造法则是短语和词组如何组成小句的规则,即句法;小句复合体层面的构造法则是小句如何组成小句复合体的规则,即小句复合体语法。
目前,词法和句法研究得很多,小句复合体层级的语法研究得不多,小句如何组成小句复合体还不清楚。语法研究多是关注句子。从形式上看,句子的概念在英语中比较清楚,汉语中并不清楚,常常使用的相关术语还有小句、分句、单句、复句、子句等。本书则不用句子这个术语,而是采用功能语法的体系,词组/短语的上层是小句,小句的上层是小句复合体,再上面就是语篇了。本书将给出小句和小句复合体概念的定义和划分的操作方法。这两个概念的定义搞清楚了,关于单句复句划界的争论也就自然化解了。本书研究小句复合体的语法结构,就是研究小句组合成小句复合体的理论和相关的操作方法。
自然语言处理最终都归结为语义处理。从语义上看,小句应该表现关于事物关系(事物与属性的关系,事物与状态的关系,事物与事物的关系,事物与行为的关系等)的命题,小句复合体应该表现关系密切的若干命题的组合。通过研究小句组合成小句复合体的理论和操作方法,我们希望能从语篇中提取这样的小句,划分出这样的小句复合体。把自然语言语义处理的任务分解为小句的命题处理和小句复合体的命题组合处理,从而化繁为简,逐个击破,最终完成任务。
这项工作有重要意义:
凡涉及文本语义的自然语言处理的应用,都需要在书面文本中切分出小句和小句复合体,这是一件基础性的工作。目前自然语言的语篇处理不断升温,但相关的语言学理论并不完善,形式模型并不完全符合实际的语言现象,作者希望本书的工作能在这方面有所改进,提炼出比较确切的形式模型,这一方面关乎语法理论的发展,另一方面也为小句复合体计算模型的设计打下基础,进而支持相关的应用。
小句复合体是与事理认知对应的基本的文本单位。事理认知的文本单位如何展开,靠什么来表达复杂的关系,靠什么保持意义的连贯衔接?研究清楚这些问题,对于厘清语言的本质有重要意义,进而会对人类语言共同规律的研究做出贡献。
3. 本书的研究方法
本书的研究方法首先是以语言事实为本。我们考察大量真实的书面话语语料,发现语言现象,提取语言概念,归纳语法模式和规律,上升为理论。为此,我们建立了50余万字的汉语小句复合体语料库(Chinese Clause Complex Bank,记作CCCB),包括新闻、小说、工作报告、百科词条;又建立了5000余个英语小句复合体的英汉小句对齐语料库(English-Chinese Clause Alignment Corpus,记作ECCAC)。对于语料,我们反复标注和修订。具体的过程是:在语料考察中形成理论雏形;依据理论的雏形,定出标注方法,进行语料标注;在标注中发现无法纳入已有理论体系的现象,便修订理论,修改标注方法,重新标注语料。如此往复,多数语料标注了10遍以上,有些语料标注了几十遍。
对语料考察,我们追求的标准是可操作和全覆盖。
所谓可操作,首先是对于人来说的。我们总结出汉语小句复合体的理论,理论中所有概念都要求有明确的定义,使得人能有一致的理解,可以通过语料标注展现出来。为此要订立标注规范。我们要求这个规范对于人来说是可操作的。具体来说,对于母语为汉语、具有一定语言素养的人员,用标注规范进行短期培训,然后让他们标注语料,反复几次熟悉规范之后,除了语言本身造成的歧义和两可性之外,他们标注的结果应当具有高度的一致性。
可操作的要求也是针对机器的。首先,相关概念对应的话语中的基本成分,应当大体上可以被机器自动识别。进而,对于人工按预期目标标注好的语料,机器应能遵照标注符号进行自动分析和变换,所得到的结构应该同人预期的结果完全一致。
所谓全覆盖,就是要求对于每个语篇,从头到尾都能纳入到理论所归纳的概念和模式之中。落实到语料库,就是我们的标注是对所有语篇从头到尾进行的,不得略过任何一个字词和标点、符号。
这样的全覆盖,从理论看是很重要的。对于某种语言现象,应当考察这种现象在话语中的全部出现,归纳出有关这种现象的概念、模式、性质等,才能成为关于这种现象的理论。仅仅举一些例子还不能说明问题,仅仅适合于某些词库、短语库、句库、句型库也不够。本书研究的是整个一个语法层级,不是一个局部的语言现象,因此需要覆盖各种类型的语篇,而且都是整个的语篇。当然,由于可能的话语无穷无尽,彻底的全覆盖是不可能的。所以,我们的要求是排除了特殊语体后,在标注工作量可承受的范围内,无排斥地收集语料。收集到的语料中,除了明显的行文错误以外,都应该在理论涵盖的范围内。
我们所说的全覆盖并不以覆盖某个词表或句型表为标准,而是以覆盖各种体裁、各种题材的语篇为标准。一般的词表和句型表是静态的型(type),是抽象、规整的语言单位的列举;但真实语言现象是动态的例(token),是实在、活用的。它们出现在真实的语篇中,因此面向应用的语言理论研究必须做到对多种语篇从头到尾的覆盖。语言理论对真实语篇的覆盖程度很难量化(其实词表、句型表对真实语篇的覆盖程度也一样难以量化)。不过,一般来说,如果一个语言理论对非特意筛选的、有相当数量的语篇都能从头到尾地覆盖,那么它的覆盖程度就应该是大概地有把握的。在应用中可能会发现一些语言现象难以纳入既有理论。如果这类现象某种程度上反映了语言的本质,那么就应该修改和扩充既有理论,这就是说语言理论应当是动态发展的;否则,这类现象应该属于非主流的边界现象,应该在理论上予以解释,应用上采用适当的技术手段来处置。
对于自然语言处理的应用来说,全覆盖的研究更是非常重要。机器为着某个应用目标来处理自然语言文本,它不应该也没有能力来分辨哪些文本、文本中哪些片段是它能够或不能处理的。
语料之于语言学,如同岩石标本之于地质学、生物标本之于生物学。语料考察的可操作、全覆盖的原则,使得所归纳的理论可以得到客观验证,避免陷入无休止的观点争论,并可以形式化、算法化,具有应用于自然语言处理的潜景。
上面说的可操作、全覆盖是我们建立理论、标注语料时心目中追求的目标,实际的工作效果并不能完全达到这个目标。原因有三方面。一是受到检验的语料规模还不够;二是人在阅读中的惯性和惰性更会造成下意识的迁就;三是自然语言文本是一种自然对象,同其他自然对象一样在主流的规律之外会有种种边界现象。不过,既然是我们明确坚守的目标,这个工作的成果应该是大体上经得起检验的,边界现象也会有所分析和解释,有问题之处应该是会被逐步发现、弥补和改正的。
4. 章节安排和相关论著
本书第一部分即从第1章到第4章介绍小句复合体语法结构的基本概念。第二部分即第5章到第12章讨论小句复合体内小句之间各种成分共享模式及其分析算法。第三部分即第13章到第16章结合各种模式讨论话头话身结构等成分共享的性质,并讨论了几种边界现象。第四部分即第17章到第19章讨论小句复合体的成分共享机制,将成分共享同成份省略及零形指代区分开来。这些章节除第1章外都是立足于汉语的,第1章兼顾英语和汉语分析当前流行的句子和小句概念的问题。第五部分即第20章到第23章讨论英语小句复合体的语法结构,介绍英汉小句复合体语法结构的异同及其对机器翻译的影响。第六部分即第24章和第25章介绍汉语小句复合体语料库和英汉小句对齐语料库的建设。第26章是本书内容的总结。
本书主要内容属于语言本体研究,只有第12章讨论算法,对算法不感兴趣的读者可以略过这一章。
在研究历程中,本书的工作曾有多篇论著发表,但有些术语前后不同。有关汉语的内容可见于参考文献中黄建传、季翠、卢达威、鲁松、尚英、宋柔、王经益、张瑞朋的论著;有关英语和英汉比较、英汉翻译的内容可见于方菲、林晓萍、宋柔(2015)、Fang Fei、Ge Shili、Lin Xiaoping和Song Rou的论文,嵇旭颖、蒋吉媛、袁炜的论文是广东外语外贸大学葛诗利教授带领下的进一步的工作。
基于小句复合体理论的计算方面的工作已经开展。北京信息科技大学蒋玉茹副教授、北京语言大学罗智勇副教授带领学生以本书提出的小句复合体理论作为形式模型,先后开展了计算机自动分析的工作。见参考文献中何晓文、胡紫娟、贾泓昊、蒋玉茹、刘祥、毛腾、王瑞琦、张禹尧、Jiang Yuru、Liu Xiang、Mao T的论著。
青岛大学邢富坤教授带领学生做了语料库建设和分析的拓展工作,见参考文献中孙晓迪、王倩蓉的论文。
小句复合体理论已在汉语教学中开始应用。北京语言大学施春宏教授、北京外国语大学熊文新教授、中国人民大学卢达威博士带领学生将小句复合体理论应用于留学生汉语教学,见参考文献中夏文津、杨曼菱、游豪、朱钰麒的论文。
全书目录
序(ⅰ)
前言(ⅴ)
1.本书的研究内容(ⅴ)
2.为什么要研究小句复合体的语法结构(ⅵ)
3.本书的研究方法(ⅶ)
4.章节安排和相关论著(ⅹ)
第一部分 概念
1.句子和小句概念中的问题以及本书的思路(3)
1.1.前人的工作(3)
1.2.句号句及其问题(7)
1.3.本书的思路(13)
2.标点句和话头话身关系(15)
2.1.标点句(15)
2.2.话头,话身,话头话身结构(18)
2.3.换行缩进图式(19)
2.4.话头话身关系的基本性质(21)
3.关于话头的讨论(26)
3.1.话头的句法类型(26)
3.2.话头的语义角色(30)
3.3.共享话头的角色变化(36)
3.4.话头选择的歧义、两可和模糊(38)
3.5.话头概念辨析(41)
4.汉语的小句和小句复合体(52)
4.1.汉语的小句(52)
4.2.汉语的小句复合体(61)
4.3.为什么引入话头话身关系(84)
小结(89)
第二部分 成分共享机制的语法模式
5.话头共享的分支模式(94)
5.1.分支模式的语法和语义(94)
5.2.分支模式话头话身结构与句法结构(95)
5.3.分支模式话身标点句的句序(112)
6.话头共享的新支模式(118)
6.1.新支模式的语法和语义(118)
6.2.新支话头的句法角色分类(121)
6.3.新支模式的语义分析(125)
6.4.分支模式与新支模式的区别特征(138)
7.话头共享的后置模式(141)
7.1.后置模式的语法和语义(141)
7.2.后置模式的语法特征(143)
7.3.后置模式的语义特征(149)
7.4.后置模式与分支模式的转换关系(152)
8.话身尾部共享的汇流模式(159)
8.1.汇流模式的语法和语义(159)
8.2.汇流块的结构特征(162)
9.超级小句复合体导引模式(167)
9.1.导语和引语共享形式宾语(167)
9.2.关于导引模式的说明(172)
9.3.超级小句复合体的结构分析(174)
10.特定语义关系的模板模式(177)
10.1.模板模式的概念(177)
10.2.单小句模板模式(177)
10.3.多小句模板模式(180)
11.模式的组合与流水句(183)
11.1.模式的组合(183)
11.2.流水句(187)
12.成分共享模式分析算法(190)
12.1.MSN结构的划界(190)
12.2.分支模式生成NT小句的算法(194)
12.3.新支模式生成NT小句的算法(199)
12.4.后置模式生成NT小句的算法(203)
12.5.汇流模式生成NT小句的算法(208)
12.6.导引模式生成NT小句的操作方法(214)
12.7.讨论(216)
小结(219)
第三部分 成分共享机制的结构性质
13.语法结构性质(225)
13.1.话头话身结构对原文的保序性(225)
13.2.话头话身结构的不可穿越性(227)
13.3.NT小句的合规性(236)
13.4.共享成分的结构约束(245)
14.NT小句的语义路径(256)
14.1.描述事物属性的语义路径(256)
14.2.描述行为和过程的语义路径(262)
14.3.认知解释(264)
15.成分共享模式的规模(266)
15.1.分支模式的规模(266)
15.2.新支模式的规模(270)
15.3.后置模式和汇流模式的规模(277)
15.4.超级小句复合体导引模式规模(281)
16.边界现象(288)
16.1.主语省略句(288)
16.2.非主谓句(299)
16.3.背景句和补充说明句(302)
16.4.固结块(304)
16.5.分离型话头(307)
16.6.模板模式的横向关联性(309)
小结(310)
第四部分 成分共享概念辨析
17.成分共享的概念和特征(315)
17.1.成分共享概念的界定(315)
17.2.成分共享的特征(316)
17.3.成分共享是构造小句复合体的语法手段(321)
17.4.成分共享机制的认知解释(322)
18.成分共享与成分省略的区别(328)
18.1.成分共享与成分省略的区别特征(328) 18.2.成分共享与成分省略的对比统计(333)
19.成分共享与零形指代的区别(335)
19.1.成分共享关系不是指代关系(335)
19.2.共享成分同零形指代被指成分的区别(337)
小结(340)
第五部分 英语小句复合体及英汉小句复合体结构对比和转换
20.英语小句复合体中的话头话身结构和成分共享(343)
20.1.英语的话头话身关系和NT小句(343)
20.2.英语小句复合体的成分共享模式(344)
21.英汉小句复合体结构的异同(354)
21.1.英汉小句复合体结构的共性(354)
21.2.英汉小句复合体的结构差异(356)
22.英汉小句复合体结构差异对机器翻译影响(361)
22.1.从语法层面分析机器翻译的错误(361)
22.2.英汉小句复合体结构差异对英译汉的影响(364)
22.3.英汉小句复合体结构差异对汉译英的影响(369)
23.机器翻译的PTA模型和英汉小句复合体的结构转换(373)
23.1.PTA模型(373)
23.2.英汉小句复合体的结构转换实例(375)
小结(370)
第六部分 小句复合体语料库建设
24.汉语小句复合体语料库建设(383)
24.1.建设动因(383)
24.2.选材(384)
24.3.标注内容(385)
24.4.标注流程(386)
24.5.标注中的困难(386)
25.英汉小句对齐语料库建设(388)
25.1.建设动因(388)
25.2.选材(388)
25.3.标注内容(389)
25.4.标注流程(390)
25.5.标注中的困难(390)
小结(392)
26.结语(393)
参考文献(398)
附录(406)
附录1 语料库标注规范目录(406)
附录2 汉语小句复合体语料库示例(407)
2.1.新闻(网络新闻)(407)
2.2.小说(罗贯中《三国演义》(第二十一回)选段)(409)
2.3.工作报告(朱镕基《1999年全国人大会议工作报告》选段)(411)
2.4.百科全书(《中国大百科全书中国地理卷》选段)(413)
附录3 英汉小句对齐语料库示例(WSJ0018)(416)
附录4 成分共享与省略的区分实例(422)
附录5 本课题得到的资助(431)
术语索引(432)
后记(434)
后记
自然语言处理经历了规则方法时期、统计方法时期和大数据驱动的深度学习方法时期,目前第三个时期正发展得热火朝天,不断有新的模型问世,机器翻译、检索问答等应用系统的性能明显提高。这种情势下,语言学研究还有没有用呢?
本人无意贬低数据的巨大作用。人挖掘出的知识可以用多种形式表现,如前提结论的规则形式,词语知识库的形式,知识图谱三元组的形式,语料标注的形式等等,但都是有限的、离散的,还可能相互矛盾;自然语言现象是连续分布的,并且具有原型特征,在不同的原型类之间有几乎无限多的非典型的模糊的细类。大量的数据可以填补人提供的知识的不足,弥合原型类之间的缝隙,使得应用效果呈现连续顺畅的形象。因此,大数据以及数据驱动的深度学习,确是非常必要的。
不过,一般领域的数据(下棋等可以完全形式化的领域除外)产生于人的实践,这样的数据只能是随时间线性增长的;电脑的数据处理能力也不可能无限增长。但是,对于数据驱动的方法来说,应用任务所涉数据的上下文距离增大,数据意义的各维度距离增大(如专业领域的细化),深度学习所需的数据量得要指数级地增大。可用数据的数量和电脑的数据处理能力,无法满足深度学习所需要的数据规模。
进而,数据来自于存在,存在只是说“有”,不能说“无”;只能表现共现,不能表现因果。因而数据驱动的技术有着先天不足,可能判断错误,而且无论对错都难以提供解释。人可以补充“无”的信息,“有”和“无”的结合才能推断现象之间的因果关系。而且有了“无”的信息,只要掌握较少的“有”数据就可以分析各种现象。进而,人能解释“有”和“无”的原因,这是高一层逻辑体系中的因果。自然语言领域,“无”的发现和对于“有”“无”的解释来自于语言学家对于话语和认知之间关系的体认研究。因此,人在语言学研究中获得的关于“有”的典型性的判断,关于“无”的认知,关于“有”和“有”、“有”和“无”之间本质关系的认知,是必不可少的。
这只是从应用需求方面看。另一方面,探索未知是人类区别于动物的本性。不问这种探索有什么样的用处,单单是揭示自然的奥秘,揭示自然现象之间的联系,便是科学工作者的天赋使命。揭示自然语言的规律,揭示话语同大脑认知机制的联系,便是语言学、计算语言学、认知科学工作者的天赋使命。
上述两方面就是本书写作的原动力。
本书的工作始于1990年。那时伊利诺伊大学香槟分校(UIUC)郑锦全教授接纳作者做访问学者并建议做汉语篇章结构分析。那是作者第一次注意到现在说的汉语标点句间的成分共享现象,并开始用换行缩进图式标注语料中标点句间的关系。当时把这种现象看作小句前部省略。此后几年间在北京工业大学计算机学院继续这一工作并取得了初步成果。后来精力放在计算语言学应用技术研究方面,这个课题被放下了。2000年作者应香港城市大学邹嘉彦教授之邀去访问,有机会继续推进这方面的工作。那时是从句法关系的角度去分析。后来,作者在北京语言大学和北京工业大学先后招收了几位语言学和计算机应用的研究生做相关工作,将这一工作的视角从句法关系逐渐转向语用的广义话题与说明的关系,进而取名为话头话身关系。2015年以来受功能语法的体系的启发,把这一工作纳入小句复合体语法结构研究中。此时开始,作者受聘于广东外语外贸大学外语研究与语言服务协同创新中心,与该中心的团队一起工作,建设英汉小句对齐语料库,把汉语研究中归纳出来的种种模式和性质推广到英语。
整个研究过程中,作者的团队曾发表过相关内容的多篇论文,每一篇侧重某一个方面。由于小句复合体的研究从背景、概念、方法、性质到应用涉及的新想法多,相互关联,论文篇幅受限难以完整交代,于是决心写一部书,把需要说的事情都尽量说清楚,于是就有了这本书的构思。素材积累是一直在做的,动笔写作到初稿完成又用了将近1年的时间。
曾同作者一起从事这项课题研究工作的同行和研究生先后有:
1990年代,中国人民大学中文系潘维桂教授和尹振海教授,北京工业大学计算机学院硕士研究生鲁松;
2000年以来,北京语言大学博士研究生王经益、张瑞朋、尚英、卢达威,北京工业大学博士研究生蒋玉茹,北京语言大学硕士研究生黄建传、季翠;
2015年以来,广东外语外贸大学外语研究与语言服务协同创新中心主任葛诗利教授和他的研究生方菲、林晓萍、李静怡等,北京语言大学罗智勇副教授和他的研究生李舒馨、赵志琳、韩玉姣等。暨南大学王洁博士参与了讨论。
感谢这些同行和同学,他们标注语料,开发软件,探索规律,撰写论文,讨论中提出许多深入的有启发性的问题。
感谢30年中北京工业大学计算机学院、北京语言大学和广东外语外贸大学提供了宽松的科研环境。
非常感谢广外葛诗利教授的团队。没有他们的加入,这项工作不可能从汉语推广到英语。博士生林晓萍校订了书稿中涉及英语的句子。
曾以不同方式对这项工作给予了支持、提供了意见的专家有(拼音序,难以全部列出,见谅):白硕,陈小荷,崔希亮,董振东,方梅,顾曰国,郭锐,冯文贺,冯志伟,黄昌宁,侯敏,姬东鸿,江新,揭春雨,金立鑫,李佐峰,刘群,刘挺,刘洋,陆丙甫,潘海华,沈家煊,施春宏,史晓东,司富珍,孙乐,孙茂松,王洪君,魏勇鹏,吴平,徐晶凝,荀恩东,俞士汶,袁毓林,詹卫东,张博,张民,赵军,周昌乐,周国栋,宗成庆,邹嘉彦等。
特别感谢香港城市大学邹嘉彦教授。三十年前作者发表的关于该课题的第一篇文章得到了邹教授宝贵的首肯,此后他又以多种方式提供条件,支持作者把这一工作推进下去。
特别感谢北京大学詹卫东教授。詹教授作为语言本体和计算语言学的专家,通读了书稿并提出非常到位的修改意见,使本书能以稍微像样的面貌出版。
特别感谢中国社会科学院资深研究员沈家煊教授。沈教授多次参加关于这一课题的研讨会,推荐发表论著,特地为本书写序。沈先生关于超越主谓结构的大语法的观点,给了作者启发和写书的勇气。
特别感谢商务印书馆承允出版本书,感谢本书编辑曲清琳女士的辛勤工作。
特别感谢国家自然科学基金委员会前后4次资助相关于本课题的研究,北京市自然科学基金委员会也资助过本项工作。
本人在语言学领域只能算是个热心的票友,写这样一部书不仅是吃力,而且难免发生各种各样的错误。之所以敢于斗胆拿出来,是因为论及的种种模式和性质,来自于客观真实的语料,是可以在语篇中验证的。这30年间,本人不断地标注语料,同一篇文本有些标注过数十遍。重新标注的原因不仅是为改正疏漏,更多的是更新理论看法导致标注体系的改变。书中的不足和错误,诚挚地希望各位读者反馈过来,以利改进工作。
语料是语言学研究的客观对象。现在是互联网时代,可以轻松获得大量语料,可以用文字处理工具对语料进行各种组配和统计,可以随时记录想法进而方便地补充修改(这又到了元语言层次了)。这是几十年前无法想象的。相对于人,网络和文字处理工具在研究工作中所起的作用是辅助性的,但效果却是革命性的。在这样的条件下如果还不能做出一点成果出来,就真的是愧对前辈了。
作者的恩师马希文教授在《语言文字资料的计算机处理》一文中说:
用计算机做语言处理,要求我们彻底从事实出发,而不是从观念出发。这实际上是对各种语法理论的一种严峻考验,使其缺陷得到充分的暴露。纠正这些缺陷,看来必须动大手术;当然,这也意味着汉语语法研究有了新的动力,有可能来一次大步迈进。
谨以此书告慰马老师。
宋柔
二零二一年十二月于缘荔书屋
3.学术讲座