面向语言工程的现代汉语词类体系与词性标注研究

语言科学 2022-07-15

收录于合集

汉语词的研究无论对于语言本体研究，还是对于语言工程实践不仅是一个重点，更是一个难点。重点是因为词这一级语言单位负载了稳定的意义，在语言交际中可以独立运用，把词的使用规律研究清楚，对于整个语句的组织、生成、理解、处理都有重要意义。难点是因为汉语的词研究面临的困难比印欧语等形态丰富的语言都要多，汉语首先遇到的是词的定界问题，如何划分词与语素、词与词组的界限是较为困难的事情，词的单位不清楚，分类对象就不明确，分类工作就难以顺利进行；其次，汉语缺乏形态特征和形态变化，难以从词形本身为词找到分类依据；此外，汉语词的使用灵活，尤其是大部分实词可以承担多种句法功能，能较为自由地占据不同句法位置，且在不同句法位置上其形态不发生变化，这更加大了利用形式条件划分词类的困难。尽管困难重重，但词类问题依然吸引了近代百年以来众多语法学家的关注，并针对汉语是否存在词类、如何划分词类等问题展开一轮又一轮的热烈讨论，虽仍未取得统一的结论，但还是取得了许多可喜的研究成果，既包括理论上的创新，也包括实践中的开拓，并且其中一些研究成果已经被应用到语言教学与语言工程之中，发挥了重要作用。看到成绩的同时，也必须清醒地意识到汉语词类问题远未得到解决，尤其是当面对大规模真实文本的时候，当需要为几百万、上千万词次的语料标注上每个词例的词性的时候，当需要把面向人的词类知识转移给计算机使用时，汉语的词类问题就更加凸显出来。对于这些问题有很多先行者进行了卓有成就的开拓，例如，北京大学研制开发出《现代汉语语法信息词典》（以下简称《语法信息词典》），对八万多词条进行细致的语法属性描写，同时还为2000年的《人民日报》语料库（以下简称《人民日报》）标注了词性，语料量达到近2700万字，其工作对汉语语言信息处理产生重要影响，也为深入研究词类问题提供了重要资源。本书在这些成果基础上，对汉语词类问题进行考察，从语言工程的角度回答，汉语词类理论和词性标注存在哪些问题、造成这些问题的深层原因是什么，进而回答汉语词类的本质是什么、是否应当像英语一样标注词性、是否应当动用大量的人力物力开展大规模语料的词性标注工作等问题，并最终为汉语语言本体研究和语言资源建设提供有价值的建议和对策，以促进汉语语言信息处理工作的发展。本书的根本出发点是语言工程的需要。语言工程的工具是计算机，处理对象是真实文本，目的是分析和提取意义，满足各种应用对语言的要求，应用包括机器翻译、信息检索、自动答问、文本分类、自动摘要、信息过滤等。这样的工作十分困难、复杂，不得不分步进行，并且计算机只能应对有限个对象，当对象无限多时，就需要确定有限个基本对象，其余对象用基本对象的复合来表示。对于汉语文本来说，这种基本对象就是词。因为字的意义不确定性太大，而短语、句子、段落、篇章则是无穷的。理论上说词也是无穷的，但在数词和人名、地名、机构名各自合类的前提下，数万到数十万个词就可以或粗或精地满足一般的语言处理需求了。对于这些词，计算机需要掌握它们的知识，包括它们的意义、用法以及它们在复合结构中的作用等。这些知识也必须用有限个对象表示，这种对象就是词的属性，由属性按不同的方式可以组合成各种类别，以便机器按类处理。词的属性需要人传递给计算机，传递的方法目前大致有三种：①词的知识库，标注词的固有属性或者说静态属性；②语料库，标注词的语境属性或者说动态属性；③基于词和词属性的规则库，描述词的组合规律，说明如何由组合关系排歧，如何从词和词的各自属性获得组合之后构成的复合结构的属性。第一种知识主要靠人为获取和加工。第二种知识也是靠人为取得，但计算机可以辅助人做许多工作，比如人标注较小的语料库，计算机“学习”后标注较大的语料库，人再校对修改。第三种知识有相当一部分可以让计算机从语料库中自动获取。计算机从语料库中获取的知识中有相当一部分是人无法直接通过规则传递给计算机的，因为这些知识太微细且数量庞大，超出了人的归纳能力。但是，也有一些知识是计算机难以从语料库中自动获取的，因为它们太宏观，超出了计算机的归纳能力。在语言工程中，比较自然的方法是首先对词例进行属性标注，以此为基础再进行后续的分析理解。这样分阶段地处理可以降低处理难度，但也带来一个重要问题，即如果词例的属性标注体系不当或者标注不准确，就会对后面的工作带来重大影响。显然标注体系带来的影响是根本性的，即使标注体系合理有效，标注精度不够高也会非常麻烦。假如词例标注正确率为95%，即平均每20个词错标1个，又假定平均句长是10个词，于是平均每两句又有一句发生词例标注错误，这一句在后续的处理中很难再被处理正确，从而以句子为单位的整体处理正确率最高不会超过50%。这就是从语言工程的角度要对词的属性体系和词性标注给予重点关注的原因。此外，从语言资源建设的角度看，当前我们国家和一些相关机构都在大规模地开展语料库的加工和建设，而通常语料库建设的一个重要内容就是进行词性标注，因此投入大量的人力、物力、财力对大规模语料标注词性。这样的工作在语料库建设初期是有意义的，因为通过标注实践能够更好地帮助认识汉语词类问题的特点，为更深入地研究提供较为丰富的研究资源，但当这样的工作进行到一定阶段，达到一定规模的时候，需要暂停一下，客观地从汉语自身实际来考察汉语的词类体系和词性标注问题，回答汉语在词类问题上有什么独特之处、如何看待汉语的这些特点、汉语是否能够和需要像英语等形态丰富的语言那样标注词性等问题。通过这些理论层面的思考来更好地把握汉语词的特点，开展适合汉语特点、满足汉语语言信息处理需求的语言加工工作，更好地指导汉语语言资源建设工作，避免资源浪费。在词一级的语言处理工作中，除了建立较为科学合理的词的属性体系外，另外一项重要工作就是要实现词的属性自动标注，开展标注模型和标注算法的研究。模型和算法研究是语言工程区别于语言本体研究的重要方面，使得语言工程不仅要关注典型词的属性特征，还要关心非典型词的属性特征，不仅要在理论上能够自圆其说，还要在实践中得到落实和检验。词语属性的标注工作在工程实践上一般有两个步骤：第一步是要以一定的标注理论为指导，制定较为明确合理的标注规范，以机器为辅助，人工实现对较大规模语料的标注加工工作；第二步是以标注语料作为训练语料，开发或应用某种适合的机器学习方法，训练出拟合效果较好的标注模型，形成自动标注工具，高效率、高准确性地完成自动标注任务。在这项工作中，语言规律研究与语言任务二者有机地结合成一体，互相影响，互相促进。基于以上考虑，本书选择了汉语的词类体系和词性自动标注作为研究对象，希望能够在较大规模的调查分析基础上对汉语词类问题有一个更加深入的认识，同时也希望能够通过自动标注的实践促进对汉语词类本质的认识，而对汉语词类本质的深入探究也会促进自动标注模型和算法的改进，提高标注模型的标注效率和准确性。

本文摘自邢富坤著《面向语言工程的现代汉语词类体系与词性标注研究》，科学出版社出版。

作者：邢富坤著

书号：9787030714954

定价：98元（平）

出版社：科学出版社

作者简介

邢富坤：博士、教授，研究方向为语料库语言学、语言信息处理、语言教学技术，主持国家社科基金项目2项，在《当代语言学》《现代外语》《解放军外国语学院学报》《中文信息学报》等核心期刊发表论文20余篇。

READING本书目录

序
第1章绪论 1
1.1 研究背景 1
1.2 研究目标与内容 4
1.3 本书结构 5
第2章词类研究概述 6
2.1 国际上词类研究概述 6
2.2 汉语词类研究概述 11
2.3 面向语言信息处理的汉语词类研究 13
第3章词性标注研究概述 16
3.1 词性标注与语料库加工 16
3.2 主要的英语语料库介绍 19
3.3 主要的汉语语料库介绍 20
3.4 有关汉语词性标注的评测活动 22
3.5 语言工程中的自动标注方法研究 23
第4章词类属性调查 28
4.1 调查目的及方法 28
4.2 词类及其兼类的总体分布 30
4.3 主要词类属性调查 39
4.4 另类词分布统计 45
第5章词性标注调查 47
5.1 相关术语及定义 47
5.2 语料标注调查的必要性 50
5.3 词性标注的调查原则 52
5.4 调查目的及方法 58
5.5 标注语料的总体情况 61
5.6实词兼类调查 62
5.7 虚词兼类调查 97
5.8语料标注调查结果分析 107
第6章汉语词类与词性标注问题分析 115
6.1汉语词类体系的分析 115
6.2 汉语词性标注分析 143
6.3 汉语词类问题的总结及相关对策 154
第7章英汉语词类问题的比较 159
7.1 句法约束与词类之间的关系比较 159
7.2 词类属性与句法实现之间的比较 162
7.3 词性标注过程的比较 163
7.4 英汉语词类特点的总结 166
第8章 COV模型与词性标注 167
8.1 标注模型概述 168
8.2 COV模型的形式化描述及与HMM模型的对比分析 170
8.3 参数估计及稀疏数据处理 173
8.4 算法描述 175
8.5 评价方法 177
8.6 实验设计及结果分析 177
8.7 COV模型在英文词性标注中的应用 189
8.8 COV模型讨论 191
第9章汉语词性标注体系与自动标注错误的关系分析 195
9.1 自动标注错误原因 195
9.2 兼类词词性调查分类 196
9.3 主要评价指标 197
9.4 实验结果及分析 198
9.5 主要结论和启示 205
第10章总结与展望 207
10.1 主要工作 207
10.2 未来展望 208
参考文献 210
附录词性标注调查词（词频）表 216