查看原文
其他

冯志伟教授:计算语言学方法研究

冯志伟教授 语言科学 2024-04-11


什么是计算语言学?

计算语言学(Computational Linguistics)是用计算机对自然语言这种研究对象进行研究和处理的一门新兴交叉学科,由于自然语言普遍存在于人类的很多活动领域,涉及语言学、计算机科学、数学、心理学、生物学等多个学科,因此,自然语言处理是最为典型的横跨文科、理科和工科的交叉学科研究。






 计算语言学方法研究

A  Study of Methods on 

Computational Linguistics

计算语言学方法研究  

ISBN:978-7-5446-6924-5

作者:冯志伟 著

出版时间:2023-07
定价:168.00元

优惠价:117.60元

(点击封面可进入小程序购书)



作者简介


冯志伟,1939年生,先后毕业于北京大学和中国科学技术大学,计算语言学家。 


法国留学期间,师从国际计算语言学学会第一任主席Vauquois,研制了世界上第一个把汉语译为多种外语的机器翻译系统。20世纪70年代测出汉字熵为9.65比特,为汉字多八位双字节编码提供了语言学支持。曾在德国特里尔大学文学院、韩国高等科学技术院计算机科学与电子工程系担任教授,讲授自然语言处理课程。


先后出版论著40部,发表论文400多篇,主持研制国际标准1项、国家标准1项、国家规范3项,参与研制国家标准13项。担任国内外著名杂志编委,曾任中国语文现代化学会副会长,中国人工智能学会理事,《中文信息学报》《语言文字应用》顾问。2006年获奥地利维斯特奖,2018年获中国计算机学会NLPCC杰出贡献奖,2021年获中国中文信息学会会士荣誉称号,2022年获香港圣弗朗西斯科技人文奖。


前言 (节选)


计算语言学在发展过程中,提出了很多方法。这些方法在理论上有一定的深度,在实践上有实用价值,值得我们语言学研究者重视。但是,国内计算语言学界对于这些方法的研究基本上是支离破碎的,缺乏系统的总结,更缺乏理论上的深入分析。本书在全面调查国内外计算语言学各种方法的基础上,对这些方法进行系统的描述,并在理论上进行深入分析和概括,进而总结出规律性的、具有方法论意义的知识,旨在推动计算语言学在我国的发展。


俗语说:“工欲善其事,必先利其器。”“器”就是工具,就是方法。


......


本书对于计算语言学方法的研究可以分为四个方面:计算语言学中形式化方法的研究;计算语言学中自动剖析算法的研究;计算语言学中统计方法的研究;计算语言学中深度学习和神经网络方法的研究。分述如下:


一、计算语言学中形式化方法的研究

计算语言学中提出的各种形式化方法,除了具有深刻的语言学背景之外,还具有明显的方法论色彩,它们很容易在计算机上实现。为此,我深入、系统地考察了计算语言学在语音自动处理、词汇自动处理、形态自动处理、句法自动处理、语义自动处理、语用自动处理中使用的各种形式化方法,比较它们之间的异同,并从中提炼出各种方法的精粹。


二、计算语言学中自动剖析算法的研究

剖析是英语parser的音译兼意译。所谓“剖析”,就是分析语言的结构,也就是把线性的语言符号串转化成某种形式化的结构表达式(如成分结构树、依存关系树、线图等)。我研究了自底向上分析法(Bottom-Up Parser)、自顶向下分析法(Top-Down Parser)、左角分析法(Lefi-Corner Parser)、伊尔利算法(Earley Algorithm)等在计算语言学中行之有效的算法,揭示这些算法的数学原理,分析各种算法的效率,并研究各种算法的程序设计方法。


三、计算语言学中统计方法的研究

统计是传统语言学研究的一种重要方法。在与计算机有关的语言研究中,早在1949年,著名美国计算机专家W. Weaver就提出,可以利用信息论的解码(decode)思想,使用统计方法来进行机器翻译,统计语言学因此风靡一时。但是,随着N. Chomsky转换生成语法的兴起,语言学界对于统计方法的兴趣大大减弱了。在20世纪90年代以前,从事自然语言处理的大多数研究人员都把研究目标限定在某个十分狭窄的领域之中,他们采用的主流技术是基于规则的句法语义分析方法。尽管这样的方法在某些受限的子领域中曾经获得一定的成功,但是,如果用这样的方法来处理大规模的真实文本,就会显得捉襟见肘,进退维谷,从而遇到了很大的困难。这就导致了统计方法在计算语言学中的复兴。20世纪90年代以来,统计方法在大规模真实文本语料库的处理中获得了很大的成功。我深入考察了自然语言的马尔可夫模型(Markov Model)、N元语法模型(N-Gram Model)、噪声信道模型( Noisy Channel Model)、最大熵模型( Maximum Entropy Model)、概率上下文无关语法(Probabilistic Context-Free Grammar, 简称PCFG)、逻辑斯蒂回归(Logistic Regression)等计算语言学中行之有效的统计方法以及为了避免统计数据稀疏而研制的各种平滑算法(Smoothing Algorithm),并揭示其数学形式所包含的具体语言学内容。


四、计算语言学中深度学习和神经网络方法的研究

进入21世纪以后,人工智能(Artificial Intelligence, 简称AI)中的机器学习(Machine Learning)方法被引入计算语言学中,计算语言学中采用了词向量(Word Vector)、词嵌入(Word Embedding)来表示自然语言的结构信息,深度学习(Deep Leaming, 简称DL)和神经网络(Neural Network, 简称NN)方法成为当前计算语言学的主流方法。本书将深入分析大脑神经网络(Brain Neural Network)、人工神经网络(Artificial Neural Network)、词嵌入(CBOW, Skip-Gram)、词向量、感知机(Perceptron)、前馈神经网络( Feed-Forward Neural Network)、卷积神经网络(Convolutional Neural Network)、循环神经网络( Recurrent Neural Network)、预训练模型(Pre-training Model)等方法,并介绍知识表示、知识融合、实体识别、实体排歧、关系抽取、事件抽取、知识存储等知识图谱(Knowledge Graph)的方法,力图揭示这些方法后面的语言学机理。多年来,我一直使用基于规则的方法和基于统计的方法来做计算语言学研究,现在基于深度学习和神经网络的方法已经成为计算语言学研究的主流,我虽已过耄耋之年,但仍然没有服老,进行了知识更新的再学习,本书中关于深度学习和神经网络方面的内容,就算是我这位年逾古稀的老人与时俱进的一个记录吧!


......


研究科学确实是一件令人愉快的事情;学习和探索所不熟悉的新知识,同样是一件令人愉快的事情。在计算语言学的探索中,正如但丁所说的那样,每当我们有所发现的时候,就像看到了满天的繁星在苍穹里闪耀那样兴奋。现在阅读本书的读者们正打算研究计算语言学,你们就像走出了“地狱”之门,历尽艰辛终于来到了“天堂”的门口,即将豪情满怀地迈步跨入“天堂”。我敞开胸怀热烈地欢迎你们。


在此,我愿意对你们说:“在计算语言学的门口,正如在‘天堂’的门口一样。进来,就有希望!”




本书目录

第一章  历史回顾和哲学背景

第一节  计算语言学的历史回顾及其与人工智能的关系
第二节  计算语言学方法的哲学背景

第二章  语音的自动处理方法
第一节  语音自动处理研究的历史回顾
第二节  语音的形式描述方法
第三节  语音自动合成的方法
第四节  语音自动识别的方法

第三章  词汇的自动处理方法
第一节  词汇自动处理研究的历史回顾
第二节  知识本体
第三节  词网
第四节  词汇的计量研究方法
第五节  机器词典中语言信息的形式表示方法

第四章  形态的自动处理方法
第一节  形态自动处理研究的历史回顾
第二节  不同类型语言的形态自动分析
第三节  有限状态自动机与形态自动分析
第四节  词的形式化描述与分析

第五章  句法的自动处理方法
第一节  句法自动处理研究的历史回顾
第二节  基于上下文无关语法的自动句法分析方法
第三节  伊尔利算法
第四节  花园幽径句的自动分析方法
第五节  浅层句法分析
第六节  自然语言的计算复杂性
第七节  基于特征结构的自动句法分析方法
第八节  基于依存语法的自动句法分析方法

第六章  语义的自动处理方法
第一节  语义自动处理研究的历史回顾
第二节  意义的形式化表示方法
第三节  基于优选的语义分析方法
第四节  基于内涵逻辑的语义分析方法

第七章  语用的自动处理方法
第一节  语用自动处理研究的历史回顾
第二节  指代判定方法
第三节  文本衔接的自动分析方法

第八章  计算语言学中的统计方法
第一节  计算语言学中统计方法的历史回顾
第二节  基于概率语法的自动句法分析方法
第三节  噪声信道模型
第四节  最大熵模型
第五节  N元语法与数据平滑的方法
第六节  逻辑斯蒂回归方法

第九章  计算语言学中的神经网络方法
第一节  神经网络方法的历史回顾
第二节  大脑神经元与人工神经网络
第三节  机器学习与深度学习
第四节  词向量和词嵌入
第五节  稠密的词向量
第六节  感知机与XOR问题
第七节  前馈神经网络
第八节  卷积神经网络
第九节  循环神经网络
第十节  注意力机制
第十一节  外部记忆
第十二节  预训练模型

第十章  计算语言学中的知识图谱
第一节  知识图谱的类别
第二节  知识表示
第三节  知识融合
第四节  实体识别与排歧
第五节  关系抽取
第六节  事件抽取
第七节  知识存储

结语
参考文献
附录

来源:思飞学术


1.书单推荐
国外语言学研究速递——翻译学书单(1)
国内语言学研究成果速递——语言学联合书单202306
国外语言学研究速递——神经语言学及临床语言学书单
语言学研究成果速递:语言学联合书单202305
语言学外文图书推荐
趁着假期,论文写起来、项目准备起来
Antoine Meillet:历史语言学中的比较方法
语言文学高被引论著Top10

2.学术会议
2023年度语言/翻译学学术会议(第六辑)
2023年“当代语法学理论及国际中文教育博士生学术论坛”
第五届全国课堂二语习得研究论坛
江苏师范大学:神经语言学脑电技术实训营
首届量子思维与语言研究国际学术研讨会
人工智能时代数字人文与语言研究创新论坛
第20届国际城市语言学会年会
2023年江苏省研究生语言发展与障碍学术创新论坛
第七届广外应用语言学论坛
第七届语言测试与评价研讨会

3.讲座回看
国际期刊论文写作发表系列
语言学讲座回放集锦(八)
语言文学讲座回放集锦(七)
语言文学公益讲座回放集锦(六)
语言文学公益讲座回放集锦(五)
语言文学公益讲座回放集锦(四)
语言文学公益讲座回放集锦(三)
语言文学公益讲座回放集锦(二)
语言文学公益讲座回放集锦
国家社科基金中华学术外译项目申报
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存