查看原文
其他

冯志伟:当前计算语言学发展的几个特点 | 中国社会科学网

The following article is from 中国社会科学网 Author 冯志伟

欢迎点击上方关注我们,欢迎转发此文


计算语言学(computational linguistics)是用计算机研究和处理自然语言的一门新兴的交叉学科。在其发展过程中,这门学科的研究就分别在语言学、计算机科学、数学、心理学、电子工程、认知科学等不同领域中进行过,具有明显的跨学科特色。

计算语言学对人工智能意义重大

计算语言学是研制智能化电子计算机的一项基础性工作,而人工智能的研究又离不开对自然语言的处理,因此计算语言学的研究在人工智能的研究中起着举足轻重的作用。

人们早已为计算机软件设计了许多人工语言。这些人工语言与自然语言一样,都遵循着形式语言的规律和法则。美国语言学家乔姆斯基(N. Chomsky)提出的形式语言理论,既适用于人工语言,也适用于自然语言。这有力地说明,二者在形式描述方面,确实存在着某些共性。

但是,自然语言至少在四个方面与人工语言大相径庭:自然语言中充满着歧义,而人工语言中的歧义是可以控制的;自然语言的结构复杂多样,而人工语言的结构相对简单;自然语言的语义表达千变万化,尚无一种简单而通用的描述途径,而人工语言的语义可以由人来直接定义;自然语言的结构和语义联系错综复杂,一般不存在一一对应的同构关系,而人工语言则常常可以把结构和语义分别进行处理,结构和语义之间有着整齐的一一对应的同构关系。由于自然语言具有的这些独特性质,使得自然语言的计算机处理成为人工智能的一大难题。

发展趋势对研究者提出更高要求

20世纪50年代以来,国内外学者在这个新的学科领域进行了不懈探索,现已取得可喜的成绩。当今互联网的普及又对自然语言的计算机处理水平提出了更高的要求,世界各国也因此更加重视计算语言学的研究。当前计算语言学发展的特点主要表现在以下五个方面。

第一,基于句法—语义规则的理性主义方法受到质疑。随着语料库建设和语料库语言学的崛起,大规模真实文本的处理成为计算语言学研究的主要战略目标,基于语言大数据的经验主义方法在计算语言学中独占鳌头。

理性主义方法的一个重要弱点表现在实践方面。从事计算语言学研究的理性主义者采用主流技术,基于规则的句法—语义分析,尽管这些应用系统在某些受限的“子语言”(sub-language)中也曾经获得一定程度的成功,但要想进一步扩大这些系统的覆盖面,用它们来处理大规模的真实文本,仍然困难重重。因为,从自然语言处理系统所需要装备的语言知识来看,其数量之浩大和颗粒度之精细,都是以往的任何系统所远远不及的。而且,随着系统拥有的知识在数量上和程度上发生巨大变化,系统在如何获取、表示和管理知识等基本问题上,必须另辟蹊径。这样,在计算语言学研究中就出现了应对大规模真实文本的问题。当前语料库的建设和语料库语言学的崛起,正是计算语言学战略目标转移的一个重要标志。随着人们对大规模真实文本处理的日益关注,越来越多的学者认识到,基于语料库的分析方法(即经验主义的方法)至少是对基于规则的分析方法(即理性主义的方法)的一个重要补充。只有具备“大规模”(large-scale)和“真实”(authentic)这两个因素,语料库才是最理想的语言知识资源。

这种基于大数据的经验主义方法也影响到了语言材料的搜集、整理和加工,促进了语言学研究方法的变革。理论语言学的研究必须以语言事实作为根据,详尽地、大量地占有材料,才有可能在理论上得出比较可靠的结论。而计算机的运用,大大减轻了人们搜集、整理和加工语料的劳动。

第二,自然语言处理中越来越多地使用机器学习(machine learning)的方法来获取语言知识,基于神经网络的深度学习(deep learning)方法成为计算语言学的主流方法。

进入21世纪后,计算语言学中经验主义倾向进一步以惊人的步伐加速发展。这样的加速发展在很大的程度上由三种彼此协同的趋势所推动。首先是建立带标记语料库的趋势。这些语言资源的存在,大大地推动了人们使用有监督的机器学习方法来处理那些传统上非常复杂的问题,例如自动剖析和自动语义分析等。这些语言资源也推动了有竞争性的评测机制的建立。其次是统计机器学习的趋势。对于机器学习的日益增长的重视,导致了计算语言学研究者们与统计机器学习的研究者更加频繁地交流互动。对于支持向量机技术、最大熵技术以及与它们在形式上等价的多项逻辑回归、图式贝叶斯模型等技术的研究,都成为计算语言学的标准研究实践活动。再次是高性能计算机系统发展的趋势。高性能计算机系统的广泛应用,为机器学习系统的大规模训练和效能发挥提供了有利的条件。

由于建设可靠的标注语料库花费高且难度大,这促使我们更多地使用无监督的机器学习技术,让计算机自动地从浩如烟海的语料库中获取准确的语言知识。因此,机器词典和大规模语料库的建设成为当前计算语言学的热点。进入21世纪后,传统的机器学习方法进一步发展成为基于神经网络的深度学习方法。这种深度学习方法独立于具体语言,只要语言数据足够多,就可以让计算机自动学习到该语言的各种特征,而且在分析精度上还大大地超过了传统方法。这是在计算语言学历史上获取语言学知识方法的具有革命性意义的变革。

第三, 数学方法越来越受到重视。

使用人工观察和内省的方法,显然不可能从浩如烟海的语料库中获取精确可靠的语言知识,因此必须依靠统计数学的方法。

语言模型是描述自然语言内在规律的数学模型,构造语言模型则是计算语言学研究的核心。语言模型可以分为传统的规则型语言模型、基于统计的语言模型和基于深度学习的语言模型。规则型语言模型是人工编制的语言规则,这些语言规则主要来自语言学家掌握的语言学知识,具有一定的主观性和片面性,难以处理大规模的真实文本。基于统计的语言模型通常是概率模型,计算机借助语言统计模型的概率参数,可以估计出自然语言中语言成分出现的可能性,而不是单纯地通过语言学规则判断,因此更加客观和全面。基于深度学习的语言模型完全不需要人工设计语言特征,计算机从大数据中自动地获取语言特征。这样的基于深度学习的语言模型比概率性的语言统计模型更胜一筹,机器学习的效果大大提高了。

目前,计算语言学中的深度学习语言模型已经相当成熟,对研究者数学水平的要求也就更高了。

第四,自然语言处理中越来越重视词汇的作用,出现了强烈的“词汇主义”倾向。

词汇是话语实现的主要载体,语法的作用仅仅是管理意义、组合成分和构筑词项。这种强调词汇作用的倾向,称为“词汇主义”(lexicalism),已经对计算语言学产生较大影响。

自然语言中充满歧义,而这个问题的解决不仅与概率和结构有关,还往往与词汇的特性有关,必须依靠词汇知识解决。事实证明,尽管在计算语言学中使用了概率的方法,但在遇到词汇依存问题时往往显得捉襟见肘,因此还需要探索其他的改进途径,特别是在概率语法中引入词汇信息。

当前,词汇知识库的建设获得了广泛的关注。各种语法知识库和语义知识库的建设,都反映了这种强烈的“词汇主义”倾向。

第五,多语言在线自然语言处理技术迅猛发展。随着网络技术的进步,互联网逐渐变成一个多语言的网络世界,互联网上的机器翻译、信息检索和信息抽取等计算语言学研究的需要变得更加紧迫。

在这个“信息爆炸”的时代,科学技术的发展日新月异,新的信息和知识喷涌而现。同时,由于互联网上非英语使用者的人数飞速增长,英语在互联网上独霸天下的局面已被彻底打破,互联网确实已经变成了“多语言的网络世界”。“多语言”这个特性使得互联网变得丰富多彩,同时也造成了不同语言之间交流和沟通的困难。因此,互联网上不同语言之间的翻译当然也就越来越迫切了。除了进行单语言的计算语言学研究之外,大力开展多语言的计算语言学研究也愈发必要,如何沟通网络上不同的自然语言也就成为计算语言学研究的重要课题。

在这样的新形势下,计算语言学这个学科的交叉性和边缘性显得更加突出,计算语言学研究者更不可能将自己只局限于某一个专业的狭窄领域。如果不从其他相关的学科吸收研究成果和研究方法,计算语言学研究必将裹足不前。计算语言学发展的现实需要,已经给相关学者提出了更高更广的要求。

(作者单位:黑龙江大学)



来源:中国社会科学网-中国社会科学报
责任编辑:刘岩   排版编辑:刘岩


相关文献延伸阅读(爱书人指南)

敬告:本公号友情提供相关书讯或书目索引链接,

以便爱书人前往第三方平台自行选购



语言学图书精选推荐


推荐阅读:
讲座预告 | “中国外语战略研究中心讲坛” 12月学术活动一览
会讯 | 国际韩礼德语言学研究会2020年会(系列活动日程)
教育部人文社科研究项目语言学立项趋势及申报建议 ( 2009-2019)
“当代认知科学之父”乔姆斯基教授(转载五道口站特辑)
新书 | 王军:《衔接的认知语用研究》,商务印书馆
郑艳群:国际外语教育技术研究动态及热点分析
国内生态学视角外语教学的特征和趋势 ——基于CiteSpace的可视化分析
以深度教学促进外语课程思政 |《中国外语》2020(5)
干货 | 国家标准:公共服务领域英文译写规范(附电子版下载)
教育部高教司司长吴岩:新文科学科没做好,高等教育不能说好
冯志伟:我的2020年总结
圣杯就在眼前:“现代语言学之父”乔姆斯基的批判与期望
世界语言谱系及语种概览 | 语言学微课堂
陈平 | 理论语言学、语言交叉学科与应用研究:观察与思考
马会娟:中国翻译理论研究回顾与展望
会讯 | 第12届国际语料库语言学会议征稿
会讯 | 国际中国语言学学会第28届年会第一号征文通知
讲座回放 | “中国外语战略研究中心讲坛”10月学术讲座
徐锦芬 曹忠凯:国内外外语 /二语课堂互动研究
韩晔 高雪松 | 国内外近年线上外语教学研究述评:理论基础、核心概念及研究方法
2021 年同济大学外国语学院博士研究生招生专业目录
会讯 | 第一届语言认知科学研究生论坛通知(第1号)
近十年国际语言政策与规划研究热点与趋势——基于Scopus数据库的可视化分析
中国英语教育四十年反思及其对新文科背景下英语专业建设的启示
会讯 | 首届构式语法研究高层论坛(1号通知)
会讯 | 第四届“全国学科英语研究学术讨论会”通知
会讯 | 第六届“全国话语研究高层论坛”征文通知
报告全文 | 教育部高教司司长吴岩:积势蓄势谋势 识变应变求变 全面推进新文科建设
王学典:何谓“新文科”?
新文科建设|新文科建设宣言。
海外中国学研究机构名录一览表(2020年版)
干货 | 3000个常见公共场所英语标示!(国家英文译写规范)
李宇明 郭熙 周洪波 | 中国语言生活研究十五年
中山大学外国语学院常年招聘海内外英才
招聘 | 上海外国语大学招聘教学科研人员及师资博士后
讲座视频 | 沈骑:后疫情时代的国家话语能力规划
张伟年 段宛云等:战略传播学视阈下特朗普涉华新冠肺炎污名化推特分析
拜登胜选演讲全文 (英文+中文+西班牙语 三语对照)
语言专业师生必看的10部电影(附观看链接)
蔡基刚:应急语言服务与应急语言教学探索
孔子学院:践行《世界文化多样性宣言》的东方典范
王春辉:孔子学院三思 |《国际教育交流》2020年10月(总第126期)
大汇总 | 第1 - 10批推荐使用的外语词规范中文译名(附Word版下载方式)
中国外语院校本科教学质量报告(2019)
《大学英语教学指南》(2020版)发布会隆重举行(含视频回放)
何莲珍:新时代大学英语教学的新要求——《大学英语教学指南》修订依据与要点
向明友:顺应新形势,推动大学英语课程体系建设—《大学英语教学指南》课程设置评注
文秋芳教授:中国外语教学70年,未来道路究竟向何方?
博后招聘|北京航空航天大学外国语学院招收博士后
南开大学外国语学院教职工招聘与人才引进公告(2021版)
重磅 | 2020软科中国最好学科排名出炉(中国语言文学 & 外国语言文学)
书讯 | 利奇《语用学原则》中译本出版
Fodor《心理语义学》:在心灵与语言之间
文秋芳教授早年专访:学习是一辈子的事 | 21世纪英文报
精选 | 应用语言学研习丛书(13种)一览:回顾经典 分析热点
束定芳:大学英语教学与国际化人才培养 |《外国语》2020年第5期
会议征稿 | 面向教育应用的自然语言处理研讨会
陈力:西方现代教学理论真的反对语法教学吗?
接触理论:生成语法研究的新进展 | 中国社会科学报
荐书 | 徐烈炯著《生成语法理论:标准理论到最简方案》
合辑 | 双语版《美丽中国》( Amazing China ):1-58集(全)
文科生可以学会的Python——雷蕾《基于Python的语料库数据处理》
对外汉语专业常用资料库大全
收藏!76种学术研究必备科研工具
梁茂成 | 语料库语言学研究的两种范式:渊源、分歧及前景
麦蒂森论翻译 | 系统功能语言学与翻译研究
冯志伟教授谈计算语言学 | 中国社会科学网访谈
荐书 | 北京大学出版社语言学图书书单
视频 | 听胡壮麟教授讲《语言学教程》那些事儿
中国访谈丨北京外国语大学校长杨丹:培养跨文化交流引领者
戴炜栋 胡壮麟 王初明等:新文科背景下的语言学跨学科发展
戴炜华  吴国玢:论语言学的跨学科研究
大师课程 | 乔姆斯基等:语言,思维和大脑
王缉思:浅谈区域与国别研究的学科基础
21世纪以来中国的太平洋岛国研究:历史、现实与未来
程琪龙:语言研究的超学科意识 |《外国语》2020(2)
语用翻译学——中国文化走出去的出路
申丹 | 西方文论关键词:隐性进程 |《外国文学》2019(1)
视频 | TED Ed:语言进化编年史
吴应辉:汉语国际教育面临的若干理论与实践问题
李建波 李霄垅 | 外国文学和国别与区域的交叉研究:国情研究专家的视角
陈坚林:试论人工智能技术在外语教学上的体现与应用
荐书 | 德古意特认知语言学研究丛书+应用丛书(13种)
外语教学类高被引论文排行榜 TOP 10
语言学类高被引论文排行榜 TOP 10
“国家形象研究”高被引论文排行榜 TOP 10
郭英剑:对英语专业的不当批评,可以休矣
蔡基刚:学术英语? 通用英语? 对学术英语再认识
高雪松 : "人文 vs. 工具" 也许是过去四十年外语教育大辩论中的伪命题
中英文学科、专业名称对照
多位著名专家学者分享英语学习方法
乔姆斯基:三个讲座,国内少见
视频 | Metaphors We Live By 内容导读 (我们赖以生存的隐喻)
多模态话语分析:以“疫情防控外语通”为例
《牛津英语》语法大讲堂(视频全集)
所以,什么是语言学?| 语言学微课堂

扫码关注,即可获取最新入群二维码

目前已有2.02万语言文学、国别区域

研习者关注↑↑↑本公众号,

欢迎加入我们,交流分享,共同学习!

一个,点亮在看

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存