冯志伟:大哉,计算语言学之为用!| 中国社会科学报
欢迎关注我们,一站式获取海量语言学资源
转载编辑:应用语言学研习
大哉,计算语言学之为用
来源:《中国社会科学报》2012年12月3日
【核心提示】目前,计算语言学正处于快速发展时期。普通计算机用户可以使用的计算资源正以惊人的速度增长,互联网兴起并且形成极为丰富的信息资源,移动通信日益普及,这些都使计算语言学成为当前科学技术的热门话题,它有着无限广阔的应用前景。我们不禁欢呼:“大哉,计算语言学之为用!”
采用计算机技术研究和处理自然语言,始于20世纪40年代末。60多年来,这项研究取得长足进展,成为现代语言学中一门重要的新兴学科——“计算语言学”(Computational Linguistics,简称CL)。这门学科也属于计算机科学的一个分支,叫做“自然语言处理”(Natural Language Processing,简称NLP)。
语言计算的思想和研究源远流长
在“计算语言学”术语出现前,就有学者研究过语言的计算问题,他们从计算的角度研究语言现象,揭示语言的数学面貌。
1913年,俄罗斯著名数学家马尔可夫就注意到普希金叙事长诗《欧根·奥涅金》中语言符号出现概率之间的相互影响,他试图以语言符号的出现概率为实例研究随机过程的数学理论,提出“马尔可夫链”(Markov chain),这一思想后来发展成为在计算语言学中广为使用的马尔可夫模型(Markov model),是当代计算语言学最重要的理论支柱之一。
在计算机出现前,英国数学家图灵就预见到未来的计算机将会对自然语言研究提出新的问题。1936年,图灵在《论可计算数及其在判定问题中的应用》一文中,给“可计算性”下了一个严格的数学定义,并提出著名的“图灵机”(Turing machine)数学模型。他认为,检验计算机智能高低的最好办法是让计算机讲英语和理解英语,进行“图灵测试”。
1948年,美国学者香农使用离散马尔可夫过程的概率模型来描述语言的自动机。他的另一个贡献是创立了信息论。他把通过诸如通信信道或声学语音传输语言的行为比喻为“噪声信道”或者“解码”。香农借用热力学术语“熵”作为测量信道信息能力或者语言信息量的一种方法,并用概率技术首次测定了英语的熵。
1956年,美国语言学家乔姆斯基从香农的工作中吸取了有限状态马尔可夫过程的思想,把有限状态自动机作为一种工具来刻画语言的语法,并且把有限状态语言定义为由有限状态语法生成的语言,开拓了“形式语言理论”等研究领域。在研究自然语言时,乔姆斯基首先提出“上下文无关语法”(Context-Free Grammar,简称CFG),把数学、计算机科学与语言学巧妙地结合起来。乔姆斯基在计算机出现初期就把计算机程序设计语言与自然语言置于相同的平面上,用统一观点进行研究。在《语法的形式特性》一文中,他用一节篇幅论述程序设计语言,讨论有关程序设计语言的编译程序问题。
马尔可夫、图灵、香农和乔姆斯基对语言和计算关系的探讨,为计算语言学的理论和技术奠定了坚实的基础。
机器翻译诞生计算语言学
机器翻译是计算语言学最重要的应用领域。1949年,美国洛克菲勒基金会副主席韦弗在一篇以《翻译》为题的备忘录中,认为翻译类似于解读密码的过程。受这种思想影响,在早期机器翻译系统的研制中,许多机器翻译研究者试图通过查询词典的方法实现词对词的机器翻译,因而译文的可读性很差,难于付诸实用。
1954年,美国乔治敦大学在国际商用机器公司(IBM公司)的协同下,用IBM-701计算机进行了世界上第一次机器翻译试验,把几个简单的俄语句子翻译成英语。接着,苏联、英国、日本也进行了机器翻译试验,机器翻译出现热潮。
1962年,美国成立“机器翻译和计算语言学学会”(Association for Machine Translation and Computational Linguistics)。为与学会名称保持一致,1965年,Machine Translation杂志改名为Machine Translation and Computational Linguistics(《机器翻译和计算语言学》),杂志封面上首次出现“Computational Linguistics”。但是,“and Computational Linguistics”这三个单词是用特别小号的字母排印的。这说明,当时学者们对“计算语言学”是否能够算是一门真正的独立学科还没有把握。但无论如何,计算语言学终于悄然登上学术殿堂。
计算语言学具有突出的跨学科性
计算机对自然语言的研究和处理,一般应经过如下过程:第一,把需要研究的问题在语言学上加以形式化,使之以一定的数学形式严密而规整地表示出来;第二,把这种严密而规整的数学形式表示为算法,使之在计算上形式化,建立自然语言处理的形式模型;第三,根据算法编写计算机程序,使之在计算机上加以实现;第四,对所建立的自然语言处理系统进行评测,使之不断改进质量和性能,满足用户要求。因此,计算语言学在研究自然语言处理的形式模型的同时,还要把这些形式模型在计算机上加以实现,建立机器翻译、信息检索、信息提取、数据挖掘、自动问答、文本自动分类、语音合成、语音识别等不同类型应用系统。
在发展过程中,计算语言学曾分别从属于计算机科学、电子工程、语言学、心理学、认知科学等不同领域。之所以出现这种情况,是由于计算语言学包括了一系列性质不同又彼此交叉的学科,具有突出的跨学科性质。
计算语言学研究空前繁荣
经过60多年的发展,计算语言学研究出现空前繁荣的局面,主要表现在如下方面。
第一,概率和数据驱动的方法几乎成为计算语言学的标准方法。句法剖析、词类标注、参照消解、话语处理、机器翻译的算法全都开始引入概率,并且采用从语音识别和信息检索中借过来的基于概率和数据驱动的评测方法。
第二,由于计算机速度和存储量的增加,使得在计算语言学的一些应用领域,特别是在语音合成、语音识别、文字识别、拼写检查、语法检查这些应用领域,已经进行了卓有成效的商品化开发。自然语言处理的算法开始被应用于增强交替通信中,语音合成、语音识别和文字识别技术已经应用于移动通信中。
第三,随着网络技术的发展,互联网逐渐变成一个多语言的网络世界,互联网上多语言的机器翻译、跨语言信息检索正在迅猛发展,计算语言学的各种应用技术已经成为互联网技术的重要支柱。
目前,计算语言学正处于快速发展时期。普通计算机用户可以使用的计算资源正以惊人的速度增长,互联网兴起并且形成极为丰富的信息资源,移动通信日益普及,这些都使计算语言学成为当前科学技术的热门话题,它有着无限广阔的应用前景。我们不禁欢呼:“大哉,计算语言学之为用!”
转载请注明来源:中国社会科学网(责编:隋萌萌)
外一篇:
语言学在NLP中的意义
方2020 来源:NLP分享站微信公众号
基于规则
定义的意义
误区
NLP最难的部分
转载编辑:应用语言学研习
微信公众平台审核: 梁国杰
文献延伸阅读(研习人指引)
本平台友情整理相关文献索引链接,
欢迎感兴趣的朋友按需选购。
精选推荐
科研助力
在线公益论坛 | 线上线下混合式教学:理论与实践(复旦新学术承办)
扫码关注↑↑↑ 即可获取最新入群二维码!
目前已有 3.15 万语言文学、区域国别学
研习者关注本公众号
欢迎加入交流群,分享学习,共同进步!
亲爱的研习人,
一起来点赞、在看、分享三连吧!