冯志伟教授谈计算语言学 | 中国社会科学网访谈
转载自:语言科学微信公众号
冯志伟谈计算语言学
把基于语言大数据的经验主义方法和基于语言规则的理性主义方法结合起来
计算语言学是近年日益受到重视的前沿交叉学科。教育部语言文字应用研究所研究员冯志伟主要研究计算语言学、语言学流派、语料库语言学、术语学,他是我国最早从事计算语言学的学者之一,从20世纪50年代末在北京大学求学期间踏上计算语言学的学术道路,为我国计算语言学的发展作出了突出贡献。作为中国计算语言学的主要开创者和发展见证者之一,已届望九之年的冯志伟研究员仍治学不辍,为学科发展持续贡献力量。在他看来,要让下一代学者做好创新的准备,把基于语言大数据的经验主义方法和基于语言规则的理性主义方法巧妙地结合起来,从而把计算语言学的研究推向深入。
中国社会科学网:您是我国最早从事计算语言学的学者之一,请您介绍下什么是计算语言学,其跨学科特点主要体现在哪些方面?
冯志伟:计算语言学(computational linguistics)是用计算机研究和处理自然语言的一门新兴的交叉学科。由于计算语言学的研究对象是自然语言,因此,语言学家把它算为语言学的一个分支;由于计算语言学采用先进的计算机科学技术来研究和处理自然语言,因此,计算机科学家把它算为计算机科学的一个分支;由于计算语言学要研究自然语言的形式结构和自然语言处理的算法,因此,数学家把它算为应用数学的一个分支。这种情况说明,计算语言学不是一门单纯的学科,而是一门交叉学科,具有明显的跨学科特点。
为什么计算语言学会出现这样的跨学科特点呢?这是由计算语言学的研究目标决定的。计算语言学的目标既然是研究和处理自然语言,那么,它必定要认真地研究计算机处理自然语言的整个过程,提出行之有效的理论和方法。
一般地说,计算机对自然语言的研究和处理应当经过如下四个方面的过程:
第一,把需要研究的问题在语言学上加以形式化,建立语言的形式化模型,使之能以一定的数学形式,严密而规整地表示出来,这个过程可以叫做“形式化”。
第二,把这种严密而规整的数学形式表示为算法,这个过程可以叫做“算法化”。
第三,根据算法编写计算机程序,使之在计算机上加以实现,建立各种实用的自然语言处理系统,这个过程可以叫做“程序化”。
第四,对于所建立的自然语言处理系统进行评测,使之不断地改进质量和性能,以满足用户的要求,这个过程可以叫做“实用化”。
因此,为了从事计算语言学的研究,研究人员不仅要具备语言学知识,而且还要具备数学和计算机科学方面的知识,这样,计算语言学就成为了介乎于语言学、数学和计算机科学之间的边缘性的交叉学科,它同时涉及到文科、理科和工科三大领域,使得它具有跨学科的性质。
中国社会科学网:请简要介绍下计算语言学的发展历程。您从50年代末就开始接触计算语言学,60多年过去了,现在回顾审视计算语言学的历史与现状您有哪些感受和认识?
冯志伟:1946年制造出第一台电子计算机,3年之后,美国洛克菲勒基金会自然科学部主任韦弗(Weaver)于1949年7月15日发表了关于《翻译》的备忘录,提出用计算机来进行机器翻译的思想,至今已经有71年了。
不过,计算语言学(computational linguistics)这个术语是1962年才出现的。早期的计算语言学研究主要是基于规则的,也就是根据语言学规则来编写程序,带有理性主义的色彩,用这种方法研制出来的系统难以应用于大规模的真实文本的自然语言处理。20世纪80年代后期计算语言学开始战略转移,采用经验主义的方法,从大规模的真实的语料库中获取语言知识,提高了自然语言处理的效果,进入21世纪之后,计算语言学使用神经网络的方法,不再用手工获取自然语言的特征,而是通过深度学习,让计算机自动地从语料库中获取自然语言的特征,自然语言处理的效果进一步提高。
我是1957年考入北京大学地球化学专业的,入学之后在北大图书馆看到了一篇使用数学方法研究自然语言的文章,产生了浓厚的兴趣,于是毅然从理科转到中文系学习语言学,后来又考上了研究生,走上了计算语言学研究的道路。我研究计算语言学已经63年的时间了。
我们这一代人正在一天天地变老;然而,我们如痴如醉地钟爱着的计算语言学事业却是一个新兴的学科,她还非常年轻,充满了青春的活力,尽管她还不够成熟,但是她无疑地有着光辉的发展前景。我们个人的生命是有限的,而科学知识的探讨和研究却是无限的。我们个人渺小的生命与科学事业这棵常青的参天大树相比较,有如沧海之一粟。我们应当加倍努力,在计算语言学的研究中实现自己渺小生命的价值。
中国社会科学网:计算语言学是否契合当前推进的“新文科”建设。
冯志伟:所谓“新文科”,是指在传统文科的基础之上进行的学科中不同专业的重组,形成文理交叉,把现代信息技术引入到文科的课程中,为学生提供跨学科学习,培养创新性的思维。计算语言学很自然地把语言学、数学和计算机科学结合在一起,是最为典型的“新文科”,而且早就存在了。在一定程度上讲,加强计算语言学研究也就是加强了新文科的建设。
中国社会科学网:计算语言学的研究成果主要有哪些应用?
冯志伟:计算语言学的研究成果可以用于机器翻译、信息自动检索、信息抽取、自动文摘、自动阅读理解、文本数据挖掘、智能问答、人机接口、计算机辅助语言教学、用户偏好分析等领域,有很大的实用价值。所以,我们可以说:“大哉计算语言学之为用!”
中国社会科学网:您近期在做哪些相关研究工作?
冯志伟:我过去主要从事机器翻译系统的研制,1978-1981年在法国格勒诺布尔大学应用数学研究所(法文Institut de Mathematique Appliquée de Grenoble,简称IMAG)研制过汉语翻译为法语、英语、日语、俄语、德语5种语言的机器翻译系统,把20多篇汉语的短文自动地翻译成5种外语,这是世界上第一个把汉语自动地翻译成多种外语的机器翻译系统。此后我又分别研制了若干个外语翻译成汉语的机器翻译系统和中文术语数据库,做了一些应用系统的开发研究。现在我已经进入望九之年,不再做应用系统的开发了。
近年来我的主要精力用于总结计算语言学的理论和方法,写作专著和教材。我在2017年出版了《自然语言形式分析的理论与方法》一书,是113万多字的大部头专著。我还编写计算语言学教材,出版了《自然语言处理简明教程》,是87万字的大部头教材。
此外,我还把国外优秀的计算语言学著作翻译成中文,翻译过《自然语言处理综论》《统计语言学习》等专著。
我已经出版专著38部,发表论文400多篇,著书立说成为我主要的工作内容。有朋友说我是“著作等身”了!
中国社会科学网:可否举例介绍一些当前国际上计算语言学的前沿研究。
冯志伟:当前国际上计算语言学研究在机器翻译方面取得了很大的成就,机器翻译经历了基于规则的机器翻译、统计机器翻译、神经机器翻译等阶段,现在正在实用化和商品化,机器翻译已经从学者的梦想变成了活生生的现实。
计算语言学还可以分析用户的偏好,促进商品的销售。文本分析公司根据用户在互联网论坛和用户群体组织中表现出来的意见、偏好、态度的自动测试结果,对用户提供智能化、个性化的服务,帮助用户在市场上挑选到符合他们要求的商品。
计算语言学的另一个前沿研究是文本的自动阅读理解。在电影《她(HER)》中有这样一幕:主人公是一位信件撰写人,叫做萨曼莎的计算机自动阅读理解系统在得到主人公的允许后阅读他的电子邮件资料,总结出需要保留和删除的电子邮件,帮助他修改信件草稿中的错字,并且与他探讨信件的片段。萨曼莎通过阅读主人公的海量信息来了解信件撰写人,也通过阅读互联网上的海量数据来了解世界。
这些计算语言学前沿研究的问题都很有趣,可以造福人类。
中国社会科学网:在您看来我国计算语言学学科发展目前主要存在哪些问题?
冯志伟:计算语言学越来越重要,很多语言学家也想参与到计算语言学的研究中来。但是,由于他们大多数是文科背景,不太懂数学和计算机科学,一旦他们参与计算语言学研究,往往感到力不从心。这种情况,也引起理工科背景的计算语言学家的不满,他们感到很失望。这是我国计算语言学存在的一个主要问题。
著名语音识别专家、美国工程院院士贾里尼克(F.Jelinek)于1988年12月7日在自然语言处理评测讨论会上的发言中曾经说过这样的话:“每当一个语言学家离开我们的研究组,语音识别率就提高一个台阶。”根据一些参加这次会议的人回忆,当时贾里尼克的原话更为尖刻,他说:“每当我解雇一个语言学家,语音识别系统的性能就会得到一些改善。”贾里尼克的这些话在我国语言学界广为传播,使得很多语言学家感到很茫然,觉得尽管信息时代对语言学的发展寄予厚望,但是自己在信息时代没有什么用处,有些灰溜溜的感觉。
贾里尼克的这段名言说明,在信息网络时代,如果语言学家不更新知识,仍然恪守于自己原来的知识领域故步自封,将有被时代抛弃的危险。
面对信息网络时代的新要求,不少语言学家努力学习计算机自然语言处理的技术,不断进行更新知识的再学习,成为兼通语言学、数学和计算机科学的新一代语言学家。
语言学家更新知识之后,贾里尼克也改变了对于语言学家的成见。他在2004年发表了一次演讲,演讲的题目是“我的一些最好的朋友是语言学家”,他在演讲的最后说:“物理学家研究物理现象,语言学家研究语言现象。工程师要学会利用物理学家的真知灼见,而我们则要学会利用语言学家的真知灼见。”可见贾里尼克在16年前奚落的并不是所有的语言学家,而是那些故步自封并且不愿意更新知识的语言学家。
由此看来,为了从事计算语言学的研究,语言学家很有必要更新知识,很有必要学习数学和计算机科学的知识。我觉得,这是语言学家从事计算语言学研究的最主要的问题。我希望对于计算语言学感兴趣的语言学家应当与时俱进,进行更新知识的再学习,使自己适应计算语言学研究的要求。
中国社会科学网:您认为今后一个时期学界应从哪些方面进一步推进计算语言学研究?
冯志伟:目前,在计算语言学研究中,深度学习(神经网络)方法成为了主流的方法,几乎在计算语言学研究的所有领域都采用了深度学习(神经网络)的方法,这是一种基于语言大数据的经验主义方法,语言规则受到忽视。不过,我认为,深度学习(神经网络)应当与语言学研究结合起来,基于语言大数据的经验主义方法应当与基于语言规则的理性主义方法结合起来,相互促进,相得益彰,这样才能推动计算语言学的进一步发展。
我们这一代学者赶上了基于语言大数据的经验主义盛行的黄金时代,我们应当告诫下一代的学者,不要过分地迷信目前广为流行的基于语言大数据的经验主义方法,不要轻易地忽视目前受到冷落的基于语言规则的理性主义方法,要做好创新的准备,把基于语言大数据的经验主义方法和基于语言规则的理性主义方法巧妙地结合起来,从而把计算语言学的研究推向深入。
图灵奖获得者辛顿(Hinton)认为,“深度学习的下一个大的进展应当是让神经网络真正理解文档的内容”,他明确地指出了自然语言理解是深度学习(神经网络)的发展方向,他的看法是语重心长的,值得我们深思。
语言科学教师群
邀您入同学群
欢迎留言并分享至朋友圈
相关文献荐读
语言学图书精选推荐
会讯 | 2020年9-10月外国文学、翻译及语言学学术会议汇总接触理论:生成语法研究的新进展 | 中国社会科学报会讯 | 第四届“全国学科英语研究学术讨论会”通知
文科生可以学会的Python——雷蕾《基于Python的语料库数据处理》会讯 | 第九届中国英语教学国际研讨会 3号通知(10月16-18日)干货 | 哲学社科领域有哪些出版项目可以申报?赶快收藏!胡壮麟教授专访:路漫漫 吾将上下而求索
重磅 | 上海教育出版社推出“语言学经典文丛”视频 | 听胡壮麟教授讲《语言学教程》那些事儿重磅福利!近期49场线上公益学术讲座回放集锦中国访谈丨北京外国语大学校长杨丹:培养跨文化交流引领者
戴炜栋 胡壮麟 王初明等:新文科背景下的语言学跨学科发展
戴炜华 吴国玢:论语言学的跨学科研究大师课程 | 乔姆斯基等:语言,思维和大脑
沈家煊:比异求同 融会中西 |《共和国学人》系列专题片李葆嘉 | 索绪尔符号任意性的来源:兼及荀子约定俗成的原意
韩东育:汉字的变与不变和正统的争与不争石毓智:怎样才算世界一流大学?王缉思:浅谈区域与国别研究的学科基础
新书推介 |《美国大学汉语教育研究》
会讯︱全国外语类院校首届“一带一路”多语种外语教育高端论坛(10月29-30日)程琪龙:语言研究的超学科意识 |《外国语》2020(2)语用翻译学——中国文化走出去的出路
胡壮麟先生讲《认知隐喻学》的前世今生会议征稿 | 面向教育应用的自然语言处理研讨会这篇语言学论文入选高中《语文(必修)》下册视频 | TED Ed:语言进化编年史
讲座视频 | 李嵬 Li Wei:超语与认知(Linguists Online系列)陆小飞、刘颖颖:基于语料库的学术英语程式语研究与教学应用语言学年报 | 2020下半年语言学学术会议集锦
2020年7月-12月语言文学类学术会议集锦李建波 李霄垅 | 外国文学和国别与区域的交叉研究:国情研究专家的视角陈坚林:试论人工智能技术在外语教学上的体现与应用牛津社会语言学丛书 | 9种精选,可试读精选 | 应用语言学研习丛书(13种)一览:回顾经典 分析热点心灵与认知文库 · 原典系列 | 商务印书馆学术中心书讯 | 2019年商务印书馆学术中心全年书单文秋芳:加速我国应用语言学国际化进程:思考与建议
吴应辉:汉语国际教育面临的若干理论与实践问题特别推荐 | 语料库与语言对比研究
公共标志英文译写指南:旅游景观名称 | 教育部语信司马克·特纳讲座|概念整合:语法、语言和交际的核心过程 (Linguists Online 10)
荐书 | 7折特惠!德古意特认知语言学研究丛书+应用丛书(13种)
荐书 | 北京大学出版社语言学图书书单书讯 | 2020年6月商务印书馆学术中心新书33种外语教学类高被引论文排行榜 TOP 10
语言学类高被引论文排行榜 TOP10“国家形象研究”高被引论文排行榜 TOP 10会讯 | 国际韩礼德语言学研究会2020年会暨第12届中国社会语言学国际学术研讨会蔡基刚:学术英语? 通用英语? 对学术英语再认识
高雪松 : "人文 vs. 工具" 也许是过去四十年外语教育大辩论中的伪命题中英文学科、专业名称对照多位著名专家学者分享英语学习方法语言学巨擘乔姆斯基:三个讲座,国内少见讲座视频 | 史蒂文·平克:语言、认知和人类天性马丁·休伯特:历时语料库、文化和构式演变 | Linguists Online系列讲座(17)
人类认知的边界在哪里?——乔姆斯基的回答Lakoff《不要想大象!》| 重建框架,就是变革社会视频 | Metaphors We Live By 内容导读 (我们赖以生存的隐喻 by Lakoff & Johnson)梁茂成 | 语料库语言学研究的两种范式:渊源、分歧及前景多模态话语分析:以“疫情防控外语通”为例世界语言谱系及语种全览 | 语言学微课堂重磅资源 | 外语教学论文写作与发表(免费下载论文写作资料大礼包)LingPress | 语言学中外文重要期刊目录一站式阅览《爱丽丝》是个语言(学)宝藏所以,什么是语言学?| 语言学微课堂
扫码关注,即可获取最新入群二维码
目前已有1.68万语言文学、国别区域
研习者关注↑↑↑本公众号,
欢迎加入我们,交流分享,共同学习!