查看原文
其他

冯志伟先生谈计算语言学——把基于语言大数据的经验主义方法和基于语言规则的理性主义方法结合起来

欢迎点击上方关注我们,欢迎转发此文

本文来源:信息与电子工程前沿FITEE微信公众号

冯志伟谈计算语言学

——把基于语言大数据的经验主义方法和基于语言规则的理性主义方法结合起来


      计算语言学是近年日益受到重视的前沿交叉学科。教育部语言文字应用研究所研究员冯志伟主要研究计算语言学、语言学流派、语料库语言学、术语学,他是我国最早从事计算语言学的学者之一,从20世纪50年代末在北京大学求学期间踏上计算语言学的学术道路,为我国计算语言学的发展作出了突出贡献。作为中国计算语言学的主要开创者和发展见证者之一,已届望九之年的冯志伟研究员仍治学不辍,为学科发展持续贡献力量。在他看来,要让下一代学者做好创新的准备,把基于语言大数据的经验主义方法和基于语言规则的理性主义方法巧妙地结合起来,从而把计算语言学的研究推向深入。
  中国社会科学网:您是我国最早从事计算语言学的学者之一,请您介绍下什么是计算语言学,其跨学科特点主要体现在哪些方面?
  冯志伟:计算语言学(computational linguistics)是用计算机研究和处理自然语言的一门新兴的交叉学科。由于计算语言学的研究对象是自然语言,因此,语言学家把它算为语言学的一个分支;由于计算语言学采用先进的计算机科学技术来研究和处理自然语言,因此,计算机科学家把它算为计算机科学的一个分支;由于计算语言学要研究自然语言的形式结构和自然语言处理的算法,因此,数学家把它算为应用数学的一个分支。这种情况说明,计算语言学不是一门单纯的学科,而是一门交叉学科,具有明显的跨学科特点。
  为什么计算语言学会出现这样的跨学科特点呢?这是由计算语言学的研究目标决定的。计算语言学的目标既然是研究和处理自然语言,那么,它必定要认真地研究计算机处理自然语言的整个过程,提出行之有效的理论和方法。
  一般地说,计算机对自然语言的研究和处理应当经过如下四个方面的过程:
  第一,把需要研究的问题在语言学上加以形式化,建立语言的形式化模型,使之能以一定的数学形式,严密而规整地表示出来,这个过程可以叫做“形式化”。
  第二,把这种严密而规整的数学形式表示为算法,这个过程可以叫做“算法化”。
  第三,根据算法编写计算机程序,使之在计算机上加以实现,建立各种实用的自然语言处理系统,这个过程可以叫做“程序化”。
  第四,对于所建立的自然语言处理系统进行评测,使之不断地改进质量和性能,以满足用户的要求,这个过程可以叫做“实用化”。
  因此,为了从事计算语言学的研究,研究人员不仅要具备语言学知识,而且还要具备数学和计算机科学方面的知识,这样,计算语言学就成为了介乎于语言学、数学和计算机科学之间的边缘性的交叉学科,它同时涉及到文科、理科和工科三大领域,使得它具有跨学科的性质。



冯志伟先生和他的部分学术著作

  中国社会科学网:请简要介绍下计算语言学的发展历程。您从50年代末就开始接触计算语言学,60多年过去了,现在回顾审视计算语言学的历史与现状您有哪些感受和认识?
  冯志伟:1946年制造出第一台电子计算机,3年之后,美国洛克菲勒基金会自然科学部主任韦弗(Weaver)于1949年7月15日发表了关于《翻译》的备忘录,提出用计算机来进行机器翻译的思想,至今已经有71年了。
  不过,计算语言学(computational linguistics)这个术语是1962年才出现的。早期的计算语言学研究主要是基于规则的,也就是根据语言学规则来编写程序,带有理性主义的色彩,用这种方法研制出来的系统难以应用于大规模的真实文本的自然语言处理。20世纪80年代后期计算语言学开始战略转移,采用经验主义的方法,从大规模的真实的语料库中获取语言知识,提高了自然语言处理的效果,进入21世纪之后,计算语言学使用神经网络的方法,不再用手工获取自然语言的特征,而是通过深度学习,让计算机自动地从语料库中获取自然语言的特征,自然语言处理的效果进一步提高。
  我是1957年考入北京大学地球化学专业的,入学之后在北大图书馆看到了一篇使用数学方法研究自然语言的文章,产生了浓厚的兴趣,于是毅然从理科转到中文系学习语言学,后来又考上了研究生,走上了计算语言学研究的道路。我研究计算语言学已经63年的时间了。
  我们这一代人正在一天天地变老;然而,我们如痴如醉地钟爱着的计算语言学事业却是一个新兴的学科,她还非常年轻,充满了青春的活力,尽管她还不够成熟,但是她无疑地有着光辉的发展前景。我们个人的生命是有限的,而科学知识的探讨和研究却是无限的。我们个人渺小的生命与科学事业这棵常青的参天大树相比较,有如沧海之一粟。我们应当加倍努力,在计算语言学的研究中实现自己渺小生命的价值。

  中国社会科学网:计算语言学是否契合当前推进的“新文科”建设。
  冯志伟:所谓“新文科”,是指在传统文科的基础之上进行的学科中不同专业的重组,形成文理交叉,把现代信息技术引入到文科的课程中,为学生提供跨学科学习,培养创新性的思维。计算语言学很自然地把语言学、数学和计算机科学结合在一起,是最为典型的“新文科”,而且早就存在了。在一定程度上讲,加强计算语言学研究也就是加强了新文科的建设。


2018年冯志伟重访法国格勒诺布尔大学应用数学研究所,他曾在这里研制了世界上第一个汉语到多种外语的机器翻译系统



  中国社会科学网:计算语言学的研究成果主要有哪些应用?
  冯志伟:计算语言学的研究成果可以用于机器翻译、信息自动检索、信息抽取、自动文摘、自动阅读理解、文本数据挖掘、智能问答、人机接口、计算机辅助语言教学、用户偏好分析等领域,有很大的实用价值。所以,我们可以说:“大哉计算语言学之为用!”

  中国社会科学网:您近期在做哪些相关研究工作?
  冯志伟:我过去主要从事机器翻译系统的研制,1978-1981年在法国格勒诺布尔大学应用数学研究所(法文Institut de Mathematique Appliquée de Grenoble,简称IMAG)研制过汉语翻译为法语、英语、日语、俄语、德语5种语言的机器翻译系统,把20多篇汉语的短文自动地翻译成5种外语,这是世界上第一个把汉语自动地翻译成多种外语的机器翻译系统。此后我又分别研制了若干个外语翻译成汉语的机器翻译系统和中文术语数据库,做了一些应用系统的开发研究。现在我已经进入望九之年,不再做应用系统的开发了。
  近年来我的主要精力用于总结计算语言学的理论和方法,写作专著和教材。我在2017年出版了《自然语言形式分析的理论与方法》一书,是113万多字的大部头专著。我还编写计算语言学教材,出版了《自然语言处理简明教程》,是87万字的大部头教材。
  此外,我还把国外优秀的计算语言学著作翻译成中文,翻译过《自然语言处理综论》《统计语言学习》等专著。
  我已经出版专著38部,发表论文400多篇,著书立说成为我主要的工作内容。有朋友说我是“著作等身”了!


冯志伟著《自然语言计算机形式分析的理论与方法》



  中国社会科学网:可否举例介绍一些当前国际上计算语言学的前沿研究。
  冯志伟:当前国际上计算语言学研究在机器翻译方面取得了很大的成就,机器翻译经历了基于规则的机器翻译、统计机器翻译、神经机器翻译等阶段,现在正在实用化和商品化,机器翻译已经从学者的梦想变成了活生生的现实。
  计算语言学还可以分析用户的偏好,促进商品的销售。文本分析公司根据用户在互联网论坛和用户群体组织中表现出来的意见、偏好、态度的自动测试结果,对用户提供智能化、个性化的服务,帮助用户在市场上挑选到符合他们要求的商品。
  计算语言学的另一个前沿研究是文本的自动阅读理解。在电影《她(HER)》中有这样一幕:主人公是一位信件撰写人,叫做萨曼莎的计算机自动阅读理解系统在得到主人公的允许后阅读他的电子邮件资料,总结出需要保留和删除的电子邮件,帮助他修改信件草稿中的错字,并且与他探讨信件的片段。萨曼莎通过阅读主人公的海量信息来了解信件撰写人,也通过阅读互联网上的海量数据来了解世界。
  这些计算语言学前沿研究的问题都很有趣,可以造福人类。

  中国社会科学网:在您看来我国计算语言学学科发展目前主要存在哪些问题?
  冯志伟:计算语言学越来越重要,很多语言学家也想参与到计算语言学的研究中来。但是,由于他们大多数是文科背景,不太懂数学和计算机科学,一旦他们参与计算语言学研究,往往感到力不从心。这种情况,也引起理工科背景的计算语言学家的不满,他们感到很失望。这是我国计算语言学存在的一个主要问题。
  著名语音识别专家、美国工程院院士贾里尼克(F.Jelinek)于1988年12月7日在自然语言处理评测讨论会上的发言中曾经说过这样的话:“每当一个语言学家离开我们的研究组,语音识别率就提高一个台阶。”根据一些参加这次会议的人回忆,当时贾里尼克的原话更为尖刻,他说:“每当我解雇一个语言学家,语音识别系统的性能就会得到一些改善。”贾里尼克的这些话在我国语言学界广为传播,使得很多语言学家感到很茫然,觉得尽管信息时代对语言学的发展寄予厚望,但是自己在信息时代没有什么用处,有些灰溜溜的感觉。
  贾里尼克的这段名言说明,在信息网络时代,如果语言学家不更新知识,仍然恪守于自己原来的知识领域故步自封,将有被时代抛弃的危险。
  面对信息网络时代的新要求,不少语言学家努力学习计算机自然语言处理的技术,不断进行更新知识的再学习,成为兼通语言学、数学和计算机科学的新一代语言学家。
  语言学家更新知识之后,贾里尼克也改变了对于语言学家的成见。他在2004年发表了一次演讲,演讲的题目是“我的一些最好的朋友是语言学家”,他在演讲的最后说:“物理学家研究物理现象,语言学家研究语言现象。工程师要学会利用物理学家的真知灼见,而我们则要学会利用语言学家的真知灼见。”可见贾里尼克在16年前奚落的并不是所有的语言学家,而是那些故步自封并且不愿意更新知识的语言学家。
  由此看来,为了从事计算语言学的研究,语言学家很有必要更新知识,很有必要学习数学和计算机科学的知识。我觉得,这是语言学家从事计算语言学研究的最主要的问题。我希望对于计算语言学感兴趣的语言学家应当与时俱进,进行更新知识的再学习,使自己适应计算语言学研究的要求。


冯志伟等译《自然语言处理综论》



  中国社会科学网:您认为今后一个时期学界应从哪些方面进一步推进计算语言学研究?
  冯志伟:目前,在计算语言学研究中,深度学习(神经网络)方法成为了主流的方法,几乎在计算语言学研究的所有领域都采用了深度学习(神经网络)的方法,这是一种基于语言大数据的经验主义方法,语言规则受到忽视。不过,我认为,深度学习(神经网络)应当与语言学研究结合起来,基于语言大数据的经验主义方法应当与基于语言规则的理性主义方法结合起来,相互促进,相得益彰,这样才能推动计算语言学的进一步发展。
  我们这一代学者赶上了基于语言大数据的经验主义盛行的黄金时代,我们应当告诫下一代的学者,不要过分地迷信目前广为流行的基于语言大数据的经验主义方法,不要轻易地忽视目前受到冷落的基于语言规则的理性主义方法,要做好创新的准备,把基于语言大数据的经验主义方法和基于语言规则的理性主义方法巧妙地结合起来,从而把计算语言学的研究推向深入。
  图灵奖获得者辛顿(Hinton)认为,“深度学习的下一个大的进展应当是让神经网络真正理解文档的内容”,他明确地指出了自然语言理解是深度学习(神经网络)的发展方向,他的看法是语重心长的,值得我们深思。


版权声明


本文转自“中国社会科学网”。


微信加群


为方便广大科研人员交流讨论,本平台建有以下学科微信群。有需要加群的用户,请加小编个人微信号fitee_xb,并留言想要加入的群,小编会拉您进群。营销广告人员请勿扰。

计算机科学与技术学术群

光学工程与技术学术群

控制科学与技术学术群

信息与通信学术群

电力电子学术群

人工智能学术


加关注  ID: fitee_cae本公众号为中国工程院院刊《信息与电子工程前沿(英文)》(SCI-E、EI检索期刊)官方微信,功能包括:传播期刊的学术文章;为刊物关联学人(读者、作者、评审人、编委,等)提供便捷服务;发布学术写作、评审、编辑、出版等相关资讯;介绍信息与电子工程领域学术人物、学术思想、学术成果,展示该领域科学研究前沿进展;为该领域海内外学者提供友好互动平台。


相关文献延伸阅读(研习人指引)

本平台友情整理相关文献索引链接,

感兴趣的老师、研友可自行选购





精选推荐

点击左下方阅读原文发现更多语言学好书!



推荐阅读:
汉语国际教育怎么办?大咖云集出谋划策(李宇明、刘利、王甬、吴应辉、王辉…)
汇总 | 77所高校发布外语类专业研究生调剂信息(不仅限于外语类)
前沿 | 2021年度语言文学类学术会议集锦
主旨报告综述 | 第五届全国高等学校外语教育改革与发展高端论坛
回放丨大学英语论坛 1-2:国家级一流课程建设+院校特色与课程创新
回放丨英语类专业论坛 3-4:一流本科专业与课程建设+新文科建设与学科融合发展
回放丨专题论坛 5-6:课程思政论坛 + 智慧教育论坛
回放+综述 | 多语种教育论坛 7:国家人才需求与教学创新
观点汇辑|“国际中文教育”大家谈
翻译必备 | 最好用的语料库了解一下,没有之一!
郭熙 林瑀欢:明确“国际中文教育”的内涵和外延(外一篇:白紫薇 | 孔子学院转型发展研究)
文秋芳 | 学术英语化与中文地位的提升:问题与建议
《外语教学与研究》2020年总目录
毛浩然:快速入门一个新学科领域的六部曲
调剂信息 | 37所高校外语及中文相关调剂信息【附链接】
视频合集 | Caroline Heycock:生成句法入门(课程共11讲+番外篇)
《中文核心期刊要目总览》2020版研究概况(来源:北大图书馆网站)
教育部人文社科研究项目语言学立项趋势及申报建议 ( 2009-2019)
基于普通语言学的当代英语功能分析 (胡壮麟等 序,陈建华等 译)
我们用爬虫和机器学习模型深挖了拜登的对华智库
黄立鹤:当你老了,语言也会衰老吗?
国际顶级杂志《文体》以特刊形式集中探讨北大申丹教授首创的叙事理论
申丹 | 西方文论关键词:隐性进程 |《外国文学》2019(1)
申丹:导致"话语"与"文体"断裂的原因
张蕴岭:国际区域学思考【世界知识】
克里斯蒂娃:《普遍的语言学与“可怜的语言学家”》(龚兆华 王东亮译)
外语教学:国别和区域研究专题 |《外语学刊》
会讯 | 第二届国际中文教育发展智库论坛通知(第一号)
交流 | 盘点设立语言学/应用语言学本科专业的七所中国高校
交流 | 被评为“语言学”一流学科的高校建设得怎么样了?
“语言生活”研究热点︱语言政策与规划研究
科研助力 | (即将)读研究生的你,如何选择研究方法?
“我生来就是高山,而非溪流 ”,震撼人心的校训如何翻译成英语?
焦点 | 2021全国两会语言文字类提案盘点
观点 | 汉语教学标准与大纲专题
极简双语!2021年政府工作报告要点梳理来啦!
蔡基刚:取消英语主课地位,无异于重新回到闭关自守年代
“不应以任何方式削弱英语教育的地位和价值”——外语界部分知名专家谈“取消英语在中小学主课地位”
北外教授张连仲:“小学开设英语课程是明智之举” 全球化时代英语教育更应加强
取消英语主科、淡化英语考试、削弱英语地位,谁最高兴?
双语 | 政协委员建议取消英语中小学主课地位,专家、网友都吵翻了
不懂英语,造就了13亿人的信息孤岛
全国政协委员张博:推动国际中文教育成为一级学科或特色交叉学科
会讯 | 第二届全球语言治理论坛 会议通知
王克非: 新中国翻译学科发展历程
纪念王德春先生逝世十周年暨当代语言学新视野国际研讨会 会议通知(第一号)
新书 | 文秋芳著《产出导向法:中国外语教育理论创新探索》
科研必备|让每一位文科生都能轻松上手的Python基础课
《中国小语种教育趋势报告》:在线教育优化供给端,小语种高考机会来临
陈众议委员:乐见小语种教育进入中小学  母语和外语教育并不构成矛盾
重磅 | 2020年度全国高校新增和撤销的语言类本科专业名单汇总
第五届全国高等学校外语教育改革与发展高端论坛(二号通知)
会讯 | 第六届中国教育语言学高端论坛 (1号通知)
第八届文体学国际研讨会暨第十二届中国逻辑学会文体学研讨会一号通知
会讯 | 第三届“‘一带一路’背景下的汉语国际教育” 国际学术研讨会
盘点 | 中国古代语言文字学名人录
汇总帖丨外文局审定600条新冠疫情相关词汇中英表达
第三届“文化话语研究”高级研修班(免学费)
科研贴士 | 如何写好研究计划(Research Proposal)?
《你好,李焕英》英文名为何用这个?
黄国文:思政视角下的英语教材分析
乔姆斯基 | Minimalism: where we are now, and where we are going
乔姆斯基 | The Minimalist Program in 2021
李宇明:语言与人类文明 | 中国社会科学报
吴勇毅:国际中文教育“十四五”展望
张辉 张艳敏 | 批评认知语言学:理论源流、认知基础与研究方法
沈家煊:悼念吉尔·富高涅先生(Gilles Fauconnier)
刘英凯:试论奈达“读者反应”论在中国的负面作用(修订稿)
刘英凯:华夏文化自我中心观及外来语的汉译
盘点 | 各学科C刊 2021年重点选题方向汇总!(来源:人大复印报刊资料)
沈骑 | 新中国外语教育规划70年:范式变迁与战略转型
文科生可以学会的Python——雷蕾《基于Python的语料库数据处理》
包广将 | 国际关系文化学派:演化、争鸣及特性
2020人大复印资料语言学·文学类最受欢迎文章集萃
李葆嘉:西洋汉语文法学三百年鸟瞰 | 华东师范大学学报(哲社版)
教育部:全球有70个国家将中文纳入国民教育体系
近五年国家社科基金年度项目 语言学立项名单一览
近四年国家社科青年项目“语言学”类立项名单一览
译词 | 64个跨文化核心词(含中英释义)
黄友义:疫情之后看外语和翻译的多与少 |《中国外语》
乔姆斯基:语言学的“当时”和“现在”
陈平:语言交叉学科研究的理论与实践
陈平 | 交叉学科教学与研究:做什么,怎么做?
吴应辉 梁宇:交叉学科视域下国际中文教育学科理论体系与知识体系构建
吴应辉:汉语国际教育面临的若干理论与实践问题
图说孔子学院新机制 新模式 | 2020孔子学院合作论坛主旨发言
荐书 | 潘艳艳《多模态国防话语的认知批评研究》附胡壮麟教授、张辉教授序
新书 | 顾曰国 黄立鹤:《老年语言学与多模态研究》
多模态视野下的国家媒介形象:概念与特征 | 中国社会科学报
视频+全文| 马斯克专访,远见令人震撼!语言是人类最伟大的发明
刘英凯:归化——翻译的歧路
刘英凯:信息时代翻译中“陌生化”的必要性和不可避免性
交流 | 那些隐藏在高校“文学院”中的“自然语言处理”专业
李晨阳:关于新时代中国特色国别与区域研究范式的思考
推荐 | 第二语言教学法主要流派全收录(值得收藏)
国外语言学学科眼动研究: 现状与前瞻( 1934-2020)
沈家煊:“能简则简”和“分清主次”——语言研究方法论谈
李强:关于区域与国别研究方法论的思考
神经语言学国际热点与趋势的科学知识图谱分析
学者聚焦 | 潘文国:徜徉在中外古今之间
学者聚焦 | 文秋芳:对外语专业学生思辨能力培养的四点建议
姜望琪:Halliday的语篇衔接理论 |《语篇语言学研究(第二版)》
重磅 | 2020中国学术期刊影响力指数及影响因子排行榜(语言文字)
重磅 | 全国高校拟新增语言类专业硕博学位点名单(语言服务最新整理版)
新书 | 王军:《衔接的认知语用研究》 商务印书馆
【高端笔谈】外国语言文学学科高质量发展的路径
邢向东:论语言研究中的问题导向
国内生态学视角外语教学的特征和趋势 ——基于CiteSpace的可视化分析
干货 | 国家标准:公共服务领域英文译写规范(附电子版下载)
冯志伟:当前计算语言学发展的几个特点 | 中国社会科学网
重磅 | 2020中国学术期刊影响力指数及影响因子排行榜(语言文字)
圣杯就在眼前:“现代语言学之父”乔姆斯基的批判与期望
世界语言谱系及语种概览 | 语言学微课堂
陈平 | 理论语言学、语言交叉学科与应用研究:观察与思考
徐锦芬 曹忠凯:国内外外语 /二语课堂互动研究
韩晔 高雪松 | 国内外近年线上外语教学研究述评:理论基础、核心概念及研究方法
近十年国际语言政策与规划研究热点与趋势——基于Scopus数据库的可视化分析
中国英语教育四十年反思及其对新文科背景下英语专业建设的启示
报告全文 | 教育部高教司司长吴岩:积势蓄势谋势 识变应变求变 全面推进新文科建设
王学典:何谓“新文科”?
海外中国学研究机构名录一览表(2020年版)
干货 | 3000个常见公共场所英语标示!(国家英文译写规范)
李宇明 郭熙 周洪波 | 中国语言生活研究十五年
讲座视频 | 沈骑:后疫情时代的国家话语能力规划
张伟年 段宛云等:战略传播学视阈下特朗普涉华新冠肺炎污名化推特分析
语言专业师生必看的10部电影(附观看链接)
蔡基刚:应急语言服务与应急语言教学探索
大汇总 | 第1 - 10批推荐使用的外语词规范中文译名(附Word版下载方式)
何莲珍:新时代大学英语教学的新要求——《大学英语教学指南》修订依据与要点
文秋芳教授:中国外语教学70年,未来道路究竟向何方?
书讯 | 利奇《语用学原则》中译本出版
精选 | 应用语言学研习丛书(13种)一览:回顾经典 分析热点
束定芳:大学英语教学与国际化人才培养 |《外国语》2020年第5期
陈力:西方现代教学理论真的反对语法教学吗?
接触理论:生成语法研究的新进展 | 中国社会科学报
荐书 | 徐烈炯著《生成语法理论:标准理论到最简方案》
合辑 | 双语版《美丽中国》( Amazing China ):1-58集(全)
对外汉语专业常用资料库大全
收藏!76种学术研究必备科研工具
梁茂成 | 语料库语言学研究的两种范式:渊源、分歧及前景
荐书 | 北京大学出版社语言学图书书单
视频 | 听胡壮麟教授讲《语言学教程》那些事儿
中国访谈丨北京外国语大学校长杨丹:培养跨文化交流引领者
戴炜栋 胡壮麟 王初明等:新文科背景下的语言学跨学科发展
大师课程 | 乔姆斯基等:语言,思维和大脑
王缉思:浅谈区域与国别研究的学科基础
21世纪以来中国的太平洋岛国研究:历史、现实与未来
视频 | TED Ed:语言进化编年史
荐书 | 德古意特认知语言学研究丛书+应用丛书(13种)
外语教学类高被引论文排行榜 TOP 10
“国家形象研究”高被引论文排行榜 TOP 10
高雪松 : "人文 vs. 工具" 也许是过去四十年外语教育大辩论中的伪命题
中英文学科、专业名称对照
乔姆斯基:三个讲座,国内少见
视频 | Metaphors We Live By 内容导读 (我们赖以生存的隐喻)
多模态话语分析:以“疫情防控外语通”为例
《牛津英语》语法大讲堂(视频全集)
所以,什么是语言学?| 语言学微课堂

扫码关注,即可获取最新入群二维码

目前已有2.45万语言文学、国别区域

研习者关注↑↑↑本公众号,

欢迎加入我们,交流分享,共同学习!

一个,点亮在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存