查看原文
其他

​冯志伟 | 我国计算语言学研究70年

专注分享学习,一站式获取海量语言学资源

来源:外国文学文艺研究公众号

转载编辑:应用语言学研习

【作者简介】冯志伟,教授,博士,博士生导师;研究方向:计算语言学

推荐阅读:

冯志伟先生讲座讲稿:词向量与语言学
冯志伟 | 神经网络、深度学习与自然语言处理
冯志伟《现代语言学流派》读书笔记链接
冯志伟先生谈计算语言学——把基于语言大数据的经验主义方法和基于语言规则的理性主义方法结合起来
冯志伟:关于“第三人称数据”的观察和检验 | 序陆晓蕾 倪斌《Python 3:语料库技术与应用》
冯志伟:当前计算语言学发展的几个特点 | 中国社会科学网
冯志伟访谈录 | 面向翻译的术语研究:“中国学派”的实践特征和理论探索
冯志伟:自然语言计算机形式分析的理论和方法
冯志伟:我的2020年总结

冯志伟 教授

我国计算语言学研究70年


原文发表在《语言教育》2014年第4辑,经作者、期刊全权授权由 “外国文学文艺研究” 微信公众号推出。)感谢冯志伟先生授权“应用语言学研习”转载。



摘要:本文介绍我国70年来在机器翻译、自然语言理解、信息自动检索、语料库语言学、机器词典、汉字信息处理、语音自动识别与合成等计算语言学研究领域的成就。


关键词:计算语言学;机器翻译;信息检索;语料库;语音识别;语音合成


在中华人民共和国成立70周年之际,《语言教育》编辑部要我对于我国在计算语言学方面70年来取得的成就进行初步的总结。我今年已经80岁了,亲自经历了我国计算语言学走过的全部过程,觉得这是一件很有意思的工作,因此就欣然答应了。在本文中,我愿意根据我本人的亲身经历以及我自己和同行专家70年来所发表的论著,来总结我国计算机语言学70年来的成就。


由于要总结70年来的研究,在本文中不可避免地需要引用或引证大量的论著,为了尊重作者的版权,凡是直接引用或引证的论著,我都注明了出处,并在文末的参考文献中列出。有兴趣的读者可以根据这些线索,进一步阅读原文,了解这些成果的来龙去脉。


采用计算机技术来分析、研究和处理人类的自然语言(natural language)是20世纪50年代才开始的。50多年来,这项工作取得了举世瞩目的进步,形成了计算语言学(ComputationalLinguistics,简称CL)这门重要的新兴学科(冯志伟,1992)。


计算机对自然语言的研究和处理,一般应经过如下四个方面的过程:


第一,形式化(formalism):把需要研究的问题从语言学的角度进行形式描述,建立语言的形式化模型,使之能以一定的数学形式,严密而规整地表示出来。在基于规则的系统中,这样的描述通常要对于语言中的各种特征(features)用手工进行精细的分析和整理,是一项庞大的语言特征工程(featureengineering)。


第二,算法化(algorithm):把经过语言特征工程处理的严密而规整的数学形式表示为计算机的算法。


第三,程序化(programming):根据算法编写计算机程序,调试程序并在计算机上加以实现。


第四,实用化(implement):建立各种实用的自然语言处理系统,对于所建立的自然语言处理系统进行评测,使之不断地改进质量和性能,以满足用户使用的要求。


在目前兴起的基于深度学习(deep learning,简称DL)的深度神经网络(deepneural network,简称DNN)中,语言特征的获取不再通过手工来进行,深度神经网络可以从大规模的、真实的语料库中自动地学习到这样的语言特征,在深度学习的过程中,语言学知识与深度神经网络之间彼此促进,相得益彰。


由此观之,为了研究计算语言学,研究者不仅要掌握语言学的知识,而且,还要掌握数学的知识和计算机科学的知识,这样一来,计算语言学就成为了一门横跨语言学、数学和计算机科学等不同领域的边缘性的交叉学科,它同时涉及到文科、理科和工科三大领域(冯志伟,1990)。


计算语言学的出现,使得语言学在现代科学体系中的地位产生了明显的变化,成为了人文科学发展的突破点和生长点,古老的语言学由一门传统的基础科学变成了一门领先的带头科学,获得了与数学、哲学同等的地位,它的重要意义已经成为学术界的共识(冯志伟,1992)。


计算语言学的研究首先是从机器翻译(MachineTranslation,简称MT)开始的。1946 年电子计算机刚一问世,一些具有远见卓识的学者们就考虑到了利用计算机把一种或几种语言自动地翻译成另外一种语言或另外几种语言的可能性。从 20世纪50 年代初期到60年代中期,机器翻译一直是自然语言计算机处理研究的中心课题,不过当时主要是采用基于机器词典的“词对词”(words to words)翻译方式,译文质量低劣,难以达到预期的翻译效果(冯志伟,1997)。


20世纪60 年代中期,人们开始从计算机处理自然语言的角度对语言的形态、句法、语义、语用和语境等基本问题进行形式化的研究,并尝试着让计算机来理解自然语言。Turing(图灵)认为,断定计算机是否理解了自然语言的最直观的方法,就是让有智慧的人同计算机对话,如果计算机对有智慧的人用自然语言提出的各种问题能够做出正确的回答,就证明计算机已经理解了自然语言(冯志伟,1997a),这样,就出现了“智能问答”(Question Answering, 简称QA)的研究。计算语言学的理论和方法也就在MT和QA的研究中逐渐形成、完善并成熟起来。


目前,除了MT和QA之外,计算语言学的研究领域还进一步扩展到了信息自动检索、信息自动抽取、文本自动分类、自动文摘、语料库语言学、机器词典、汉字信息处理、语音自动识别与合成等领域,已经成为人工智能(Artificial Intelligence,简称AI)研究的一个热点,成为了人工智能皇冠上的明珠(冯志伟,1989)。


计算语言学与自然语言处理(NaturalLanguage Processing,简称NLP)的研究是密不可分的。“自然语言处理”可以看成是“计算语言学”的同义术语,当主要涉及理论和原理的时候,用“计算语言学”这个术语,当主要涉及方法和应用的时候,用“自然语言处理”这个术语(冯志伟,2009a)。


1952年,在美国的麻省理工学院(MIT)召开了第一次机器翻译会议,在1954年,出版了第一本机器翻译的杂志,这本杂志的名称就叫做Machine Translation(《机器翻译》)。尽管人们在自然语言的计算机形式分析方面进行了大量的研究工作,但是,直到20世纪60年代中期,才出现了Computational Linguistics(计算语言学)这个术语,而且,在刚开始的时候,这个术语是小心翼翼地出现的(冯志伟,2011)。


1965年Machine Translation杂志改名为Machine Translation and Computational Linguistics(《机器翻译和计算语言学》)杂志。在杂志的封面上,首次出现了“Computational Linguistics”这样的字眼,但是,“and Computational Linguistics”这三个单词是用特别小号的字母排印的(冯志伟,2011)。


这说明,当时这个刊物的编者对于“Computational Linguistics”是否能够算为一门真正的、独立的学科还没有充分的把握,有点儿畏首畏尾、小心翼翼的惧怕心理。因此,计算语言学刚刚登上学术这个庄严的殿堂的时候,刊物的编者还没有足够的胆量和勇气用与Machine Translation同样大小的字母来排印它。


当时MachineTranslation杂志之所以改名,是因为在1962年美国成立了“机器翻译和计算语言学学会”(Association for Machine Translation and Computational Linguistics,简称AMTCL),通过改名可以使杂志的名称与学会的名称一致起来(冯志伟,2011)。后来,由于计算语言学的进一步发展,这个学会在1968年干脆把“Machine Translation”这两个词也删除了,改名为“计算语言学学会”(Association for Computational Linguistics,简称ACL),一直沿用至今。ACL在1982年成立了欧洲分会,简称EACL,在2000年成立了北美分会,简称NAACL,在2018年成立了亚太分会,简称AACL。ACL还设立了21个特殊兴趣小组(SpecialInterest Groups,简称SIGs),几乎涵盖了计算语言学研究的所有领域。从1962年算起,ACL已经成立57周年了,中国在ACL中的作用越来越重要,ACL现任主席是中国学者周明,他是微软亚洲研究院副院长。


根据上述史料,我们认为,远在1962年,“Computational Linguistics”这个学科就已经出现了,尽管它在刚出现的时候还有些畏首畏尾的尴尬。但是,无论如何,计算语言学这个新兴的学科终于萌芽了,她毅然地破土而出,悄悄地登上了学术的殿堂,并且迅速地发展和壮大起来(冯志伟,2011)。


由于早期的机器翻译的译文质量低劣,难以满足用户的要求,1964年,美国科学院成立了语言自动处理咨询委员会(Automatic Language Processing Advisory Committee,简称ALPAC委员会),调查机器翻译在美国研究和应用的情况,并于1966年11月发布了一个题为《语言与机器》(language and machines)的报告,简称ALPAC报告,这个报告对机器翻译采取了否定的态度。报告宣称:“在目前给机器翻译以大力支持还没有多少理由”;这个报告还指出,机器翻译研究遇到了难以克服的“语义障碍”(semantic barrier)。在ALPAC报告的影响下,机器翻译研究跌入低潮,由于机器翻译的拨款锐减,一些已经建立起来的机器翻译研究单位的经费极为困难,入不敷出,难以继续维持,只好停业。在世界范围内,机器翻译的热潮逐渐消失了,出现了空前萧条的局面(冯志伟,1997)。


美国语言学家DavidHays(海斯)是ALPAC委员会的成员之一,也是ALPAC报告的主要起草人。在ALPAC报告中,他建议,在放弃机器翻译这个短期的工程项目的时候,仍然有必要加强语言和自然语言计算机处理的基础理论研究,应当把原来用于机器翻译研制的经费使用到自然语言处理的基础理论研究方面,David Hays把这样的基础理论研究正式命名为Computational Linguistics,并且在1967年出版了一本叫做《计算语言学导论》(Introduction of Computational Linguistics)的专著。所以,我们可以说,“Computational Linguistics”这个学科名称最早出现于1962年,而在1966年才在美国科学院公布的ALPAC报告中正式得到学术界的认可,并在1967年出版了第一本Computational Linguistics的专著(冯志伟,1994)。


在AMTCL还没有改名为ACL之前,1965年在美国纽约成立了单独以Computational Linguistics冠名的国际计算语言学委员会(International Committee of Computational Linguistics,简称 ICCL),每两年召开一次国际会议,叫做 COLING。COLING第一任主席是Bernard Vauquois(沃古瓦),他是法国著名数学家和法国格勒诺布尔大学应用数学研究所自动翻译中心CETA主任,也是冯志伟在法国留学时的导师。与此同时,美国出版了学术季刊《美国计算语言学杂志》(American Journal of Computational Linguistics),后改名为《国际计算语言学杂志》(International Journal of Computational Linguistics)。BernardVauquois在1985年去世后,COLING的主席由Martin Kay(马丁•凯伊)担任,他是美国斯坦福大学教授(Vauquois& Boitet, 1985)。


与国际计算语言学发展的情况相似,我国计算语言学的研究也是首先从机器翻译的研究开始的(冯志伟,2007a)。


1949年中华人民共和国成立之后,就开始关注语言文字工作,进行了文字改革,接着就开始了机器翻译的研究。我国是继美国、苏联、英国三个国家之后,世界上第四个开展机器翻译研究工作的国家。当今在机器翻译方面居于先进水平的日本,是在1958年才开始进行机器翻译的,起步比我国晚了两年之久(冯志伟,2001)。


早在1956年,也就是在国际计算语言学会(ACL)成立之前6年,国家便把机器翻译研究列入了我国科学工作的发展规划,成为其中的一个课题,课题的名称是:“机器翻译、自然语言翻译规则的建立和自然语言的数学理论”(冯志伟,1996a)。


1957年,中国科学院语言研究所刘涌泉、高祖舜、刘倬与计算技术研究所合作,开始俄汉机器翻译的研究。1959年,他们在我国制造的104大型通用电子计算机上,进行了初步的俄汉机器翻译试验,成功地把9个不同类型的、较为复杂的俄语句子用计算机自动地翻译成中文(冯志伟,1996a),作为向国庆10周年的献礼。不过这个系统翻译出来的中文不是汉字,而是中文的代码,一般人是读不懂的。这是我国研制的第一个机器翻译系统(刘涌泉等, 1964)。


在这个时期,北京外国语学院、北京俄语学院、广州华南工学院、哈尔滨工业大学也分别成立了机器翻译研究组,开展了俄汉或英汉机器翻译的试验。我国的机器翻译呈现出欣欣向荣的局面(冯志伟,2007a)。


然而这种局面很快就被文化大革命破坏了。从1966年至1975年这个时期,除了极少数的对于机器翻译有强烈兴趣的人在极端恶劣的条件下仍然坚持着继续进行理论探索之外,没有人进行任何的机器翻译研究和试验。几乎没有学者关注到国际上出现了“Computational Linguistics”这个新兴学科。


1974年在重庆一家计算机杂志《计算机应用与应用数学》上发表了冯志伟综述数理语言学(mathematical linguistics) 新理论的长篇论文,成为了这个时期唯一的关于计算语言学的论文,这篇文章的发表,有如在人迹空旷的山谷中听到了远处轻微的脚步声,鼓起了处于困境中的自然语言处理研究者的学术勇气(冯志伟,1975,2007c)。


这篇论文还在国内首次提到了1966年在ALPAC报告中出现的 “Computational Linguistics” 这个术语,初步介绍了国外计算语言学研究的新理论。可惜的是,这篇论文发表在文化大革命时期,学术研究已经停滞,几乎无人问津。


1975年,冯志伟还通过手工计算的方法,初步估算出汉字的熵(entropy)为9.65比特,汉字的熵也就是汉字的信息量,根据Shannon(香农)信息编码第二定律,编码时码字的长度不能小于码字的熵,汉字的熵为9.65比特,大于1个字节(8比特),因此,汉字编码的码字长度必须大于1个字节,起码应当采用双字节编码,而不能像西文字符那样采用单字节编码,这就为尔后的计算机汉字编码必须使用双字节提供了理论依据(冯志伟,1984),可惜在文化大革命的动乱中,他的研究结果未能及时发表(冯志伟,2011)。


文革结束之后,我国机器翻译研究重振旗鼓,开始复苏。


1975年11月,在中国科学技术情报研究所(ISTIC)设立了一个由情报所、语言所、计算所以及有关部委情报部门的工作人员组成的机器翻译协作研究组,他们以冶金题录5000条为试验材料,制定英汉机器翻译方案并上机试验。1978年5月,在中国科学院计算所111机上进行抽样试验,抽样20条,达到了预期的效果(冯志伟,1997)。接着又在情报所的TK-70 计算机上进一步扩大试验,用BOL语言编制程序,译文的可读性有所提高。当时国家标准GB2312-80信息处理用汉字编码字符集尚未公布,汉字输出无标准可依,研究人员克服重重困难,在日本制造的T4100汉字处理机上,首次用汉字输出了中文译文。在当时的技术条件下,这是非常不容易的事情。


1981年,冯志伟在法国格勒诺布尔理科医科大学留学期间,提出了多叉多标记树模型(Multiple-branched and Multiple-labeled Tree Model,简称MMT模型)(冯志伟,2014),全面地描述了自然语言处理中的形态、句法、语义、逻辑等特征以及这些特征的计算求解方法,建立了一个大规模的、行之有效的语言特征工程模型(feature engineering model),并根据这个模型研制了汉-法/英/日/俄/德多语言机器翻译系统FAJRA,这是世界上第一个把汉语自动地翻译成多种外国语的机器翻译系统,研究成果用法语在1982年的国际计算语言学大会COLING’82上发表,这是我国学者在国际计算语言学大会上发表的第一篇论文(Feng Zhiwei, 1982)。


1982年冯志伟从法国学成回国之后,用中文写了 “汉-法/英/日/俄/德多语言自动翻译试验” 的论文在《语言研究》上发表。全文长达56页之多,这也许是我国语言学刊物上发表的最长的论文,由于内容好,编辑部破例发表了这篇论文,这反映了我国语言学界对于计算语言学这个新学科研究的容忍、理解和支持(冯志伟,1982)。


1983年,冯志伟用中文写的“汉语句子的多叉多标记树形图分析法”,在《人工智能学报》发表,介绍了他提出的MMT模型,这是在我国人工智能刊物上发表的第一篇关于机器翻译的论文(冯志伟,1983)。MMT模型中采用的“多标记”(multiple-label),实际上就是当时国外学者提出的“复杂特征”(complexfeature),MMT模型是世界上最早提出的复杂特征模型之一。


此后,我国研制了若干个机器翻译系统。主要有:


  • 译星1号英汉机器翻译系统:1987年,中国人民解放军军事科学院研制成功实用型全文与题录兼容的英汉机器翻译系统“科译1号”。这个系统的语言理论基础是董振东提出的“逻辑语义结构”(logic-semantic structures)。他认为,逻辑语义是机器词典中词典信息赋值的出发点,是机器翻译源语言(source language)分析的目标,是英汉语言转换的主要平面,因此,应当对逻辑语义给予特别的关注。源语言分析采用成分功能关系语法,分析与生成相对独立。“科译1号”系统的基本原理是:由源语言的线性结构出发,经过多层次的反复扫描和规则匹配,形成以动词为根结点,以逻辑语义项为主结点的多结点、多标记的树形图,最后,从根结点逐层展开,形成目标语言(target language)的线性结构,得到相应的译文。该系统于1988年由军事科学院转让到中国计算机软件与技术服务总公司(简称“中软公司”),改名为“译星1号”。“译星1号”在语言词典和规则方面作了大幅度的改善,在软件硬件的开发环境方面作了精雕细刻的优化,推向市场实现了商品化。这是我国第一个商品化的机器翻译系统,被列为我国1988年计算机界十件大事之一,1991年获国家“七五”攻关重大成果奖。后来,董振东又研制了“知网”(How-Net),建立了一个大型的语言知识库,成为了极其宝贵的自然语言的语义处理资源(Dong Zhendong&Dong Qiang, 2006)。




  • 高立英汉机器翻译系统:这是北京市高立电脑公司与中国社会科学院语言研究所联合开发的机器翻译系统,冯志伟也参与了该系统的部分开发工作。这个机器翻译系统以语言学公理和原则作为语言分析的理论基础,以智能化的机器词典代替传统的信息参数词典,使句法规则的共性与单词的个性相结合,使单词的意义与单词的参数和句法的规则相结合,整个机器翻译系统实质上是一个“词专家系统”(word expert system)。这个机器翻译系统还建立了基于常识的背景知识库,把语义分析与句法分析有效地结合起来,在抽象的形式分析中,充分地利用语义信息。由于机器词典与系统的运行程序彼此独立,用户可以通过词典维护程序来修改机器词典的内容,这样,用户就有可能在自己的使用过程中根据他们自己的需要,不断地修改和改善机器词典,不断地提高机器翻译的译文质量。高立英汉机器翻译系统地实现了商品化。该系统于1992年1月在北京新技术产业开发试验区通过了鉴定,先后获得北京市科技进步奖、新加坡INFORMATICS'92国际博览会计算机应用软件银奖和1992年第二届中国科技之光博览会电子行业金奖,并被列入火炬计划(冯志伟,1994)。




  • 智能型英汉机器翻译系统863-IMT/EC:这个系统是中国科学院计算技术研究所开发的,该系统从1986年开始研究,经历了理论探索、模型系统试验和实用系统开发等阶段,最终实现了商品化。该系统研究的内容包括语言学工程、翻译处理软件环境和知识处理环境三个部分,在语法规则中引入了上下文相关条件测试,实现了数据与操作一体化处理技术,提出了“子类语法”(Sub  Category  Grammar,简称SC语法)。在863-IMT/EC系统的基础上,中国科学院计算技术研究所与香港权智集团合作,投资1800万美元,建立了科智语言信息处理有限公司,后来又进一步发展成华建公司,专门从事机器翻译系统的开发(冯志伟,1996b)。




  • 英汉机器翻译系统Matrix:这个系统由国防科技大学于1994年研制成功。该系统的词典可根据用户的需要自行修改,并可独立于系统单独使用,还可以配上不同的专业词典,以满足不同专业用户的需要(冯志伟,1996b)。后来Matrix系统经过深圳桑夏公司进一步开发,发展成为Light系统,接着在深圳环球网络公司的支持下,开发出了用于互联网翻译的英汉自动翻译系统,受到了我国广大网络用户的欢迎。深圳环球网络公司开发的read world(“看世界”)英汉自动翻译网站可以把互联网上的英文自动地翻译成中文,从而帮助中国网络用户通过网络观看世界,克服语言障碍畅游网络,这在上世纪90年代是难能可贵的创举。




  • 汉外机器翻译系统SinoTrans:这个系统由中软公司开发,包括汉英机器翻译系统和汉日机器翻译系统两个部分,于1993年9月通过了电子工业部主持的部级鉴定。该系统是国内外第一个能翻译汉语技术报告、论文、报刊文章、产品说明书等文字资料的机器翻译系统。该系统也是一个多功能的中文信息处理系统,可以进行汉语自动切词,词性自动标注、短语生成、汉语语法树生成、汉语-外语转换、外语生成等工作。由于其中的每一个模块都可以单独使用,该系统还可以为自然语言理解研究和基于语词的语言学研究提供帮助。该系统提出了汉语完全语法树(I-Tree)来统一表达所有可能出现的汉语陈述句型,并建立了属性制约原则和属性制约文法,因而研究者就有可能进一步通盘地来研究汉语的句法,不必再像传统的汉语语法研究那样只局限于使用简单枚举的方法来概括语言规律。完全语法树还清楚地表示了句子的自动分析和生成过程,明确在句子内可以递归的部分和可以递归的内容,为在理论上深入研究汉语理解的实际过程提供了线索(冯志伟,1997a)。



此外,哈尔滨工业大学计算机系研制了汉英机器翻译系统 CEMT,并通过了航天部组织的鉴定。东北工学院计算机科学与工程系研制了汉英机器翻译系统 CETRANS。冯志伟还根据他提出的 MMT模型,独立开发了法汉自动翻译系统FCAT(冯志伟,1987)、德汉自动翻译系统 GCAT(冯志伟,1990)和日汉自动翻译系统 JCAT(冯志伟,1997)。我国还开发了一些可以在互联网上使用的英汉机器翻译系统,如北京阶梯信息工程有限公司的 “阶梯译王”、天津大通通译计算机软件研究所的 “通译Internet V2.0” 等(冯志伟,1999a)。

上述机器翻译都是基于语言学的短语规则的,叫作基于短语的机器翻译(Phrase-Based Machine translation, 简称PBMT)(冯志伟,1999b)。

20世纪90年代,我国开展了基于大规模真实语料库的统计机器翻译(Statistic Machine Translation, 简称SMT)的研制。21世纪初期开始,借助于互联网的发展,机器翻译进一步走向商品化,以IBM、微软、谷歌为代表的科研机构和企业,都相继成立了统计机器翻译研制团队,几年后,我国的百度等公司都相继发布了能够支持世界上数十种常用语言的互联网机器翻译系统,迅速普及了机器翻译的应用场景,人们可以比较方便地使用机器翻译软件进行信息沟通(冯志伟,2018)。

2012年,微软公司的RickRashid(拉希德)在我国天津召开的“21世纪计算”上,现场演示了一个语音机器翻译项目,他用英语讲话,计算机同时把他的话翻译成汉语普通话。这是机器翻译从文本翻译拓展到语音翻译的标志性事件,引起轰动。此后微软等企业相继推出了实时语音机器翻译的产品。

2014年前后,随着计算机深度学习(deep learning)技术在语音、图像等领域取得成功,深度学习的方法开始在机器翻译中得到使用,统计机器翻译进一步发展成神经机器翻译(Neural Machine Translation, 简称NMT),显著地提升了机器翻译的译文质量。

神经机器翻译使用神经网络(neuralnet)直接把源语言句子转化为目标语言句子,具体地说,就是把源语言的句子表示为词向量(word vector),形成句子的分布式,然后利用解码器依次生成目标语言的单词序列,直到生成目标语言的整个句子为止。神经机器翻译过程是端到端(end to end)的计算过程,由于其内部是由基于词向量的数值计算构成的,难以从语言学的角度解释中间过程的计算机制,翻译过程还是一个黑箱(black box)操作。目前我国的小牛、百度、搜狗、有道等公司都采用了神经机器翻译的方法,翻译效果都远远超过了基于短语的机器翻译和统计机器翻译,机器翻译已经从梦想变成了现实(李沐等,2019)。

自然语言理解(NaturalLanguage Understanding,简称NLU)是计算语言学的重要方面,我国在自然语言理解的研究中也取得了一些成果(周威成,2003)。

在计算语言学的研究领域中,我国的机器翻译是起步很早的,但是,我国自然语言理解的研究起步却比国外晚了17年。国外在 1963 年就建成了早期的自然语言理解系统,而我国直到 1980 年才建成了两个汉语自然语言理解模型,都以人机对话(man-machinedialogue)的方式来实现。

■  RJD-80型汉语人机对话系统:该系统由中国社会科学院语言研究所的研制,(简称 “RJD-80系统”),是基于语言学模型的人机对话系统,强调对语言结构本身的分析。1984年,中国社会科学院语言研究所又进行了“TK-84型汉语人机对话系统”(简称“TK-84系统”)的研制。该系统以铁路客运咨询为主题,存贮汉语单词200条,句型30多个,内容包括北京至东北几条铁路客运快车的到达站、中途站、开车时间、到达时间、车次、车种、车组等,也以人机对话方式来实现(刘根辉,2005)。这样的自然语言理解系统初步具备了一定的自动推理能力。

■  CLUS人机对话系统:该系统由中国科学院心理研究所研制,是基于“心理学模型的人机对话系统,强调模拟理解语言时的心理活动,注意语言意义的理解,也具备一定的自动推理能力”(刘根辉,2005)。

后来,自然语言理解的研究领域进一步扩大。山西大学计算机科学系建立了哺乳动物数据库,并开发了这个数据库的自然语言前端(natural language front end),用户可用英语与哺乳动物数据库系统进行人机交互。中国科学院心理研究所建立了一个适用于汉语篇章理解的记忆模型,该模型能够组织汉语篇章理解过程中所需的各种知识,并将系统的词典与知识库有机地结合在一起,初步建成了一个简单的汉语篇章理解系统。东北工学院建立了“中文句子及文本理解系统 CTUS”,这是一个基于概念的汉语理解系统;清华大学建立了一个面向军事情报的汉语篇章理解实验系统 TUSMI,接着又建立了WPS汉语通用人机接口和学籍管理系统的汉语专用人机接口;南京大学建立了找水专家系统的汉语专用人机接口 CNLIGW 和汉语歧义分析模型系统 CAAMS;吉林大学建立了石油专家系统 PRES 的汉语专用人机接口 HRJ;北京信息工程学院开发了信息检索系统的汉语人机接口;中国科学院沈阳自动化研究所研制了汉语人机接口 NLI-db3;哈尔滨工业大学研制了基于段落理解的汉语问答实验系统 CQAES-II(刘根辉,2005)。

近年来,自然语言理解着重地研究了智能问答,逐渐由受限领域问答发展成开放领域问答,开放领域问答包括问题分析、候选生成、候选打分、答案的合并与排序等过程。

除了文本问答之外,近来又出现了知识图谱问答、表格问答、社区问答等。文本问答基于文本检索生成答案,知识图谱问答基于结构化的知识库进行问题理解和答案生成,表格问答基于表格进行问题理解和答案生成,社区问答基于已有的问题和答案进行答案的检索和生成。如何在智能问答中引入图像、语音、视频等多模态信息,是当前自然语言理解领域研究的新热点(段楠 周明,2019)。

20世纪80年代以来,由于个人微型计算机的普遍使用,使得联机检索的用户从各种中间人转移到最终用户,即自己有微型机算机或者手机的经营者、专业人员和普通家庭,使得联机信息检索进一步提高其友善性和易用性,各种对用户友好的联机信息检索系统相继出现(冯志伟,1996b),自动信息检索(Information Retrieval,简称IR)系统开始进入千家万户,成为了老百姓日常生活中的寻常事件。由于互联网和网络搜索引擎的发展,自动信息检索已经成为任何一个普通网民获取信息的基本手段。

我国从1963年开始进行机械信息检索的研究工作。1965年进行了机械信息检索试验。20世纪70 年代以来开始研究计算机信息检索。1975年进行了首次计算机信息检索试验。1977年进行了计算机联机检索试验。

1983年在中国科学技术信息研究所建立了连接美国、欧洲主要国家的数据库联机检索系统,这个系统通过意大利的 ITALCABLE 分组交换中心,连接到欧洲空间组织的 ESA-IRS 系统,并由数据交换网转接美国的 DIALOG、ORBIT 系统,这样,我国就可以在北京利用通信卫星检索到欧美200多个数据库的几十万篇文献(冯志伟,1996b)。

当时,不少单位建立了各种中文文献库,有的单位研究了自动标引和自动文摘的问题。全国科技信息部门配备了大中小型计算机,建立各种科技文献数据库、事实数据库、数值数据库(冯志伟,2001)。

随着互联网和搜索引擎的普及,信息检索也更加受到普通老百姓的欢迎,联网搜索信息已经成为老百姓日常生活的一部分内容。

自动信息检索主要包括自动标引、自当文摘、文献自动分类、全文信息自动检索等内容。

■  自动标引(automatic indexing):信息检索系统的核心工作是标引(indexing)。所谓 “标引”,就是对所收集的文献给出其标识引导,如文献标题、作者名、分类号、主题词、关键词等。我国在20世纪70 年代末期开始探讨汉语文献的自动标引问题,先后建立了一批试验性的自动标引系统。如上海交通大学研制的基于汉字部件词典的中文篇名自动标引系统,北京大学图书馆系研制的基于规则和词典的中文文献自动标引系统,中软件公司研制的基于非用字后缀表法的中文文献自动切词标引系统。

■  自动文摘(automatic abstracting):文摘是文献内容要点的简要描述或指示。所谓“自动文摘”,就是利用计算机自动地编制和生成文摘。目前,自动文摘的方法基本上是建立在统计规律的基础之上的,要进一步的推动自动文摘方法的研究,必须对所摘文献进行词汇分析、语法分析和语义分析,并对结果进行综合,这些都需要对自然语言的词汇、语法语义规律进行深入的研究,充分地利用自然语言计算机处理的新成果和新方法,使自动文摘工作实现智能化。

■  文献自动分类(automatic classification):所谓“文献自动分类”,就是利用计算机对一批作为实体或对象的文献进行分类。文献自动分类有利于文献的快速查找。20世纪60 年代初,国外就开始了文献自动分类的研究。我国上海交通大学计算中心在 IBM-5550 微机上研制了一个试验性的中文科技文献自动分类系统,采用文献篇名作为原始分类对象,以加权的题中关键词作为分类的基础,统计分析了文献篇名中的关键词,归纳出大约 300 个基本类主题词,构成类主题词表。当时,用户利用这一系统在微机上对一篇文献进行分类所需的时间不到一秒钟,该系统对上海图书馆《全国报刊索引》收录的1000多篇有关计算机的文献进行自动分类试验,自动分类的结果与人工分类的结果有74%是相符合的。

■  全文信息自动检索(automatic retrieval of full text):现行的信息自动检索系统,大多数都是检索文献目录库和文摘,这类检索系统所获得的信息有很大的局限性,如果用户在检索之后,还希望获得所检索出记录的全面而详细的信息,往往还要按检索到的文献索引号,再到书库中去进一步翻阅、摘引大量的原文文本,为了解决这个问题,学者们提出了“全文信息自动检索”,简称全文检索。全文数据库的建立和全文检索功能的实现是全文检索的两大技术支持。我国的全文检索研究开始于20世纪80年代中期。1986年,武汉大学开始接受国家教委文科博士点科研项目“湖北省地方志全文检索系统”,建立了“湖北省地方志大事记”和“中国人民解放军大事记”两个全文数据库。接着,北京文献服务处(BDS)研制了“基于自然语言处理的中文信息检索和处理系统CIRPON”,用于BDS的文献自动标引和文摘自动处理,文献标引的查全率和查准率大体上相当于手工标引的质量。1990年初,北京信息工程学院与人民日报社合作开发了全文检索系统 Biti FTRS(Full Text Retrieval System的简称),对于《人民日报》进行全文自动检索。电子部计算机与微电子技术发展研究中心(CCID)中文信息处理开放实验室(CIPOL)研制了中文全文检索系统 TIR,该系统可以对各种文本型资料和某些数据库的文件进行操作,能够检索一切输入文本,对原始文献里的字符无特别限制,可以处理各种通用的字符。(冯志伟,1996)

随着大量文献的出版和互联网的普及,文档的数量与日俱增。而且,大多数文档数据都是无序的、非结构化的,文档数据中不仅包含文字信息,而且还包含图像信息、图形信息、音频信息、视频信息。文档数量的急剧增加和多样化是对于信息检索技术的严重挑战(冯志伟,1996)。

我国在语料库语言学方面也取得了可喜的成绩。我国从20世纪70年代末期便开始建立语料库。从1979年到1992年,在我国建立的主要的语料库有:

■现代文学作品语料库(1979年),527万字,武汉大学。

■现代汉语语料库(1983年),2千万字,北京航天航空大学。

■中学语文教材语料库(1983年),106万8千字,北京师范大学。

■现代汉语语料库(1983年),180万字,北京语言学院。

■汉语新闻语料库(1988年),250万字,山西大学,包括4部分:
         .《人民日报》:150万字,
         .《北京科技报》:20万字;
         .《电视新闻》(CCTV):50万字;
         .《当代》(杂志):30万字。

■北大汉语语料库(1992年):500万词,北京大学。
                                               (冯志伟,2001)

此外,国家语言文字工作委员会语言文字应用研究所还建立了英汉双语语料库,其中包括一个计算机专业的双语语料库和一个Plato(柏拉图)哲学名著《理想国》(Politeia)的双语语料库。在这些双语语料库上,他们进行了汉字极限熵的测定和双语对齐的研究(冯志伟,2001)。

1991年,国家语言文字工作委员会开始建立国家级的大型汉语语料库,以推进汉语的词法、句法、语义和语用的研究,同时也为中文信息处理的研究提供语言资源,其规模为7000万汉字。这个语料库是均衡语料库,其语料要经过精心的选材,现已投入使用。

1992年以来,大量的语料库在研究计算语言学的单位建立起来,语料库成为了研究计算语言学的基本语言资源。目前,建设大规模真实文本语料库的单位有:《人民日报》光盘数据库、北京大学计算语言学研究所、北京语言大学、清华大学、山西大学、上海师范大学、北京邮电大学、香港城市大学、东北大学、哈尔滨工业大学、中国传媒大学、中国科学院软件研究所、中国科学院自动化所、北京外国语大学日本学研究中心、台湾中央研究院语言研究所(筹备处)。

例如,中国传媒大学的语料库包括文本语料库(7000 多万字)、音视频语料库(900小时的音频和视频语料)和精品语料库(如著名主持人的节目、获奖节目的音频视频语料),这是世界上规模最大的、多模态的汉语传媒有声语言的语料库,语料库加工体系从语音开始,到文字、词语、句子、篇章都进行了标注和处理。

我国在20 世纪80 年代中期就建立了第一个英语语料库,即上海交通大学的科技英语语料库,简称JDEST(Jiao Da English for Science and Technology),这个语料库为我国大学英语教学大纲的制定和词表统计做出了积极的贡献。后来在我国建成的英语语料库还有:ICLE中国子语料库、中国英语学习语料库、大学学习者英语口语语料库、中国专业英语学习者口语语料库、CEC中国英语语料库、中学英语口语语料库等,这些英语语料库都为我国的外语教学和外语学习做出了贡献(冯志伟,2007c)。

双语平行语料库也有很大的发展。北京外国语大学中国外语教学研究中心研制了英汉双语语料库,北京外国语大学日本学研究中心研制了日汉双语语料库。此外,中国科学院软件研究所、自动化研究所也都研制了有一定规模的英汉双语语料库(桂诗春等,2010)。

汉语树库(tree bank)的建设也取得可喜的成绩。例如,清华大学的TCT树库、台湾中央研究院的Sinica中文树库、哈尔滨工业大学的汉语依存树库、中国传媒大学的中文依存树库、中国科学院计算技术研究所的汉语树库等,这些树库都成了计算语言学研究的重要的语言资源(冯志伟,2007)。

语料库建立之后,如何把 “生语料” 变成 “熟语料”,需要对语料库进行加工,主要包括自动分词、自动标注等。为了推动汉语语料库的深入研究,我国建立了初步的分词规范。1990 年10 月制定了国家标准GB-13715《信息处理用现代汉语分词规范》,这个国家标准提出了确定汉语单词切分的原则,是汉语书面语自动切词的重要依据。在汉语语料库的自动加工中,我国的计算语言学研究取得了长足的进展(Feng Zhiwei, 1995)。

我国在机器词典的建造方面也取得了可喜的成绩。在“七五”期间,北京大学计算语言学研究所建立了“现代汉语语法信息库”,在“八五”期间,北京大学计算语言学研究所把这个信息库进一步扩充为机器可读的《现代汉语语法信息词典》,中国人民大学语言文字研究所从1990年开始对于现代汉语常用动词的3000多个义项进行格关系(case relations)的描述,编制了《动词大词典》和《现代汉语动词大词典》,清华大学计算机系和中国人民大学语言文字研究所联合研制了《现代汉语述语动词机器词典》。这些成果是我国计算语言学研究十分宝贵的语言资源(冯志伟,2001;刘根辉,2005)。

在信息时代,如何把汉字输入输出计算机,成为我国计算语言学的关键性问题。

我国在20世纪60年代末期就开始对汉字信息处理进行探索和实践,1968年研制成汉字电报译码机,70年代中期明确提出“汉字信息处理系统”的研究课题,叫做“七四八”工程。1978年以来,中国开始广泛应用大规模集成电路存储器和成套的微处理机芯片,为汉字输入计算机提供了物质条件,研制成了一些新型的汉字输入输出设备,并配制成各种应用系统。汉字信息处理的研制成果已经在中国的现代化建设中发挥着重要作用(冯志伟,1997b)。

当时的汉字输入方法大致可以分为六类:编码输入法、整字输入法、拼音-汉字转换法、印刷体光学输入法、手写输入法、声音输入法等。这里着重谈谈编码输入法。

所谓“编码输入法”,就是给汉字规定一种便于计算机识别的代码,使每一个汉字对应于一个数字串或符号串,从而把汉字输入计算机(冯志伟,1997b)。

学者们提出的汉字编码方案已有近千个,其中上机通过实验和已被采用的编码方案也达数十种之多。这些汉字编码方案大致可以分为四种:

■ 形码:根据汉字的字形来进行的编码。如笔形编码法和五笔字形编码法。笔形编码法在笔画层进行编码。这种方法把汉字的笔画分为一(横)、丨(竖)、 丿(撇)、 丶(点)、 ┒(折)、 ┗(弯)、 ×(叉)、 □(方)八类,分别用1、2、3、4、5、6、7、0等数字来代表,横、竖、撇、点为单笔,折、弯、叉、方为复笔。汉字代码是不等长码,最大码长为9码。五笔字形编码法在部件层进行编码。这种方法把汉字分解为部件,并把汉字的部件归并为664个,进行部件的优选,合理安排部件在键盘上的布局。平均码长为4码,使用高频字简码和词汇码后,平均码长缩减为2.8码(冯志伟,2001)。

■ 音码:根据汉字的读音来进行编码。音码一般以汉语拼音方案为根据,汉语拼音方案已有50多年的历史,1982年成为国际标准,国际标准号是ISO 7098,2015年进行修订,国际标准号是ISO 7098:2015。由于汉语拼音方案是以国际通行的拉丁字母字符集以及它们相近的发音为基础制定的,有利于国际交流。采用音码最大的困难是区分同音字的问题。汉字的音节不计声调共408个,而汉字的数目成千上万,这就必然导致大量的拼音同音字的出现,一个音节对应于很多汉字,汉语音节的歧义指数(ambiguity index)很高。现有的音码方案都把区分同音字作为主要的研究目标。例如采用以词定字的方法,根据汉语拼音正词法规则,在计算机中存储双音词和多音词数万个,按词输入,以词来定字,从而减少了重码(冯志伟,2001)。

■ 形音码:这种编码法基本上立足于字形分解,把字分解为部件和笔画,统称为字元(element),各个字元又通过它们的读音来帮助记忆。

■ 音形码:这是一种以音为主,以形为辅的编码,利用字形来区分同音字(冯志伟,,1997b,2001)。

在20世纪70-80年代,汉字编码的研究出现了“万马奔腾”的局面,为了促进汉字编码的研究更加健康地向前发展,对已有的汉字编码方案进行了评测,以便优选出最佳的汉字编码方案。目前,拼音-汉字转换法已经成为最普遍的键盘汉字输入的方法,它逐渐地代替了形形色色的汉字编码输入法。汉字输入在手机通信中也得到了广泛的使用和普及(冯志伟,1997b)。

汉字输出也是汉字信息处理的难点之一。为了解决这个难题,“七四八”工程把能够输出高质量汉字的汉字照相排版编辑系统作为重点攻关项目。经过20多年的艰苦奋斗,取得了令人瞩目的成就。中国已经以计算机激光汉字编辑排版系统全面地改造了传统的铅字排版,在印刷技术上结束了“铅与火”的时代,计算机激光汉字编辑排版技术在推广应用上达到了普及的程度,中国自行研制的计算机彩色制版系统(冯志伟,1997b)已成为商品推向市场(冯志伟,2019)。

随着计算机汉字输入输出问题的解决,我国的汉字信息处理技术得到了多方面的发展,我国在汉字信息压缩、汉字自动识别、汉字信息通讯等多项技术上,也取得了显著的成就。

我国的汉字识别研究独具特色,采用选取汉字特征点和数学形态学的方法来提取汉字的结构特征,在印刷体汉字识别方面,我国已经研究出一批实用化、商品化的系统(冯志伟,1992)。这些系统一般都具有版面分析、文本识别、识别结果后处理、自动纠错、自动编辑、自动输出等功能。在手写体汉字识别方面,识别率已达到商品化的水平(冯志伟,2001)。

我国在语音自动处理的领域也取得了很大的成绩。1999年6月9日成立的安徽科大讯飞信息科技股份有限公司(简称“科大讯飞”)是一家专业从事智能语音及语音技术研究、软件及芯片产品开发、语音信息服务的国家级骨干软件企业。科大讯飞在语音技术领域是基础研究时间最长、资产规模最大、历届评测成绩最好、专业人才最多及市场占有率最高的公司,其智能语音核心技术代表了国际的最高水平(冯志伟,2018)。

语音自动处理技术实现了人机语音交互,使人与机器之间沟通变得像人与人之间沟通一样简单。使用语音合成技术可以让机器说话,使用语音识别技术可以让机器听懂人说话。语音自动处理技术的应用空间是非常广阔的。

计算语言学不仅有着重大的学术意义,而且,它对社会经济的发展也有着现实的或潜在的经济价值。我国政府对于计算语言学非常重视,投入了大量的经费(冯志伟,2009a)。

在国家重大基础研究发展计划973项目中,1999年至2003年国家科技部首批立项的重大基础研究发展规划项目“图像、语音、自然语言理解与知识挖掘”将计算语言学列为重要的研究内容。2004年国家科技部重大基础研究发展项目规划“数字内容理解的理论与方法”再次将计算语言学作为重要内容(冯志伟,2009c)。

国家863计划也投入了大量的资金用于计算语言学的研究。2002年的重大项目 “奥运多语言智能信息服务系统关键技术及示范系统研究” 突出以人为本的信息服务,通过网络手段对各国记者和观众提供综合、全面、多语种、可定制的信息服务,从而通过 “科技奥运” 实现了 “人文奥运” 的目标。

国家自然科学基金委员会也支持计算语言学的研究,先后设立了重点项目、一般项目和青年基金项目,研究范围不仅涉及到汉语、蒙古语、藏语、维吾尔语等语种的语料库建设和语义分析等基础问题,还涉及到文字输入法、机器翻译、自动文摘等应用问题,对自然语言的词汇、句子、语义、篇章等方面进行了有效的探索(冯志伟,2009b)。

国家哲学社会科学规划办公室也立项支持计算语言学的研究,设立了相应的社会科学基金研究项目。2003年立项的 “计算语言学方法研究”,总结了国内外的计算语言学方法,使之系统化,理论化,具体化(冯志伟,2010)。

可以看出,国家对于计算语言学的大力支持,促进了我国计算语言学的发展。国家在我国计算语言学的研制和发展中,起了举足轻重的作用。

目前,我国的计算语言学研究已经取得了显著的成绩。语料库技术得到了充分的发展,建立了一批具有重要影响的语言资源库,面向信息处理的汉语基础研究有了长足的进展,理论成果初见成效,应用技术开发蓬勃发展,产业化进程硕果累累(冯志伟,2009c)。

我国开发的这些语言资源库和自然语言处理系统中,部分技术已经达到或者基本达到实用化水平。例如,机器翻译系统、智能问答系统、各种类型的汉语语料库、汉字输入系统、汉字激光排版系统、搜索引擎等。

许多新的研究方向不断出现,在实际应用的驱动下,自然语言处理技术不断与各种新技术相结合,开发出越来越多的实用技术。例如,网络内容管理和监控的研究,不仅与自然语言处理技术有关,而且与网络技术、情感计算、图像理解等技术有关;语音自动翻译技术涉及到机器翻译、语音识别、语音合成、语音通讯等多种技术(冯志伟,2009b)。

由于现实的自然语言极为复杂,不可能直接作为计算机的处理对象,为了使现实的自然语言成为可以由计算机直接处理的对象,在计算语言学众多的应用领域中,我们都需要根据处理的要求,把自然语言的计算机处理抽象为一个“问题”(problem),再把这个问题在语言学上加以“形式化”(formalism),建立语言的“形式模型”(formal model),使之能以一定的数学形式,严密而规整地表示出来,并且把这种严密而规整的数学形式表示为“算法”(algorithm),建立自然语言处理的“计算模型”(computational model),使之能够在计算机上实现。在自然语言处理中,算法取决于形式模型,形式模型是自然语言计算机处理的本质,而算法只不过是实现形式模型的手段而已。因此,这种建立语言形式模型的研究是非常重要的,它应当属于计算语言学的基础理论研究(冯志伟,2009c)。

由于自然语言的复杂性,这样的形式模型的研究往往是一个“强不适定问题”(strongly ill-posed problem),对于这样强不适定性问题的求解,应当加入适当的“约束条件”(constraint conditions),使问题的一部分在一定的范围内变成“适定问题”(well-posed problem),从而顺利地求解这个问题(冯志伟,2014)。

计算语言学是一个多边缘的交叉学科,因此,我们可以通过计算机科学、语言学、心理学、认知科学、人工智能、生物学等多学科的通力合作,把人类知识的威力与计算机的计算能力结合起来,给计算语言学的形式模型提供大量的、丰富的“约束条件”,从而解决计算语言学中的各种困难(冯志伟,2017)。

法国著名数学家 J. Hadamard(阿达玛)曾经说过:“语言学是数学和人文科学之间的桥梁”,今天,我们可以进一步说:“语言学是自然科学、思维科学和人文科学之间的桥梁”。古老的语言学已经改变了它在整个现代科学体系中的地位,正在成长为一门带头的科学(冯志伟,2007b),成为现代科学技术研究的一个热点,计算语言学也成为了人工智能技术的语言学支撑,成为了人工智能研究中的一个举足轻重的学科。

由此可见,中华人民共和国成立70年来,我国计算语言学取得了辉煌的成就。展望未来,任重道远,我们还要继续努力。



说明:

1. 因平台版式及编辑需要,本文未加原文英文摘要、关键词及参考文献等内容,具体可参考期刊原文。


2. 本公众号推文皆经授权,未经授权不得转推。

转载编辑:应用语言学研习

公众平台审核: 梁国杰

科研助力

2021年度国家社会科学基金后期资助暨优秀博士论文出版项目申报公告

第五届社会科学研究方法暨学术创新高峰论坛——新思维与新方法

一文讲清后期资助项目(国家社科&教育部社科后期资助项目)


文献延伸阅读(研习人指引)

本平台友情整理相关文献索引链接,

欢迎感兴趣的朋友按需选购。





精选推荐

点击左下方阅读原文,发现更多语言学好书!

扫码即享限时优惠价:51.84元

扫码即享限时优惠价:45.3元


第五届社会科学研究方法暨学术创新高峰论坛——新思维与新方法



一文讲清后期资助项目(国家社科&教育部社科后期资助项目)


推荐阅读:
汉语国际教育怎么办?大咖云集出谋划策(李宇明、刘利、王甬、吴应辉、王辉……)
重磅上市 |《国际中文教育中文水平等级标准》及解读本正式出版!
一文讲清后期资助项目(国家社科&教育部社科后期资助项目)
北京外国语大学2021年秋季博士后招聘公告
免费获取英文电子书和文献资源的30个网站
黄国文:思政视角下的英语教材分析
文秋芳 | 大学外语课程思政的内涵和实施框架
文旭 | 语言学课程如何落实课程思政
外语专业课程思政的本、质、量
预告 | 南京大学119周年校庆人文社科高端系列讲座
第五届社会科学研究方法暨学术创新高峰论坛——新思维与新方法

在线公益论坛 | 线上线下混合式教学:理论与实践(复旦新学术承办)

预告 | 5月14日-21日语言文学类讲座/会议/论坛资讯

重磅英文讲座︱北外外国专家系列文化讲座大预告
预告 | 5月15日-24日新增19场讲座资讯
申丹丨关于修辞性叙事学的辩论:挑战、修正、捍卫及互补
吕叔湘王佐良等中外名家谈汉诗英译《因韵、因形害义——许渊冲先生误译丛谈(十八)》
【会议通知】第六届中国生态语言学战略发展研讨会
北京外国语大学世界语言博物馆藏品征集启事
2021年度国家社会科学基金后期资助暨优秀博士论文出版项目申报公告
会讯 | 博雅大学堂——第十届全国高校语言学学术研讨会
会讯 | 第17届功能语言学学术研讨会通知(1号)
邀请函 | 大学英语教学跨文化能力培养研讨会
王俊菊:新文科建设对外语专业意味着什么?
谢维和 | 中国教育发展的“双循环”——从外语教育的讨论说起
CSSCI来源期刊&扩展期刊(2021-2022)目录完整版
赵蓉晖 冯健高 | 区域国别研究视角下的语言能力:地位与内涵
基于文献计量学可视化技术的国内话语分析研究热点与主题演变
【征稿通知No.1】2021(第17届)语言智能教学国际会议(北外、南航联合承办)
《文史哲》主编王学典:治学的功力与见识
写好的唯一办法:每天都写!
张耀庭:语篇衔接与连贯的缺省语义学阐释
北大中文核心期刊投稿方式大汇总(最全版)
校友会2021世界一流大学建设高校排名!
2021中国高校国家级一流课程数量排行榜
基于文献计量学可视化技术的国内话语分析研究热点与主题演变
全名单!CSSCI(2021-2022)期刊目录与情况分析,增减变化一目了然!
资讯丨CSSCI 2021-2022年扩展版期刊目录(附变动情况)
蔡静 张帅 唐锦兰│我国高校外语教育信息化主要问题调查
《外语教学》2021年第3期目录
王宁:新文科视域下的翻译研究 |《外国语》2021(2)
徐锦芬 | 应用语言学研究的国际动态与前沿分析
王克非 | 翻译研究拓展的基本取向
《外国语》| 傅敬民 刘金龙:中国特色应用翻译研究的特色问题
2021新增 9 本语言学类SSCI期刊 | CorpusTalk
国内最有代表性的17个语料库介绍
涨知识 | 世界语言文字知识知多少?
刚刚,2021 QS美国大学排名发布!
冯志伟先生讲座讲稿:词向量与语言学
会讯 | 第二十届中国认知语言学国际论坛日程(1号公告)
预告 | AI & Cognition Lab 人工智能与认知实验室2021年春季8场讲座
会讯 | 第三届中国外语教育高峰会议(5月27日)
2021年度国家社会科学基金后期资助暨优秀博士论文出版项目申报公告
语言学联合书单 | 外教社语言学图书年度盘点
语言认知科学国际学术研讨会(CLCS-1) 通知(第1号)
《外语教学与研究》2021年第3期目录和摘要
语言学家伤口撒盐:王冕死了父亲
秦丽莉等 | 生态给养视阈下英语知识内化机制构建——基于课堂展示活动
刘乐宁 | 美国外语教学委员会外语教学标准与《国际中文教育中文水平等级标准》的互鉴和互补
重磅 | 2020中国高被引学者榜单出炉,外语界有这些学者上榜
语言学、外国文学、中国文学CSSCI (2021-2022) 源刊目录及官微汇总
语言腐败的类型/表现形式
干货 | 228所高校学报投稿邮箱+472本社科领域经典文献!
重磅丨2021软科中国语言类大学排名出炉(附中国大学完整排名)
重磅 | 语言学CSSCI(2021-2022)来源期刊投稿方式大全
会讯 | 首届“国家翻译能力:理论建构与实践探索”学术研讨会
胡键丨语言、话语与中国的对外传播
荐书 | 德古意特认知语言学研究丛书+应用丛书(13种)
王文斌 柳鑫淼:关于我国外语教育研究与实践的若干问题
首批国家级一流课程案例分享及评审标准
数说 | 国家社科思政专项2020年立项题目和2021年选题指南
胡壮麟:吾师韩礼德先生的为人和治学 | 纪念著名语言学家M. A. K. Halliday
黄国文 | Halliday的系统功能语言学理论与生态语言学研究
新书推荐 | 穆雷 等著《翻译学研究的方法与途径》
《当代语言学》2021年第2期目录
何宁 王守仁 | 高校外语专业学生外语运用能力的培养
抗击新冠疫情语境中的新语用现象
译者 | 林语堂翻译经验:“之乎者也”怎么译?
刘英凯 | 论中国译论的潜科学现状
许渊冲:翻译让中国文化走向世界 | 中国外文局
中国国家治理话语体系的构成与演化:基于语词、概念与主题的分析
文旭 | 大数据时代的认知语言学展望
新书 | 文秋芳著《产出导向法:中国外语教育理论创新探索》
会讯|第十二届中国认知语言学研讨会征文【一号通知】
冯志伟 | 神经网络、深度学习与自然语言处理
访谈视频 | Dan Jurafsky:AI 如何改变我们对语言的理解
徐赳赳 | 篇章语用研究70年
胡钦谙 顾曰国 | 计算语言学研究70年
王灿龙 | 现代汉语句法语义研究70年
刘海涛 | 数据驱动的应用语言学研究
刊讯 |《现代外语》2021年第3期目录
刊讯 |《现代外语》2021年第4期目录及摘要
《外语与外语教学》2021年第2期目录及文章摘要
许国璋语言高等研究院学术讲堂:2021上半年讲座预告
戴炜栋 胡壮麟 王初明等:新文科背景下的语言学跨学科发展
国家社科基金评审标准解读
“浙大学报”:建议科研人员培养一些庸俗的爱好!
刊讯 |《外国语》2021年第2期目录
陈旸:《论语》英译研究的功能语篇分析途径(黄国文序)
荐书 | 潘艳艳《多模态国防话语的认知批评研究》附:胡壮麟、张辉序
多模态批评话语分析: 理论探索、方法思考与前景展望

张伟年 段宛云等. 多模态话语分析:以“疫情防控外语通”为例

《乔姆斯基教授访谈实录》| 外国语
视频 | 乔姆斯基2021最新演讲:Genuine Explanations
讲座视频 | 乔姆斯基:Language, Creativity,and the Limits of Understanding
陆俭明:为何“人工智能对语言学的研究成果不是不需要,而是用不上”?
视频 | Martin Hilpert:为什么要学习语言学?
国内基于语料库的批评话语分析研究综述
批评话语研究的语境-指称空间模型
新文科背景下的外语教育与外语研究(一)|《中国外语》
何莲珍 胡开宝 胡壮麟|新文科背景下的外语教育与外语研究(二)
梁茂成 刘宏 宁琦|新文科背景下的外语教育与外语研究(三)
束定芳 王文斌 修刚 张辉|新文科背景下的外语教育与外语研究(四)
张天伟 | 我国外语教育政策的主要问题和思考
书讯 | The Routledge Handbook of Cognitive Linguistics 文旭&Taylor主编
冯志伟《现代语言学流派》读书笔记链接
韩礼德 | NEW WAYS OF MEANING: 对应用语言学的挑战
中国英汉语比较研究会教育语言学专业委员会第12届年会(2号通知)
王铭玉 | 语言符号学派行:中国符号学研究
新中国成立以来我国国家形象建构
何文忠:翻译质量差谁之过?
论文该发还得发!224本C刊最新投稿指南汇总
孙疆卫 王立非|Nvivo建模方法在翻译学研究中的应用
100所发布外语类专业研究生调剂信息高校汇总(不仅限于外语类)
刊讯 |《现代外语》2021年第2期目录
刊讯 |《外语电化教学》2021年第1期目录
《外语学刊》2021年第2期目录和提要
前沿 | 2021年度语言文学类学术会议集锦
会讯 | 第三届“美国学与国际研究”论坛预通知
张伯江:功能、语用、认知研究的深化
《中国外语》专号预告|外语课程思政建设
陆俭明 | 汉语研究的未来走向
胡键丨“一带一路”的实践与中国的语言战略研究
高雪松 康铭浩 | 国外语言政策研究的问题和路径
沈骑 | 新中国外语教育规划70年:范式变迁与战略转型
观点汇辑|“国际中文教育”大家谈
回放︱第五届全国高等学校外语教育改革与发展高端论坛
翻译必备 | 最好用的语料库了解一下,没有之一!
郭熙 林瑀欢:明确“国际中文教育”的内涵和外延(外一篇:白紫薇 | 孔子学院转型发展研究)
文秋芳 | 学术英语化与中文地位的提升:问题与建议
《外语教学与研究》2020年总目录
毛浩然:快速入门一个新学科领域的六部曲
视频合集 | Caroline Heycock:生成句法入门(课程共11讲+番外篇)
教育部人文社科研究项目语言学立项趋势及申报建议 ( 2009-2019)
基于普通语言学的当代英语功能分析 (胡壮麟等 序,陈建华等 译)
我们用爬虫和机器学习模型深挖了拜登的对华智库
国际顶级杂志《文体》以特刊形式集中探讨北大申丹教授首创的叙事理论
克里斯蒂娃:《普遍的语言学与“可怜的语言学家”》(龚兆华 王东亮译)
外语教学:国别和区域研究专题 |《外语学刊》
交流 | 盘点设立语言学/应用语言学本科专业的七所中国高校
交流 | 被评为“语言学”一流学科的高校建设得怎么样了?
“语言生活”研究热点︱语言政策与规划研究
科研助力 | (即将)读研究生的你,如何选择研究方法?
观点 | 汉语教学标准与大纲专题
蔡基刚:取消英语主课地位,无异于重新回到闭关自守年代
“不应以任何方式削弱英语教育的地位和价值”——外语界部分知名专家谈“取消英语在中小学主课地位”
北外教授张连仲:“小学开设英语课程是明智之举” 全球化时代英语教育更应加强
取消英语主科、淡化英语考试、削弱英语地位,谁最高兴?
王克非: 新中国翻译学科发展历程
纪念王德春先生逝世十周年暨当代语言学新视野国际研讨会 会议通知(第一号)
《中国小语种教育趋势报告》:在线教育优化供给端,小语种高考机会来临
重磅 | 2020年度全国高校新增和撤销的语言类本科专业名单汇总
会讯 | 第三届“‘一带一路’背景下的汉语国际教育” 国际学术研讨会
盘点 | 中国古代语言文字学名人录
汇总帖丨外文局审定600条新冠疫情相关词汇中英表达
科研贴士 | 如何写好研究计划(Research Proposal)?
乔姆斯基 | Minimalism: where we are now, and where we are going
李宇明:语言与人类文明 | 中国社会科学报
吴勇毅:国际中文教育“十四五”展望
张辉 张艳敏 | 批评认知语言学:理论源流、认知基础与研究方法
刘英凯:试论奈达“读者反应”论在中国的负面作用(修订稿)
盘点 | 各学科C刊 2021年重点选题方向汇总!(来源:人大复印报刊资料)
文科生可以学会的Python——雷蕾《基于Python的语料库数据处理》
2020人大复印资料语言学·文学类最受欢迎文章集萃
李葆嘉:西洋汉语文法学三百年鸟瞰 | 华东师范大学学报(哲社版)
近五年国家社科基金年度项目 语言学立项名单一览
译词 | 64个跨文化核心词(含中英释义)
黄友义:疫情之后看外语和翻译的多与少 |《中国外语》
乔姆斯基:语言学的“当时”和“现在”
陈平:语言交叉学科研究的理论与实践
陈平 | 交叉学科教学与研究:做什么,怎么做?
吴应辉 梁宇:交叉学科视域下国际中文教育学科理论体系与知识体系构建
吴应辉:汉语国际教育面临的若干理论与实践问题
多模态视野下的国家媒介形象:概念与特征 | 中国社会科学报
刘英凯:归化——翻译的歧路
交流 | 那些隐藏在高校“文学院”中的“自然语言处理”专业
李晨阳:关于新时代中国特色国别与区域研究范式的思考
推荐 | 第二语言教学法主要流派全收录(值得收藏)
国外语言学学科眼动研究: 现状与前瞻( 1934-2020)
沈家煊:“能简则简”和“分清主次”——语言研究方法论谈
李强:关于区域与国别研究方法论的思考
神经语言学国际热点与趋势的科学知识图谱分析
姜望琪:Halliday的语篇衔接理论 |《语篇语言学研究(第二版)》
重磅 | 2020中国学术期刊影响力指数及影响因子排行榜(语言文字)
【高端笔谈】外国语言文学学科高质量发展的路径
邢向东:论语言研究中的问题导向
国内生态学视角外语教学的特征和趋势 ——基于CiteSpace的可视化分析
干货 | 国家标准:公共服务领域英文译写规范(附电子版下载)
冯志伟:当前计算语言学发展的几个特点 | 中国社会科学网
重磅 | 2020中国学术期刊影响力指数及影响因子排行榜(语言文字)
世界语言谱系及语种概览 | 语言学微课堂
陈平 | 理论语言学、语言交叉学科与应用研究:观察与思考
徐锦芬 曹忠凯:国内外外语 /二语课堂互动研究
韩晔 高雪松 | 国内外近年线上外语教学研究述评:理论基础、核心概念及研究方法
近十年国际语言政策与规划研究热点与趋势——基于Scopus数据库的可视化分析
中国英语教育四十年反思及其对新文科背景下英语专业建设的启示
海外中国学研究机构名录一览表(2020年版)
干货 | 3000个常见公共场所英语标示!(国家英文译写规范)
李宇明 郭熙 周洪波 | 中国语言生活研究十五年
讲座视频 | 沈骑:后疫情时代的国家话语能力规划
语言专业师生必看的10部电影(附观看链接)
大汇总 | 第1 - 10批推荐使用的外语词规范中文译名(附Word版下载方式)
文秋芳教授:中国外语教学70年,未来道路究竟向何方?
书讯 | 利奇《语用学原则》中译本出版
精选 | 应用语言学研习丛书(13种)一览:回顾经典 分析热点
束定芳:大学英语教学与国际化人才培养 |《外国语》2020年第5期
陈力:西方现代教学理论真的反对语法教学吗?
接触理论:生成语法研究的新进展 | 中国社会科学报
荐书 | 徐烈炯著《生成语法理论:标准理论到最简方案》
合辑 | 双语版《美丽中国》( Amazing China ):1-58集(全)
对外汉语专业常用资料库大全
收藏!76种学术研究必备科研工具
梁茂成 | 语料库语言学研究的两种范式:渊源、分歧及前景
荐书 | 北京大学出版社语言学图书书单
中国访谈丨北京外国语大学校长杨丹:培养跨文化交流引领者
王缉思:浅谈区域与国别研究的学科基础
“国家形象研究”高被引论文排行榜 TOP 10
高雪松 : "人文 vs. 工具" 也许是过去四十年外语教育大辩论中的伪命题
中英文学科、专业名称对照
乔姆斯基:三个讲座,国内少见
视频 | Metaphors We Live By 内容导读 (我们赖以生存的隐喻)
所以,什么是语言学?| 语言学微课堂

扫码关注↑↑↑ 即可获取最新入群二维码!

目前已有2.83万语言文学、区域国别学

研习者关注本公众号

欢迎加入交流群,分享学习,共同进步!

亲爱的研习人,

何不来个点赞、在看、分享三连?!

一个,点亮在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存