查看原文
其他

冯志伟:我的2020年总结

冯志伟 应用语言学研习 2021-03-16

欢迎点击上方关注我们,欢迎转发此文

感谢冯志伟先生授权“应用语言学研习”发布

点击以下图片可放大查看页面

后附纯文字版,转自“冯志伟文化博客”

冯志伟2020年总结

快到2020年的岁末了,2020年是在疫情中度过的。
2020年1月3-5日,应邀到哈尔滨黑龙江大学参加大数据驱动的语言文化创新研究高端论坛,我在会上致辞中说:
“女士们、先生们,
首先祝贺大数据驱动的语言文化创新研究高端论坛开幕。
今天我们会议的主题是“大数据”(big data)。
大数据这个概念是1997年由美国国家航天局研究院的Michael Cox和David Ellsworth提出的,他们认为大数据是可以进行可视化研究的、数量巨大的科学数据。
美国IBM公司认为大数据具有三个特性:Volume(大规模), Variety,(多样性),Velocity(高速度),叫做三V。
在语言文化研究中,我们也需要数据(data)。
早期研究的数据来源主要是内省(introspection),严谨的学者们提出了“例不过十不立,反例不过十不破”的语言学研究原则,但是这个原则依赖的数据只是10个例子或者10个反例,显然是小数据,是非常不可靠的。在浩瀚无边的数据海洋中,仅仅依靠区区的10个例子或者10个反例就试图决定语言学结论的真伪,显然是不科学的。
早期研究的数据还有一个来源就是“诱导”(elicitation),也就是从书本、词典等第二手材料中或者通过问卷调查、方言调查等方式,诱导出有关的数据,并进一步从数据中推导出结论。这样的方式依靠的数据当然也只是小数据,难免有片面或不完善的地方。
现在我们主张依靠大数据,从大规模的真实文本数据中获取知识,这样的大数据除了具备大规模(large scale)的特点之外,还具有真实性(authentic)的特点,它们都是客观存在的数据,不带有主观性。
进入大数据时代之后,我们获取大数据的方式不再是“内省”或“诱导”,而是“观察”(observation)和“检验”(verification)。
使用这样的大数据来研究语言文化,使我们有可能通过“观察”和“检验”获得客观的知识,这样就大大地避免了主观性和片面性。
所以,大数据驱动的语言文化创新研究是我们认识和研究客观世界方法的重大改变,在方法论上具有重要的意义。
当前在自然语言处理研究中,提倡建立语料库(corpus),使用机器学习(machine learning)的方法,让计算机自动地从浩如烟海的语料库大数据中获取准确的语言知识。就是这种改变的一个重要方面。
互联网的发展日新月异,互联网上有无比丰富的文本语言大数据,其中有结构化的语言数据,也有非结构化的语言数据,互联网是大数据的重要来源,我们应当从互联网上的语言大数据中自动地获取语言文化知识。
这些都是语言文化研究中获取语言知识方式的巨大变化,作为二十一世纪的语言文化工作者,都应该注意到这样的变化,逐渐改变获取知识的手段,从而实现科学创新。
让我们大家一起来进行大数据驱动的语言文化创新研究,祝福大会取得成功。”
这是我研究语言学的深切体会和肺腑之言,我的发言得到与会专家的认同。
会后参观哈尔滨冰雪大世界。零下27度的低温,我在冰雪世界中只停留了30分钟。终究我已经进入望九之年,经不住严寒了。
                  
会后在《外语学刊》(2020年,第1期)发表了:“罗塞塔石碑与机器翻译”的论文,文章中细致地分析了埃及圣书字“托勒密”一词的结构。 
     2020年1月23日,新冠状病毒肺炎COVID-19肆虐武汉,传至全国。
                    
从1月23日开始,由于冠状病毒在中华大地肆虐,感染病毒人数激增,政府号召不出门,勤洗手,戴口罩。只好闭门不出。我们全家响应政府的号召,写了“决心书”:
“只要还有一粒米,
不往人多地方挤;
只要还有一根葱,
不向菜场里面冲;
只要还有一块肉,
超市里面不露头;
只要还有半杯酒,
坚决不忘街上走;
只要还有一口气,
呆在家里守阵地!”
2020年1月25日是春节,也是我和老伴初阳五十年金婚纪念日。摄影留念。
                   
瘟疫蔓延全球,死亡人数超过数千万,这是人类历史的大灾难。
我在家闭门读书其间,完成了《Formal Analysis of Natural Language Processing: A Handbook》(《自然语言处理形式分析手册》)的中文本写作,由中国科学技术大学出版社请中科大的孙蓝教授组织翻译成英文。此书的英文版将由德国Springer出版社在国外出版。
我在此书“序言”中说道:
“本书是一本关于自然语言处理形式分析的手册,对自然语言处理中的各种理论和方法进行了系统的总结和认真的梳理。全书分为两大部分。第一部分是“历史回顾”,回顾了自然语言处理的发展历程,介绍了语言计算的一些先驱研究。第二部分是“形式模型”,以主要的篇幅介绍自然语言处理中的各种形式模型,包括基于短语结构语法的形式模型、基于合一运算的形式模型、基于依存和配价的形式模型、基于词汇主义的形式模型、语义自动处理的形式模型、情境和语用自动处理的形式模型、话语分析的形式模型、概率语法的形式模型、神经网络和深度学习的形式模型、知识图谱。最后在“结语”中,讨论了自然语言处理中的理性主义和经验主义,探索理性主义方法和经验主义方法相结合的途径。”
这是我对于当前自然语言处理研究的看法,我一致坚持把经验主义方法和理性主义方法结合起来,衷心希望学者们不要忘记了数百年来语言学研究的成果,而仅仅依靠语言数据和神经网络的数学计算。这是我一贯的主张。
在2020年2月2日2时2分2秒,我们宅在家中拍了照片,数字表示为20200202020202,这是千载难逢的时间。
               
 2020年4月29日,浙江大学外国语学院邀请我做在线(on line)讲座:“语言学的跨学科研究”,讲座通过钉钉网进行。参加者600人。
2020年5月11日,上海外国语大学语料库研究院邀请我做在线讲座:“机器翻译和它的三种类型:PBMT, SMT, NMT”,讲座通过钉钉网进行。参加者700人。
今年本来计划到德国探亲,早已订好了5月到德国探亲的飞机票,由于瘟疫的影响,汉莎公司停飞,只好退票了,退票手续费200元。
6月3日,我应上海外国语大学语料库研究院胡开宝院长的邀请,写成“双轮驱动的自然语言理解”一文。我在文章中指出:
“我们这一代学者赶上了基于语言大数据的经验主义盛行的黄金时代,在自然语言处理中,我们可以把唾手可得的那些低枝头上的果实采用深度学习(神经网络)的经验主义方法采摘下来,而我们留给下一代的将是那些在自然语言处理中最难啃的处于高枝头上的硬骨头。因此,我们应当告诫下一代的学者,不要过分地迷信目前广为流行的基于语言大数据的经验主义方法,不要轻易地忽视目前受到冷落的基于语言规则的理性主义方法。我们应当让下一代学者做好创新的准备,把基于语言大数据的经验主义方法和基于语言规则的理性主义方法巧妙地结合起来,把从而把自然语言处理的研究推向深入。
目前流行的深度学习(神经网络)的热潮为基于语言大数据的经验主义方法添了一把火,预计这样的热潮还会继续主导自然语言处理领域很多年,这有可能使我们延宕向基于语言规则的理性主义方法回归的日程表。然而,我们始终认为,在自然语言处理的研究中,基于语言规则的理性主义方法复兴的历史步伐是不会改变的,基于语言数据的经验主义方法一定要与基于语言规则的理性主义方法结合起来,才是自然语言处理发展的金光大道。”
这反映出我对于目前大行其道的深度学习的欣喜和担忧。
6月24日在北京外国语大学人工智能与人类语言重点实验室讲课,题目:机器翻译和它的三个类型。我介绍了基于规则的机器翻译(Rule-Based Machine Translation, RBMT), 统计机器翻译(Statistical Machine Translation, SMT),神经机器翻译(Neural Machine Translation,NMT)三种类型的机器翻译的原理和方法。
在网上讲座,听讲人有数千人之多。重点实验室主任顾曰国教授说,“冯志伟是我们的前辈,我们是读他的书才步入在自然语言处理研究的。”这是溢美之词。
7月24日在北京语言大学做视频讲座,题目:“语言与计算机的跨学科研究”,由王志敏教授主持,网上听讲者竟然也有数千人。看来跨学科研究的势头很大。
7月27日在浙江大学德语系做视频讲座,题目:“语料库语言学”,由李媛教授主持,听讲者1000多人。
8月3日、4日、5日,9月1日、2日、3日,受中国大百科全书出版社的委托,中国传媒大学口述历史研究中心王甜老师来家采访,录像时间达20小时。我坦率地介绍了自己的从事语言学研究的曲折过程。
 
            
8月份在美冠塔牙科检查。发现上牙已坏5颗,医生建议修复,尽然用去5万元,这是我5个月的退休金。
9月9日至10月14日应哈尔滨师范大学外国语学院赵秋野院长之邀请,给研究生线上讲授“自然语言与人工智能”课程,授课18节。
10月18日应中国科学院大学高原邀请,在线上给中国科学技术史学会语言文学与科学研究专业委员会成立大会作术语研究与科学进步的主题报告。
10月24日应国防科技大学外国语学院梁晓波邀请,在线上给语言文学与国防讨论会作“当前计算语言学发展的几个特点”的主题报告。
11月开始给大连海事大学在线上“自然语言处理概论”课程,共计32节,12月中旬讲完。
11月17日,复旦大学《雅言》潘佳来访,写成“访问记”在该刊发表。
11月26日在四川外国语大学语言智能学院语言智能大讲堂讲机器翻译问题。
 
              语言智能大讲堂(2020)
2020年发表中文论文8篇:
1. 艾柯文艺阐释学视角下的认知翻译批评模式研究,《外语教学》,2020年,第2期,第41卷,第2期,p93-97。
2. 疾病的命名应遵守约定俗成的原则—突发公共事件语言应急多人谈,《语言战略研究》,2020年,第2期,第5卷,第2期。
3. 罗塞塔石碑与机器翻译,《外语学刊》,2020年,第1期。
4. 我对于“新冠肺炎”译名的建议,《中国科技术语》,2020年,第2期。
5. 基于信息论的汉语结构歧义自动消解研究,与杨泉合作,《计算机应用研究》(增刊),2020年6月,p34-36。
6. 汉语拼音方案之前的拼音探索,《语言政策与规划研究》,2020年6月,第10辑,p12-24。
7. 纪念韦弗关于《翻译》的备忘录发表71周年,《语言战略研究》,2020年,第5期,p97.
8. 面向汉语自动分析的语言特征工程研究(与程勇合作),《鲁东大学学报》,2020年,第5期,p55-59。
尽管面临疫情,望九之年的第一年还是小有收获的。


相关文献延伸阅读(爱书人指南)

敬告:本公号友情提供相关书讯或书目索引链接,

以便爱书人前往第三方平台自行选购




语言学图书精选推荐


推荐阅读:
全名单!国务院学位委员会第八届学科评议组成员高校分布统计
会讯 | 国际韩礼德语言学研究会2020年会(系列活动日程)
教育部人文社科研究项目语言学立项趋势及申报建议 ( 2009-2019)
干货 | 国家标准:公共服务领域英文译写规范(附电子版下载)
教育部高教司司长吴岩:新文科学科没做好,高等教育不能说好
圣杯就在眼前:“现代语言学之父”乔姆斯基的批判与期望
世界语言谱系及语种概览 | 语言学微课堂
陈平 | 理论语言学、语言交叉学科与应用研究:观察与思考
马会娟:中国翻译理论研究回顾与展望
会讯 | 第12届国际语料库语言学会议征稿
会讯 | 国际中国语言学学会第28届年会第一号征文通知
新中国对外汉语教学70年发展之路与未来展望学术论坛(1号通知)
讲座预告 | “中国外语战略研究中心讲坛” 11月学术活动一览
讲座回放 | “中国外语战略研究中心讲坛”10月学术讲座
徐锦芬 曹忠凯:国内外外语 /二语课堂互动研究
韩晔 高雪松 | 国内外近年线上外语教学研究述评:理论基础、核心概念及研究方法
2021 年同济大学外国语学院博士研究生招生专业目录
会讯 | 第一届语言认知科学研究生论坛通知(第1号)
近十年国际语言政策与规划研究热点与趋势——基于Scopus数据库的可视化分析
中国英语教育四十年反思及其对新文科背景下英语专业建设的启示
会讯 | 首届构式语法研究高层论坛(1号通知)
会讯 | 第四届“全国学科英语研究学术讨论会”通知
会讯 | 第六届“全国话语研究高层论坛”征文通知
报告全文 | 教育部高教司司长吴岩:积势蓄势谋势 识变应变求变 全面推进新文科建设
王学典:何谓“新文科”?
新文科建设|新文科建设宣言。
海外中国学研究机构名录一览表(2020年版)
干货 | 3000个常见公共场所英语标示!(国家英文译写规范)
李宇明 郭熙 周洪波 | 中国语言生活研究十五年
中山大学外国语学院常年招聘海内外英才
招聘 | 上海外国语大学招聘教学科研人员及师资博士后
南师大外国语学院、文学院2021年博士研究生招生目录
讲座视频 | 沈骑:后疫情时代的国家话语能力规划
张伟年 段宛云等:战略传播学视阈下特朗普涉华新冠肺炎污名化推特分析
拜登胜选演讲全文 (英文+中文+西班牙语 三语对照)
语言专业师生必看的10部电影(附观看链接)
蔡基刚:应急语言服务与应急语言教学探索
孔子学院:践行《世界文化多样性宣言》的东方典范
王春辉:孔子学院三思 |《国际教育交流》2020年10月(总第126期)
大汇总 | 第1 - 10批推荐使用的外语词规范中文译名(附Word版下载方式)
中国外语院校本科教学质量报告(2019)
《大学英语教学指南》(2020版)发布会隆重举行(含视频回放)
何莲珍:新时代大学英语教学的新要求——《大学英语教学指南》修订依据与要点
向明友:顺应新形势,推动大学英语课程体系建设—《大学英语教学指南》课程设置评注
文秋芳教授:中国外语教学70年,未来道路究竟向何方?
博后招聘|北京航空航天大学外国语学院招收博士后
南开大学外国语学院教职工招聘与人才引进公告(2021版)
重磅 | 2020软科中国最好学科排名出炉(中国语言文学 & 外国语言文学)
书讯 | 利奇《语用学原则》中译本出版
Fodor《心理语义学》:在心灵与语言之间
文秋芳教授早年专访:学习是一辈子的事 | 21世纪英文报
精选 | 应用语言学研习丛书(13种)一览:回顾经典 分析热点
束定芳:大学英语教学与国际化人才培养 |《外国语》2020年第5期
会议征稿 | 面向教育应用的自然语言处理研讨会
陈力:西方现代教学理论真的反对语法教学吗?
接触理论:生成语法研究的新进展 | 中国社会科学报
荐书 | 徐烈炯著《生成语法理论:标准理论到最简方案》
合辑 | 双语版《美丽中国》( Amazing China ):1-58集(全)
文科生可以学会的Python——雷蕾《基于Python的语料库数据处理》
对外汉语专业常用资料库大全
收藏!76种学术研究必备科研工具
梁茂成 | 语料库语言学研究的两种范式:渊源、分歧及前景
麦蒂森论翻译 | 系统功能语言学与翻译研究
干货 | 哲学社科领域有哪些出版项目可以申报?赶快收藏!
冯志伟教授谈计算语言学 | 中国社会科学网访谈
荐书 | 北京大学出版社语言学图书书单
视频 | 听胡壮麟教授讲《语言学教程》那些事儿
中国访谈丨北京外国语大学校长杨丹:培养跨文化交流引领者
戴炜栋 胡壮麟 王初明等:新文科背景下的语言学跨学科发展
戴炜华  吴国玢:论语言学的跨学科研究
大师课程 | 乔姆斯基等:语言,思维和大脑
王缉思:浅谈区域与国别研究的学科基础
21世纪以来中国的太平洋岛国研究:历史、现实与未来
程琪龙:语言研究的超学科意识 |《外国语》2020(2)
语用翻译学——中国文化走出去的出路
申丹 | 西方文论关键词:隐性进程 |《外国文学》2019(1)
视频 | TED Ed:语言进化编年史
吴应辉:汉语国际教育面临的若干理论与实践问题
李建波 李霄垅 | 外国文学和国别与区域的交叉研究:国情研究专家的视角
陈坚林:试论人工智能技术在外语教学上的体现与应用
荐书 | 德古意特认知语言学研究丛书+应用丛书(13种)
外语教学类高被引论文排行榜 TOP 10
语言学类高被引论文排行榜 TOP 10
“国家形象研究”高被引论文排行榜 TOP 10
郭英剑:对英语专业的不当批评,可以休矣
蔡基刚:学术英语? 通用英语? 对学术英语再认识
高雪松 : "人文 vs. 工具" 也许是过去四十年外语教育大辩论中的伪命题
中英文学科、专业名称对照
多位著名专家学者分享英语学习方法
乔姆斯基:三个讲座,国内少见
视频 | Metaphors We Live By 内容导读 (我们赖以生存的隐喻)
多模态话语分析:以“疫情防控外语通”为例
《牛津英语》语法大讲堂(视频全集)
所以,什么是语言学?| 语言学微课堂

扫码关注,即可获取最新入群二维码

目前已有1.98万语言文学、国别区域

研习者关注↑↑↑本公众号,

欢迎加入我们,交流分享,共同学习!

一个,点亮在看


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存