查看原文
其他

年前的今天,我拿到了浙大校园卡,正式成为外语学院的一名教师。考虑到再过两年,我可能就要退休了。所以,想在这里简单总结下过去10年做的一些事情。

 

人才培养,特别是高级人才的培养,理应是大学教授的第一要务。我是2008年开始正式挂牌招博士的,2010年来浙大的时候,我在原单位还有5位博士生。为使这些学生不受我调动的影响,尽管没有报酬,我仍指导他们直至毕业。目前,这五位博士都在高校任职,发展情况良好。来浙后,已有12位博士毕业,目前在读9人。不要问为什么会有这么多名额,这是我多年来坚持招收来自西部地区的少数民族学生的结果。令人自豪的是,这些同学,无论来自东部、西部、还是中部,抑或是国外,均已在国内外重要的学术刊物发表了多篇语言研究论文。其中,一名博士获得浙江省优秀博士论文,5名博士生获得浙江大学学生人文社会科学研究优秀成果奖,多人获得浙江大学争创优秀博士学位论文资助,也有多人获得国家社科基金与教育部人文社科项目的资助。在2018319日《科技日报》对我的报道中,有这样一句话“在计量语言学、语言复杂网络、依存语法等领域,刘海涛团队的相关研究多年来均处于国际前沿,在探索语言世界的舞台上亮起了一盏源自中国的‘明灯’”(参看“高被引学者刘海涛:好奇是做研究的源动力”)。如果真的有这盏灯,那么,与我一起点亮并让这盏明灯闪闪发光的人,大多正是我的这些学生。在这里,我要谢谢他们!

 

现代高校,特别是一流高校的实践表明:作为一名大学教授,只有教学是远远不够的,还应做出高水平的研究成果。提到科学研究,大家都知道,好奇与兴趣是科学研究的原动力,这一点很正确,因此也是刚才提及的《科技日报》报道的标题。

 


然而,正如我在本科生《学业指鉴》课程之社会需要与个人兴趣里说的,人不是生活在真空中,要尽可能将兴趣与社会需要联系在一起。换言之,研究方向的选择,在考虑到自己兴趣的同时,也需要考虑这样几个具体问题:是否能解决领域的核心问题?最好的成果能发在什么级别的期刊?是否有使用科学方法的可能?它们关系到这个方向能飞多久、飞多高、有多少人可以一起飞、能不能接力飞的问题,也是关乎学科方向能否做大做强的基本问题。


方向的选择与所处环境也有密切的关系。2002年,我从企业刚调入大学工作时,对于大学对科研项目的热情很不理解。我不明白,研究语言学要项目干什么?如果,研究是兴趣驱动的,是满足你自己好奇心的过程,自己花钱买书买资料,不是天经地义的吗?所以,我最初对于项目申请的事情一直提不起兴趣。直到能招博士以后,学校有次开会说,如果导师没有项目,以后就不能再招博士生了。为此,我在2009年申请了一个国家社科基金项目。记得来浙大报到没几天,学院科研科的丁老师让我申请国家项目,我说我有项目啊,过几天转过来就行了。她说,是重大项目。这时,我才知道国家社科项目还有区别,分为重大、重点、一般等等。可能是我自己的项目太普通,浙大这样的学校有些看不上。我接着问丁老师,学院现在有多少国家社科重大项目,她回答说一个都没有。她也告诉我,重大项目申请有两条路,一是抢别人报的选题,二是自己先报选题,入选后,再投标。鉴于2010年的语言学选题很少,加之自己能力有限,去抢标是不行的,所以只能选择第二条路。于是,我就自己申报了选题。庆幸的是,2011年国家第一次设置了跨学科类重大项目,我所报的课题入选。在经历一系列严格的程序后,最终拿到了编号为11&ZD188的重大项目,这是浙大外语学院的第一个国家社科重大项目,也是浙江大学的第一个国社科跨学科重大项目。我到现在还清楚地记得,立项通知书上的时间是我入职浙大后的第15个月。在课题组全体成员的努力下,该项目已于2016年底顺利结项(免鉴定)。

 

另外一个具有中国特色的东西是各种奖项。对于一个兴趣驱动的研究者而言,这个东西的价值可能还不如项目,因为项目还可以买资料,这个东西有什么用呢?所以,在原单位我对此根本就没有过一丝想法。也是丁老师告诉我,这个东西很有用,而且这些用处,更多的不是个人的,而是集体的,是学科的。听到这,我个人的感觉是,假如你能申报却不申,似乎是坏了大伙儿的好事。所以,我又开始着手申报奖项了。对于我自己所在的学科来说,一般认为有价值的奖就两种,一是各省(市、自治区)的社科奖(一般两年),二是教育部人社奖(一般三年)。我很幸运,在这十年间,赶上了几次浙江省的社科评奖(特别是改革了评审机制的两次),又赶上了两次教育部评奖,加之和学生合作的成果也可以在其他省申报,我们一共获得了12项奖(教育部4项,省级8项)。

 

对我个人而言,项目和奖,纯粹就是为了满足学科建设或社会需要,是不得已而为之的行为。一个集体的人,总得为这个集体做一点事情,否则为什么要不远千里来到这里呢?霍金说,“智能,就是适应变化的能力”。在人工智能时代,具有自然智能的人可能得更努力一些;否则,机器为什么要服务于不如自己的物种呢?

 

无论申请项目,还是申报奖项,必须有可申报的东西做支撑。申请项目,你得有前期成果;申报奖项,更是如此,没有成果,你报什么呢?如何能出成果?出好成果?这又与刚才提到的研究方向的选择有密切关系。来浙大前,我在以下领域有一定的研究:世界语与国际语研究、语言政策与规划、依存语法、计算语言学。其中有些方向,是我从本科二年级时就开始研习的。比如,我在世界语与国际语问题的研究成果,使我在2016年被选为只有45位成员的国际世界语学院院士(Akademiano de Esperanto)。关于我的世界语学习和研究之路,可以参看“我的世界语研究之路”一文。换言之,即使我不改变方向,作为一个大学教授也是可以的,至少不会差很多。但是,世界是变化的,这些方向,虽然有趣,但有一些明显不能满意地回答此前提出的三个问题。因此,我决定将我的主要研究方向转到依存语法、计量语言学、计算认知科学和语言复杂网络。十年过去了,大量事实说明,方向的调整是及时的、正确的。

 

据不完全统计,十年来,我发表了180篇(部)左右的论著。当然,这些论著不可能是我一个人完成的。在近几年,我更愿意以通讯作者的身份出现在文章中。因为,接力飞、一起飞是衡量一个研究方向是否科学,是否可以持续,是否可以壮大的重要指标。在某种程度上,这可能也是智能时代语言学研究的一大特点。从浙大语言学学科发展的角度看,这种研究成果数量的增长也是比较明显的。下图是2000-2020年间,以浙大外语学院为单位发表的SSCIA&HCI收录的语言学文章的变化情况:


从图中可以看出,2010年以前被检索的文章很少,而现在一年就有好几十篇。我们也顺便统计了整个大中华地区同一时段的情况,浙大的语言学论文数位列中国大陆第一,而我本人则位于整个地区作者排名的榜首,这里没有计算我发表在其他WOS类别期刊上的语言研究论文。

 

然而,在学术成果的评价中,数量只是一方面,更为重要的是质量。如果只有数量,没有质量,那这些所谓的成果也只是一种纸上花,对于学科的贡献几乎不大,有时还会产生副作用(分母增大)。关于这个问题,我在《语言战略研究》上有过一篇文章,可参考“中国语言建设两大要务:成果国际化和方法科学化”:

 


由于我们在研究方向的选择时,考虑到了量、质的关系问题。所以,大多数研究成果发表后,都得到了同行的认可与引用,曾有多篇论文入选ESI热点论文与高被引论文。这些引用不仅来自LanguageComputational LinguisticsCognitive LinguisticsLinguistic Typology等语言学名刊,也多次见于PNASNature CommunicationsTrends in Cognitive SciencesBehavioral and Brain Sciences等与认知科学密切相关的重要期刊,还有计算机科学领域极为重视的ACL等会议。我本人也连续六年入选爱思唯尔中国高被引学者2014—2019),这一榜单的初衷是“将最具世界影响力的中国学者呈现给学术界和公众”。


 

2017年出版的《中国人文社会科学国际学术影响力发展报告(2011-2015)》中,编者写到,“浙江大学的刘海涛有14篇论文被SSCIA&HCI收录,远高于语言学领域的其他学者。在浙江大学2011-2015年被SSCIA&HCI收录的35篇语言学论文中,刘海涛的贡献量占了40%。值得注意的是,2006-2010年刘海涛有4篇论文被SSCIA&HCI收录,在语言学论文的发文作者中也是排名第1。为语言学研究做出了突出的贡献,是内地语言学领域的‘旗帜性’的带头人。”

 


显然,在这里只罗列数字是不够的,但要把发表过的180篇论著都介绍一遍是不可能的,也没有必要。下面挑几个有代表性的成果,简单介绍一下。

 

依存语法是人工智能(自然语言处理)领域使用最为广泛的语法理论,目前已有90多种语言的上百个依存树库可供人工智能的研究者使用。但令人遗憾的是,语言学界对依存语法进行严肃系统研究的学者却很少,利用这些树库进行语言研究的学者更是少之又少。这种理论与实践的脱节,是智能时代语言学家遇到的最大挑战之一。我从1988年开始对依存语法进行系统研究,撰写了国内第一部也是目前唯一一部有关依存语法理论的专著《依存语法的理论与实践》。该书2009年由科学出版社出版,截至目前已重印多次,但仍然供不应求,坊间亲切地将这本书称为“蓝皮书”。年初疫情期间,“科学文库”数据库免费开放阅读电子图书后,“蓝皮书”在几万种专业图书中脱颖而出,获得了阅读量第四名的好成绩,是前十名中唯一的文科专业书。为此,科学出版社立即推出该书的典藏版,以满足市场需要(参看《依存语法的理论与实践》典藏版上市!)。


 

为了推动语言研究的科学化,真正将人工智能时代“得语言者得天下”这句话落到实处,我们需要更多的研究者来采用计量的方法研究人类语言。为此,我们编写了世界上第一部《计量语言学导论》(商务印书馆,2017),该书用通俗易懂的语言,介绍了计量语言学的历史、理论与方法,并为初学者指明可以立即展开研究的问题及方向。上市以来,同样得到了读者的欢迎与好评(参看“票圈儿花样晒书集锦”和“一位被计量语言学耽误了的摄影师如是说”)。冯志伟先生认为,“本书用数学的逻辑之美揭示了语言的结构之妙,既有理论上的深刻论述,也有方法上的精巧引导,是计量语言学的入门指导。相信本书的出版,一定会加快我国语言学研究的科学化和国际化进程。”



传统上,计量语言学家的主要任务是发现语言规律,并将这些规律数学化。从科学研究的角度看,这样做是自然的,也是必要的,但这又会导致另一种形式的理论与实践脱节。为此,我们团队在注重理论探索的同时,也开始关注如何用计量语言学的理论与方法来解决一些与语言相关的具体问题,如何将通过一种语言得到的规律扩展到其他语言中。如,中介语的计量研究,翻译过程中译者风格的变化,政治话语的计量分析,文学作品(民歌、诗歌、小说、散文)的计量分析,风格的判别,俄语、德语名词结构的计量分析,法语、日语的句法计量特征分析等。为使研究者加深对计量方法研究最新成果的了解,我们编著了《计量语言学研究进展》一书(浙江大学出版社,2018,参看“书讯|计量语言学研究进展”和“《计量语言学研究进展》前言节选”)。该书与此前提到的《导论》配合使用,可以为研究者打开从入门到进阶的路径,为中国的研究者迅速进入计量语言学研究的国际前沿提供必要的保障。



为了向世界集中展示中国学者的研究成果,我们也在国际知名语言学出版社德古意特(De Gruyter)出版了两本有关计量语言学的英文文集(参看“书讯|Quantitative Analysis of Dependency Structures”)。这两本文集有助于解决语言理论研究与语言应用实践之间的脱节问题,使得语言学家也可以在智能时代做出自己的贡献。值得一提的是,两本文集的作者大多为中国的本土学者,且出版后陆续被ScopusWeb of Science检索收录。

 


走出去的同时,我们也注重请进来,因为二者原本就是相辅相成的。为了让国内同行及时了解当代语言研究的前沿成果,我们也适时与商务印书馆合作推出了应用语言学译丛(参看“应用语言学译丛”主编刘海涛教授访谈录)。本译丛重点介绍语言学的新理论、新方法与新领域,关注语言学与其他学科的交叉研究,注意引介基于数据与实证的语言学著作,使中国的语言学尽快适应大数据时代语言研究的理论与方法,进而推进中国语言学的国际化与语言学的科学化。目前已经出版了《自然语言交流的计算模型》《语言政策导论》《语言研究中的统计学》《英语语法论》《句法计量分析》《语言规划》,另有多本即将出版。

 


计算认知科学(Computational Cognitive Science)是近年来在国际上兴起的采用真实语料和计算方法研究语言与认知问题的前沿领域,它可以将语言学、认知科学、大数据以及复杂系统理论等等联系在一起,形成一种新的研究范式。然而,进入这一领域的前提是,要找到一个可靠的计算指标,以便将文本与认知联系在一起。

 

2006年,在构建并分析大规模依存句法树库时,我们提出一种基于大规模标注语料库的文本认知难度计算方法(依存距离,即,形成句法关系的两个词之间的线性距离),为进一步研究奠定了基础。2008年,我们采用20种语言的真实语料,首次在世界上验证了依存距离最小化(DDM)可能是人类语言的一个普遍特征。这项发表于《认知科学学报》(Journal of Cognitive Science)的创新成果,已成为过去十多年来JCS所有被WOS核心集收录的文章中引用率最高的。

遗憾的是,由于研究过于超前,在当时并没有引起太多人的关注。近年来,由于我们持续不断的研究,这一问题引起了国外学者的关注,已经成为计算认知科学的一个研究热点。除依存距离之外,我在2010年提出的依存方向作为测量语言类型的方法,已被国外的学者命名为Liu-Directionalities(刘-有向性指标),也开始在NLP以及语言相关的领域,显现作用。

近年来,我们发表在国际知名语言学期刊Language Sciences上的两篇文章,分别研究了句子长度和语体对于依存距离和依存方向的影响。目前这两篇文章,已成为2015年以来,LS被引最多的文章(第一、五,WOS)。

 


我们在国际复杂系统专业刊物Complexity上发表的研究,以依存距离最小化作为语言系统的目标之一,通过计算机模拟与真实语料库对比,结果发现,在处理长句的过程中,语言系统会启动一种自适应机制,并产生一种动态的语言单位(即组块),从而实现了依存距离最小化这一人类语言系统的运作目标。这篇文章得到了审稿专家的高度认可,他们认为:

 

 

这进一步坚定了我们对语言本质的看法,即:语言是一种人驱复杂适应系统(Language is a human-driven complex adaptive system)。

 


基于我们团队的这些重要创新性成果,SCI影响因子在生物学与生物物理学两个领域均排第一的国际学术刊物《生命物理学评论》(Physics of Life Reviews)邀请我们为该刊撰写了题为依存距离:自然语言句法模式的新视角的长篇综述(2017)。



该文目前在WOS中被引77次,在Scopus被引73次,是人工智能、计算机科学、物理学等领域的全球高被引论文。在73Scopus引用论文中,39篇艺术与人文学科,39篇社会科学, 28篇计算机科学,24篇属于物理与天文学,19篇农业生物科学,8篇心理学,4篇数学,4篇神经科学,2篇化学, 2篇决策科学,2篇跨学科,2篇工程,1篇生化, 1篇化工,1篇能源,1篇材料。总体来看,该文的引文共覆盖16个学科领域,一定程度上展现了语言学家期待已久的语言学是一门领先科学的场景。

当然,依存距离从来都不仅仅是距离的问题,也不是一个纯粹的学术问题。感兴趣的圈友,可以查找阅读“语言学午餐”公号推送的“中国本土的语言学研究很少受到国际关注,但浙大做到了长篇推文、《浙江大学学报(人社版)》刊发的题为语言学的交叉学科研究:语言普遍性、人类认知、大数据的长篇访谈。有趣的是,时间都过去五年了,这个问题前些日子又在推特上被爆出来了,让人闻到了一点炸药的味道。

 

人类处于一个充满复杂网络的世界之中。因此,用复杂网络方法来研究和考察对人类具有重要意义的语言系统,也成为一个极具吸引力的研究领域。2008年,我发表了自己第一篇有关语言复杂网络的研究论文,提出了复杂网络对语言学家是手段,而不是目标的观点,并用复杂网络方法研究了语体与语言类型等问题。

 

近年来,我们以复杂网络为研究方法,进行了多项创新研究,主要有:

 

考虑到复杂网络与目前人工智能深度学习所采用的方法的同构性,我们的多项研究也已被AI学者所引用。这些极具创新的研究成果不但拓展了复杂网络在人文、社会与生命科学等领域的应用,而且将语言研究与自然科学中的研究前言联系在了一起,有助于从更广阔的视域理解人类及其语言,丰富了语言研究的科学手段与方法,对语言学的科学化具有重要的推动意义。我们在2014年发表的“Approaching human language with complex networks”一文,目前已是语言复杂网络研究领域的重要文献。国际知名语言复杂网络研究者R. Ferrer-i-Cancho博士在评价我们的研究时说“基于语言网络方法,丛与刘正在定义未来的语言学,这种方法正孵育、更新并统一理论语言学”Cong & Liu are defining the linguistics of the future based on a network approach to language that feeds, renews and unifies theoretical linguistics)。

 


作为一名国际世界语学院的院士,我想在这里简单介绍一篇去年发在La Ondo de Esperanto的文章。

 


文章采用计量语言学方法考察了世界语在人类语言中的定位,换言之,就是研究了世界语的类型学定量特征。一个创新之处是,修正、细化了匈牙利学者Bujdosó 2008年发表在同一本刊物上用Zipf曲线的斜率来区分语言类型的结论。我在这里提到这篇文章的目的有二:本文的内容和形式说明,世界语是正常的人类语言;想用一种中立的语言重申语言研究科学化的重要性与必要性,也就是下面这段话:Kiel dirite en la titolo, ni kvante esploros la demandaron. Ĉi tie kvante signifas ke la esploristoj povas ne scipovila lingvon, sed nur uzi sciencajn (aŭ statistikajn) metodojn por analizi la lingvon, kaj poste akiri objektivajn rezultojn. Evidente, tio ne taŭgas por ĉiuj kampoj de lingva esplorado. Tamen la aliro estas ja komuna metodo enmultaj kampoj de scienco. Ekzemple, ni apenaŭ povas vidi sciencistojn en aliaj kampoj, kiuj devas fariĝi formikoj por studi formikojn. Do, kial ĉiuj homoj, kiuj studas la lingvojn, devas scipovi ĉi tiujn lingvojn? Fakte, la nunaj popularaj metodoj en perkomputila lingva prilaborado ne postulas esploristojn kompreni la lingvojn, kiujn ili prilaboras.

 

鉴于我本人在相关领域做出的贡献,多种国际会议、权威刊物与丛书邀请我担任(联合)主编、副主编、编委会以及程序委员会成员,这些都是一个正常的学者应该做的,不值得大说特说。

 

限于篇幅,我们难以详谈我们对于大数据(智能)时代语言研究、语言学交叉(跨学科)研究的看法,好在这方面我们已有不少文章见刊,推荐阅读《新疆师范大学学报》(哲学社会科学版)刊发的论文《大数据时代语言研究的方法与趋向》,《社会科学报》刊发的文章《大数据时代,语言学正在经历一场“革命”》和《浙江大学报》整版介绍我们团队研究的几篇短文:

 


回首过去的十年,我把这一阶段的学术特点概括为:多语种大规模真实语料、交叉(跨)学科研究方法、探寻人类语言普遍规律、学术成果的国际化。当然,这些成果的取得,是与各位老师、同学、同事、编辑、审稿人、评审人、同行、领导的支持与帮助分不开的。没有你们,我将一事无成、寸步难行,谢谢你们。

 

十年,弹指一挥间。回过头来,这十年,除了以上提及的这些作为一个大学教师该做的事情之外,我也拍了不少照片,读了不少《北京文学中篇小说月报》……(更多内容也可以参看浙大官微的介绍“跨界大牛!从国企副总工程师到语言学家,他不仅是社科类‘高被引学者’浙大第一人,还是摄影高手!”)。未来十年,如果还能干十年的话,我希望不再把时间花在报项目、报奖、报销、开会、填表这些事上,而能够自由自主地做一点好奇心驱动的语言研究,把精力放在支持和帮助年轻学者的发展上,放在学科的持续发展上。好在,再过两年,我就六十了,达到了法定退休年龄,可以随时退休。想到这点,心情顿时好起来了。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存