查看原文
其他

花格老刘的2021

刘海涛 计量语言学 2022-12-22

明年,我就到法定退休年龄了。因此,有必要唠叨唠叨今年的事。作为大学教师,做的工作不外乎与教学科研有关。教学就不多说了,每年选课的同学还是不少的,教室也基本都满了,教学材料也与时俱进,上课也很卖力在讲。毕业了几个博士生,其中,王雅琴的博士论文获得了浙江省和浙江大学的优秀博士论文,这也是我在过去五年里第二次获得省优博指导教师的荣誉。

今年发表的科学研究成果有点特色,下面的小结主要围绕这个来说。数量上,我们发了23篇论文,其中:外文12篇,中文11篇。具体的文章信息在我的个人主页有,感兴趣的可以去这里看看https://person.zju.edu.cn/lht。下面我们挑几篇唠叨唠叨。

每个学科都有神刊,语言学也不例外。今天,很多语言学家心目中的神刊可能是Language,但对我来说,是《语言学问题》(Вопросы языкознания,以下简称“Вя)。这是因为我在40年前开始自学语言学时,由于条件所限,能找到的资料大多都是俄语的或者从俄语翻译过来的。记忆深刻的是,那时,我不仅在很多普通语言学的著作中经常看到Вя的名字,而且在我当时感兴趣的两个领域,机器翻译和国际语语言学,也会看到她的身影。要知道,这两个领域,特别是国际语学,在很多主流语言学家的眼里是极不入流的。因此,Вя给我留下的印象很好,这才是一个大牌语言学期刊该有的样子。



后来,我才知道,这份由苏联科学院创办于1952年的语言学刊物,是1950年全苏开展语言学大讨论的结果。了解这次大讨论历史的人都知道,斯大林也亲自参与了讨论,并于1950 6 20 日在《真理报》刊发了文章,后以Марксизм и вопросы языкознания(《马克思主义与语言学问题》)为题出了单行本。



细心的人,看到这里不难发现,Вя这个名字就来自斯大林那本小册子的标题。事实上,正是斯大林的直接参与,使得那时的苏联语言学家们意识到是转变的时候了。于是,Вя应运而生,很快便成为苏联最好的语言学期刊,这种美誉一直延续至今。对Вя历史感兴趣的人,可参看Alpatov 写的“Вя 五十年”,洋洋洒洒31页!


当然,如果你对Вя诞生时期的这段历史有兴趣,我也推荐阅读下面这本《世初有道》。



上面只是背景信息,现在回到正题。如果Вя是个期刊,即便是神刊,刊发文章也是她的本职工作。学俄语的同学都知道,即使是俄罗斯本土的语言学家,要在Вя发文章难度也很大。但难,不等于不可能。雄心易立,壮志难酬,重在坚持。今年,在我的博士生阎建玮与我的共同努力下,我们有关斯拉夫语族语言的研究终于在Вя刊出了。这也了却了我几十年的一个心愿,因为从我40年前开始学习语言学时,就定下了要在Вя发文章的目标。



这篇文章通过对17种语言(其中有13种斯拉夫语族语言)的34个句法标注语料库的统计分析,研究了语言形态复杂度与语序自由度的关系问题。结果表明,形态变化越丰富,语序就越灵活;在同一语族中,语言越古老,形态就越丰富,语序也就越灵活。这个研究的神奇之处还在于,我们自己基本不懂这些斯拉夫语言。按照传统方法,不懂一种语言,你怎么研究呢?这就又回到了,我常说的“上海蚂蚁”问题,你见过哪个研究上海蚂蚁的科学家在搞研究的时候,一定要变成一只上海蚂蚁呢?但这并不妨碍研究蚂蚁的科学家比蚂蚁更懂蚂蚁。在某种程度上,这可能也是判定一个学科是不是科学的一个指标



需要说明的是,Вя至今仍没有被3iSCISSCIA&HCI)收录,但是你拿35篇一般的SSCI,也换不走俺的Вя。同样,也很难换走我们即将在『言語研究』(Gengo Kenkyu) 上刊发的文章。

除了Вя和『言語研究』这样的神刊,语言学的主要分支领域一般都有自己最好的期刊。这种最好不一定意味着被3i收录,也不意味着影响因子最高,但是正如徐烈炯先生在《中国语言学在十字路口》中说得那样,“一旦在上面发了文章,马上整个学术界就认识你了”。Cognitive Linguistics就是这样一类刊物。我们可能是世界上从事认知语言学研究人数最多的国家(没有之一?),但在这个期刊上刊发的文章却屈指可数,原生的研究性论文更是少得可怜。为什么会这样?是方法问题,还是研究对象的问题?我常说,我们在做研究的时候,要回到常识,要回到朴素的起点。比如,我们研究把字句,如果是一项语言学研究,可能就要考虑,一个不懂汉语的瑞典语言学家,怎么才会对你的研究感兴趣?事实上,你研究的是人类语言中某种现象的规律性,研究的发现对人类语言的研究有贡献,把字句只是你研究的(切入)点而已。

因为,我老是拿“一把把把把住”说事,很多人就说,你都没有“把”,怎么知道我们“把”的不易。于是,我们自己也就开始了“把”之旅,希望用亲身经历告诉大家,只要把对地方,把着把着也能走向世界哈,这次的同行者是我的博士生,现任同济大学外语学院助理教授的方昱。



从语言生成的角度看,人类语言是一种一对多的概率系统。也就是说,一个意思可以有多种表达。这就涉及到一个选择问题。这篇刊发在Cognitive Linguistics的文章,基于真实语料,以把字句为例,研究了影响这种选择的10个因素及其关系。通过对计算认知指标依存距离和惊异值的考察,发现由于认知机制的制约,说话者更倾向于选择把字句和主动宾句中认知难度更小的句子。



这是我们从认知计算科学角度对把字句进行研究的一部分,另外两篇分别发表在Language Sciences2018)和Journal of Chinese Linguistics2022)。

当然,数据不仅能解决斯拉夫语的形态与语序问题、考察为什么我们会选择神奇的“把”,更重要的是,它将人类带进了智能时代,甚至把人琢磨人的人文学科也引到了数字的道路上。但遗憾的是,数字人文不是把古籍数字化后放到计算机里那么简单。正如新文科,不是在“文科”前面加一个“新”字一样,数字人文的真谛在于如何将数字(数据)与知识、社会、文化、历史、行为、人联系在一起,以便更科学地发现、解释人类行为的模式及人与社会、自然交互的规律,更精准地预测人类和社会的未来。说到这里,我不知道为什么没来由地想起来,柴门霍夫在世界语第一书封面的那一句话“想让一种语言成为世界语,只那么叫它是不够的”(Por ke lingvo estu tutmonda, ne sufiĉas nomi ĝin tia)。



作为在数字人文的标志性刊物Digital Scholarship in the Humanities上发文最多的中国学者之一,今天,我们要介绍的是在其他刊物上的一项数字人文研究。



Folklore创刊于1878年,无论按照什么指标,都是民俗学领域毫无争议的世界“南波湾”。遗憾的是,在该刊140多年的历史中,几乎没有刊发过研究中国民俗的原生研究论文。那么,数据能不能再一次帮我们创造历史呢?我有一个博士生林燕妮,是奶奶带大的,可能小的时候壮族民歌听多了,对壮族民歌很有兴趣。于是,她收集了一些壮族民歌,建立了一个小型的语料库,考察了与“大米”相关的词语,并以此为引对壮族民俗文化进行了分析讨论。由于对民俗学的套路不熟悉,投稿后,根据审稿人的意见,又几乎重写了两遍。但不管怎么改,数据一直是这篇论文的基础。按照审稿人的说法,这篇论文为计算民俗学的形成做了贡献。需要说的是,林燕妮的博士论文做的是壮语句法计量,期待她更多的成果。

当然,用数据不仅可以探究中国人选择用“把”字的原因以及透过“稻米”的使用来观察壮族人民的习俗,我们也可以用它来追寻语言演化的模式。演化研究,语料选取很重要,我们选的是世界上最早的学术期刊Philosophical Transactions of the Royal Society初创后200年间的语料,采用源于机器学习的统计方法,探究了学术语言的演进历程,并讨论了影响学术语言模式形成的历史与社会文化因素。文章发表在科学计量学(Scientometrics)的一本好期刊上,第一作者是我的博士后孙坤。



数据也有助于进行科学的对比语言学研对比可在语言的各个层面展开,如果要做基于数据的句法层面的对比,平行树库就是一种重要的资源。我的来自巴黎的博士生Rafaël Poiret,现为日本筑波大学助理教授,构建了一个小型的法汉平行树库,并基于该树库进行了一些有趣的探索性研究。文章刊发于可能是对比语言学最好的期刊上(Languages in Contrast)。LiC不是3i期刊,这也许就是我们在这上面很难看到大陆学者发表研究论文的原因?没想到,一个法国人不远万里来到中国,却在LiC发了文章,当然,Rafaël在读期间不止发了这一篇,两年前,我们就合作在 Français moderne发过文章。说起创刊于1933年的FM,那可真是法国语言学的名刊,几乎刊发过所有法国当代著名语言学家的论文。Rafaël和我的那篇文章也是FM上刊发的第一篇和唯一一篇来自中国的论文。



作为一个外国语言学及应用语言学专业的教授或者研究生,除了研究我们自己的母语之外,更重要的是要研究外国的语言,要不然你叫中文系的人干什么呢?我个人一直认为,外国语言学研究成果的出口可能是所研究语言国家的重要学术期刊,比如,研究俄语就去Вя,研究日语就去『言語研究』,研究法语就去FM,等等。本着这个精神,浙大德语的李媛教授跟她的学生们,这两年采用数据驱动的方法,做了不少有趣的研究。



这篇发表在Muttersprache的文章,就是其中之一。Muttersprache创刊于1890年,是一本具有130多年历史的德语语言学名刊。在这本期刊上发表文章的中国学者不少,但针对德语本体的研究却不是很多。我们采用德语依存树库作为资源,研究了德语名词的句法特征。



这项研究用详实的数据,展现了诸多我们过去不是很清楚的名词的句法功能。比如,上图不仅展现了各类名词修饰语在实际使用中出现的频率,也给出了他们与名词的线性距离。每一种语言都有一些自己的特殊之处。学德语的人,一定会对德语的“框架结构”记忆深刻。我们说,框架是常态,但破框也时有发生。那么,破框的几率有多大?什么样的结构更容易破?破了以后怎么办?我们对此也进行了研究。



有趣的是,破框结构的依存距离比有框时小。这可能说明,定式结构有助于降低理解的难度,一般定式被打破,使用者便又启动了依存距离最小化的机制。(德语书面语破框现象是特例吗?

所有这些研究的一个共同的关键词就是“数据”,对语言学家而言,这些数据源于我们日常使用的语言。为什么日常语言能有如此力量?一百年前,现代术语学的奠基人维斯特说过,语言使用是语言演化过程中具有最高权力的立法者(La plej alta leĝodonanto estos la vivanta lingvouzo)。70年前,被罗素称之为“天才人物的最完美范例”的维特根斯坦说过,一个词的含义是它在语言中的用法(Die Bedeutung eines Wortes ist sein Gebrauch in der Sprache)。10年前,基于现实世界的大数据更是将人类推进了智能时代。这个时代的语言学家,作为人类一员,毫无疑问,不管他愿意不愿意,都会受到所处时代的影响,这种影响不仅限于我们享受时代带来的各种好处和便利,也包括时代带给我们的各种挑战。

郑国锋曾经对康奈尔大学语言学系主任惠特曼做过一个访谈。惠特曼认为,语言学理论面临的挑战并不是转换生成语法与认知语言学的竞争,而是语言学理论日益受到计算语言学的挑战。也就是说,语言家没必要内卷,而应该团结起来,共同应对挑战。接下来,惠特曼自己又开始卷了,说形式语法要比认知语言学更有前途。我看了这个访谈后,马上联系了国锋,我说,惠特曼意识到挑战,说明他是一个有良知的语言学家,但他说形式比认知有前途,是应对不了挑战的。

如果真要反思,我们首先需要反思的是这个问题:与此前采用形式规则的研究相比,为什么基于深度学习的自然语言处理技术所取得的结果普遍会更好一些呢?简单来说,为什么语言学家绞尽脑汁发现的所谓规律或形式化的计算模型,一旦放到计算机里面就不灵了呢?是因为这些规律压根不是真正的规律,还是表示规律或知识的形式不适合?亦或是,计算机的智商还比较低,把握不了这些规律的玄妙之处?

也许问题的答案在于,语言本身不是一个非黑即白的二元系统,更像是一个灰色多阶的概率系统。基于日常语言使用数据,我们可以更好地探求语言系统运作的真实规律。而概率性本身就是语言系统的一个基本特征,也是语言学家从花园走向灌木丛遇到的最大挑战。认识不到这一点,只谈挑战,然后内卷,是没有意义的,最后的结果是终将被时代所抛弃。

于是,国锋和我又进行了一次对话(数据时代语言学理论研究的路径与意义)。



数据驱动语言研究的更多内容,可参考下面这篇(数据驱动的应用语言学研究)。



在《语言文字应用》的支持下,我们也组发了三篇与应用语言学有关的文章(繁体字文本真的比简体字文本更复杂吗?;不同水平的学习者二语句法习得规律一样吗?二语者与母语者的动词配价发展规律一样吗?)。



做数据驱动的语言研究,在很多时候,还需要能反映语言特征的可操作的指标。为此,我们也写了一篇专门介绍计算认知科学指标的文章,希望对大家有点用处。


在国锋对我的访谈的最后,我说:“百年未有之大变局”,也为语言学理论研究创造了前所未有的机遇。如果我们没有把握好这次机遇,那么在未来的50年里,我们在语言学领域将继续落后于世界。但现在机会就在面前,我们是继续跟在那些外国人的后面,给他们添加几个汉语的例证,还是回归语言研究者的初心,基于真实的语言材料,发现语言系统真正的运作规律?这是摆在全体中国语言学家面前的紧迫任务,也可能是未来五、六十年里,中国语言学唯一一次超越或者引领世界语言学的机会。

从这个意义上讲,我要特别感谢《现代外语》《语言文字应用》《南京师大学报(社会科学版)》《当代外语研究》等期刊,你们让历史见证了,我们不仅在反思,也在行动。当然,我们希望能有更多的学者和期刊加入这个行列。

尽管从理论上讲,语言学是一门发现人类语言结构模式与演化规律的科学,但从本质来讲,语言是一个人驱复杂适应系统。人驱意味着,语言不仅与人的生物普遍性有关,也与使用者所处的社会、文化以及自然环境有关。今天,城市化、全球化、互联网等因素促成了超越传统地理概念之上的语言多样性,形成了史无前例的语言超级多样性。所有这些因素错综复杂,形成了一幅扑朔迷离的语言图景。在这种情况下,我和我的博士生王亚蓝(现为合肥工业大学外语学院副研究员,注意,是正常的副高职称,不是那种特聘岗位哈)也开始重新关注有关问题,并发表了我们的一些思考(国际通用语发展演变的特点与模式语言国际化的要素可以量化吗?)。

唠唠叨叨,说了这么多乱七八糟的。各位看个热闹就行了,不对的地方就当是一个临退休老人的胡言乱语吧。最后,我想用《中国外语》今年第六期上我那篇《国家安全视域下的语言问题》的最后一段话来结束这个有些乱的年终小结:

我们正处于新时代“百年未有之大变局”中,上一次的百年变局,是中国人的觉醒年代,这一次的百年变局,是中国人的腾飞时代。一百年前,觉醒年代,语言曾经扮演过重要的角色;一百年后的今天,人类的发展同样离不开语言,如何与时俱进,直面人类社会史无前例的语言超级多样性引发的种种问题,是摆在语言学家面前的迫切任务

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存