查看原文
其他

书讯 |《依存关系与语言网络》独家访谈

牛若晨 计量语言学
2024-09-03
小编按:随着数智时代的浪潮席卷全球,语言学迎来了新的机遇和挑战(数智时代语言研究的挑战与机遇)。一方面,多语种的大规模语料库使得基于数据和实证的语言研究成为可能,这些新的材料和方法有助于解决传统方法难以解决的问题;另一方面,学科鸿沟的存在,特别是文科背景的语言研究者对处理大规模数据的畏惧,阻碍了语言学更好地服务于科学进步和社会发展。

自2006年以来,基于大规模真实语料和交叉学科方法,刘海涛教授与其合作者对人类语言在诸多层面的共性及特性展开了系统研究,相关成果大多发表在国际知名的学术刊物上。自2014年起,刘老师连续八年入选“中国高被引学者”。正如《科技日报》所评论的那样:“在计量语言学、语言复杂网络、依存语法等领域,刘海涛团队的相关研究多年来均处于国际前沿,在探索语言世界的舞台上亮起了一盏来自中国的‘明灯’(学术访谈|刘海涛教授:好奇是做研究的原动力)。”

近年来,刘老师一直在思索如何让更多国内的语言研究者认识和了解“数据驱动”的语言学研究方法、更好地参与中国语言学的科学化和国际化,《依存关系与语言网络》因此应运而生。该书精选了刘老师及合作者近二十年的研究成果,较为系统、全面地展示了以大规模依存树库为基础,围绕语言的线性结构和网络结构对语言这一“人驱复杂适应系统”所做的探索。其中包括已在相关领域得到广泛认可的“依存距离最小化”(Dependency distance minimization)和“刘-有向性”(Liu-directionality)等。在本书即将出版之际,我们有幸邀请到刘老师就相关问题展开一次对话。

访谈时间:2022年8月20日;访谈地点:腾讯会议;访谈主持人:牛若晨(以下简称“牛”);访谈嘉宾刘海涛(以下简称“刘”)。

牛:刘老师好,很高兴您愿意在《依存关系与语言网络》面世之际与我们进行一次互动。接下来,我将作为读者代表就大家关心的问题向您提问。据了解,这本书是您在科学出版社的第二本专著了。第一本《依存语法的理论与实践》自2009年出版后,受到一致好评,被读者亲切地称为“蓝皮书”,2020年时还推出了典藏版(书讯|《依存语法的理论与实践》典藏版上市!)。您能不能跟我们谈一谈,这本新书与之前的蓝皮书有什么相似和不同之处呢?

刘:整体来说,蓝皮书主要是对依存语法的历史进行回顾,并且提出了一种基于真实语料开展语言研究的方法,而即将出版的《依存关系与语言网络》则展示了近十五年来我们团队沿着这条路径产出的主要创新成果

我是在二十世纪八十年代接触到依存语法的,当时许多相关文献主要以小语种发表。在接触之后,我发现相比其他以内省方法构建理论为目的的语法而言,依存语法特别适合解决与语言相关的实际问题。比如说语言教学以及计算机处理语言,这两个都需要基于真实的语言材料。在更深入地了解依存语法之后,我意识到许多语法理论其实都有依存的元素,于是便开始从计算和形式的角度整理依存语法的文献。这些主体工作在2005年左右完成,构成了蓝皮书的主要内容。因此,蓝皮书的关注点是依存语法的历史,包括它在理论语言学以及计算语言学领域的历史,是一本继承传统、追溯历史的专著。

当然,在蓝皮书中我们也尝试做了一些探索性工作,比如在传统的配价理论中加入概率的因素,提出了“概率配价模型”。最重要的是,在蓝皮书的最后一章,也就是第八章,我们提出了一种新的研究路径,即使用具有依存句法标注的语料库(依存树库)开展语言研究。这在当时是很超前的,因为树库最初是计算语言学家让计算机学习人类语言知识的材料,几乎没有人用它来做语言研究。从这个意义上讲,蓝皮书也可以看作是一本展望未来的书。

在过去十五年的时间里,我们沿着蓝皮书第八章提出的新路径坚持了下去,围绕依存树库进行了更多的探索,这些成果主要就汇集在这本新书当中。因此,新书的内容也可以说就是蓝皮书中所展望的未来。

牛:原来这两本书有这么深的渊源。我们注意到,新书中的大部分研究都发表在国外期刊上。我很好奇,当时您有了研究发现之后,为什么会选择在国外首发、现在为什么又重新整理成汉语专著发表?
刘:这个问题其实我在后记中也提到了。当时我们将论文发表在国外期刊的主要原因是,在十几年前,你很难将数据驱动的语言研究发表在国内期刊上,无论是语言学还是其他学科的期刊。

我们研究采用的方法,与传统语言学相比,更具有跨学科的意味。当时,国内大部分期刊还认识不到这类研究的意义和价值。我们也试着投过国内期刊,大多都是不成功之后才将眼光转向了国外。

但是,即便对于国外的语言学期刊来讲,当时我们采用的方法也是超前的,为此只能将一些论文投稿到跨学科的期刊上。我们常说,语言学是发现语言规律的学科,而物理学是发现万物规律的一个学科。重视“规律”是这两个学科的共同点所在,因此我们的一些论文就发表在国际上的一些物理学期刊上。当然,这样的发表之路也是很难走的。但是,当你认为这样的研究是一种未来的趋势、你的发现能够扩充人类知识体系的时候,就要排除万难,将成果第一时间发表出来,无论是以哪种语言。十几、二十年过去了,事实证明当时的选择也是正确的。特别是,看到中国学者在数智时代的国际舞台上能超前发出一些声音,我们还是挺欣慰的(浙大十年花格老刘的2021

当然,当时也有一些国内期刊意识到了交叉学科研究的意义。比如,国内最好的期刊之一《科学通报》就发表过四篇我们的文章。

再来说为什么要把这些文章整理成专著发表。在我们研究跨越的十几年间,最大的变化就是人类进入了数智时代,即一个由数据催生的智能时代。我们说,人类的智能如果没有语言,就是不完整的。经过几代的发展,现在的人工智能比早期好,主要原因就是数据驱动。因此,语言学要为数智时代做出贡献,很可能就需要关注一些基于数据和真实语言材料的成果。这样不仅可以更好地解释当今人工智能系统处理语言的机制,也可能更好地服务于人工智能系统的构造(数据驱动的应用语言学研究)。

但是,过去十几年国内的数据驱动语言研究相对较少。因此,如果能将我们过去基于依存树库的一系列探索成果整理成汉语,可能是有益于国内读者的。专著和论文不同,所以在选择文章时,我们也主要考虑那些经过时间检验的成果。换句话说,一些论文在发表之后,具有较高的引用率,在学界也已经逐渐被大家认可,这样的研究才会被收录到专著里去。

牛:可以看出刘老师对专著内容的选择还是非常用心的。那么,从书的标题中可以看出,这本书由两部分构成——与依存关系及与语言网络有关的研究。许多读者对依存语法和复杂网络都不是很熟悉。您能不能先向我们介绍一下什么是依存语法,并简要概括下书中与依存语法相关的主要研究发现呢?

刘:依存语法是一种关注词间关系的句法分析方法,它认为句子结构是由词和词之间的关系构成的。

以“他有三本书”这个句子为例:“他”和“有”之间是主语关系,“有”和“书”之间是宾语关系,“本”和“书”之间是修饰关系。一般来说,依存关系有三要素:一是二元性——两个词之间;二是不对称性——两个词中一个是支配词、另一个是从属词(比如“书”就是“本”的支配词);三是标记性——句法关系类型(如主语关系)。通过这样的分析,我们就可以得到一个句子的依存树图。依存句法学家认为,理解一个句子其实就是得到它的依存树图,也就是句内词间关系。

借助依存树库,我们的研究发现主要与两个指标有关。首先是依存距离。它指的是两个有依存关系的词之间的线性距离。假设我们按照出现顺序对句子中的词进行编号,那么“三”和“本”就是3和4,它们之间的依存距离就等于1(= 4 - 3)。通过研究,我们发现一个自然的、符合语法的句子,它的平均依存距离是比较小的,这个现象后来被称为“依存距离最小化”。这是因为依存距离实际上反映了人类处理语言时的工作记忆负载——因为工作记忆容量有限,所以出于省力原则,人们会尽可能地让一个词和它的支配词靠得比较近。换句话说,依存距离最小化体现了人类认知对句子结构或模式的限制。

另一个是依存方向。刚才我们也提到,在两个有依存关系的词中,一个是支配词,另一个是从属词。而依存方向指的就是一个词和它的支配词出现的相对位置,可以分为支配词置前和置后我们基于多语种、大规模依存树库的研究发现,存方向的分布可以对语言进行分类。这个分布是一个介于0到1之间的连续统,根据这一概率参项,类型相似的语言会在连续统上聚集。这一发现后来被外国学者称为“刘-有向性”。刘-有向性的意义在于,当我们说一种语言是AN型语言(形容词在其修饰的名词前,如汉语)时,其实说的是它比一种语言更AN,是一种相对的程度,而这种概率性正是人类语言的基本特质之一。因此,这些发现或规律能在需要语言规律的领域得到承认与应用也就不奇怪了。

无论是依存距离最小化还是刘-有向性,实际上与它们相关的想法早在20世纪初就有德国学者提出来了。我们的贡献主要体现在使用多语种、大规模的真实语言材料,首次验证了这些想法。在语言研究领域,创新大多是在继承的基础上展开的。换言之,学科发展得站在前人的肩上,而不能踩在前人的脸上。而数据是这个时代的特征,用数据驱动的方法探究古老的语言问题是我们与前人相比的优势,这也是本书想传递给读者的一个重要信息。
牛:谢谢刘老师的解答,通过您的介绍,大家对依存语法的特点以及使用它能够做什么研究应该也有了大致的了解。这本书的另一部分是与语言网络有关的研究。对大部分文科背景的读者而言,复杂网络是一个比较陌生的概念。你能不能跟我们谈一谈,什么是语言网络、以及最开始促使您使用这个方法来研究语言的契机是什么呢?
刘:语言学家将语言视为一种系统。我们说语言是符号系统、复杂适应系统,现在又把它叫做人驱复杂适应系统。这个观点的来源之一是索绪尔在《普通语言学教程》里的一句话:“语言是一个系统,它的任何部分都可以,而且应该从它们共时的连带关系方面去加以考虑。”还有这句:“语言既是一个系统,它的各项要素都有连带关系,而且其中每项要素的价值都只是因为有其他各项要素同时存在的结果。”这些观点,如果孤立地去理解,就很难;但如果从网络的角度去理解,就很容易。

在世界范围内,研究系统的学科被称为系统科学。这一学科自二战以来发展非常迅速,几乎涉及所有学科,也具有一套规范的研究方法。如果语言学家认为语言是一种系统,就应当尽可能地采用系统科学家研究一般系统的方法来研究语言。否则,我们研究的语言就是支离破碎的,就不是一个系统。

复杂网络是研究系统的一种方法。网络的构成单位是节点和边。如果将词视为网络的节点,边视为词和词之间的关系,就可以构成语言网络。根据边的类型,我们可以构建句法网(边是句法关系)、语义网(边是语义角色关系)、以及共现网(边是词的共现关系)。我们说过,依存分析的目的就是将句子转化为依存树图。而树图实际上就是一种网络。因为依存语法没有多余的中间节点(如VP),所以从依存树到语言网的转换是非常顺畅的。因此,使用网络的方法去研究语言,实际上是为了理解语言系统的本质。

在数智时代,网络科学的迅速发展使得大量的网络研究软件应运而生,这为语言学家研究网络提供了工具。此外,研究语言网络有助于解决与大脑神经网络以及人工智能相关的许多谜题。

我们说,语言学是研究语言的结构和演化规律的学科,这从对依存关系的研究中就能看出,依存距离最小化和刘-有向性都是线性规律。《自然-神经科学》杂志最近刊载的一项基于12个语族、45种语言的研究表明,人类大脑与语言有关的网络结构基本相似。那么,大脑的神经网络和语言的线性规律之间有什么关系?这可能就需要我们把语言的线性结构转换为语言网络进行研究。我们这本书中有一项关于斯拉夫语族语言的研究,里面有这样一个图:

我们的问题是,如果按照神经科学的方法,无论你讲什么语言,你的大脑语区网络都差不多的话,那你如何来区别这些语言呢?换言之,语言学家不仅要研究人类语言的普遍特征,更要从这些看起来差不多的网络结构里,找到它们之间的差异。

我们知道,这一代的人工智能比前几代效果更好的原因就在于它更好地复制了人类学习、获得、存储和使用知识的方法,即借助了人工神经网络。因此,如果语言学家想在数智时代做一点贡献的话,无论是从认知、人工智能、还是发现语言规律的角度,可能都需要运用网络科学的方法来研究人类语言。

牛:谢谢刘老师的介绍,现在我们不仅知道了什么是语言网络,也明白了它与依存语法之间的关系。我注意到,在您的介绍中有一个反复出现的关键词——“大规模真实语料”,这说明“数据密集”可能是这本书的一个特质。我记得您在许多场合中也提到过“数据驱动”的语言研究与传统语言学研究的区别大数据时代语言研究的方法与趋向)。您可以再借着这个机会,和我们的读者讲一讲这类研究的特点吗?特别是,在数智时代的背景下,为什么学习这种新的研究方法是非常必要的呢?
刘:数据驱动的语言研究本质上是一种实证研究,它的基本研究路径是:发现问题——提出假设——收集材料——验证假设。在数智时代,我们拥有了大量过去无法或难以获取的真实语言材料,这些语言材料在经过分析后方便我们挖掘语言的本质规律,帮助我们解决传统方法难以解决、或者解决不好的语言学问题。
此外,大数据揭示的语言规律有助于解释人工智能的奥秘。刚才我们提到,数据驱动的人工智能应用取得了比过去语言学家提供的各种知识更好的效果。但是它为什么好、或者说为什么大量的数据会产生知识,目前并不清楚。这就要求我们从数据中发现规律,这样才有可能服务于真正需要这些规律的人。这是我们这个时代的语言研究者面临的一个重要挑战,也是语言学成为领先学科的一个重要机遇。错过这次机遇,可能就得永远跟在别人后面了。当然,数据驱动的方法不是万能的,它也有自己的局限,要在使用的过程中去改进。但是,必须得意识到数据驱动的方法是数智时代的特色。作为当代的语言研究者,特别是青年学者和同学们,要主动地学习掌握一定的数据处理方法。
牛:但是许多有文科背景的语言研究者一听到要进行大规模的数据处理和统计分析,就感觉无从下手。关于这个问题,您有什么建议吗?
刘:首先要破除神秘感。我们语言学家现在所谓的大规模数据,相比真正的大数据应用而言,基本上都是可控的、是一个手提电脑就可以做的事。

破除神秘感后,认识到数据驱动的方法是必须要尽快掌握的,就要主动地去学习一些常用软件和统计知识。在这方面,国内外语言统计的书有很多,找一本适合自己的,积极利用相关的软件包资源,马上行动,这比什么都重要。

我的几十个学生几乎全是文科背景,他们或多或少都掌握了数据分析方法,顺利地完成了毕业论文,在国内外发表了不少小论文,毕业后也都申请到了国家、教育部的基金。这说明只要想学,大家都可以学会,关键是看你愿不愿意走出舒适圈。

牛:您说得对,一旦克服恐惧,动手开始学习,数据处理及分析是人人都可以掌握的技能。数据驱动的研究,关键可能还是要找到要解决的语言学问题。刘老师能不能给我们介绍下这本书中包含的语言研究问题和方向呢?
刘:这是一个非常好的问题。要知道什么样的问题是数据可以解决的、什么样的是数据解决不了的。以及,当我们有了一个问题之后,怎么能够衍生出来连续不断的问题,让研究可持续发展。

如何发现问题?首先要阅读,思考如何在传统的语言学问题中加入数据的成分。刚才我们提到,这本书的语言问题和方向主要有两部分。一个是线性规律,一个是网络特征。在第一部分,我们揭示了人类语言与依存距离和依存方向有关的线性规律,研究了句长、语体、标注方式等因素对这些分布规律的影响,探讨了这些规律形成的机制及语言学意义。在第二部分,我们研究了不同的语言网络(如句法、语义网络)的特点,比较了它们与其他网络(如生物、社会网络)的异同,指出了这些方法在类型学和翻译领域的应用价值。

我们说,没有任何研究是完美的,一个研究的不足可能就是未来研究的方向。这本书包含的研究,虽然是我在不同时期与不同合作者完成的,但整体具有连续性。通过这本书,相信大家应该也能感受到,如何发现一个问题,让这个问题继续演绎出新的问题,再来不断地研究,加深我们对于语言线性规律和网络规律的认识,这个非常重要。所以,大家在看这本书的时候注意问题的连续性。
牛:我注意到您的回答中还有一个关键词就是“规律”,这可能是数据驱动语言研究的另一个显著特征。这种可量化及可证伪的特征,通常会被认为是理工科研究的特征。可能就有人会好奇,这类研究与传统的以构建语言理论为目标的语言学研究有什么关系?或者说,这类研究是否也能够为构建语言理论做出贡献?
刘:回答这个问题需要首先要弄清楚语言理论的目标是什么。我个人认为应该是更好地解释语言现象、预测语言系统的演化、并且发现的规律要能够服务于需要语言规律的学科。

根据《现代汉语词典》对语言学的定义,语言学是一门发现语言结构和演化规律的学科。如果我们认为语言学是一门科学,那么语言学的理论就应该符合科学哲学对理论的定义,即由定律组成。定律是什么?是经过验证的假设。这样说来,数据驱动的语言研究具备科学研究的所有特征。

我们使用真实的数据和科学的方法开展语言科学研究。实践已经证明,这种研究所发现的规律,可以被自然语言处理和应用语言学等需要语言规律的学科所使用。换句话说,从科学哲学的意义上来讲,这样的定律、规律,是构建语言学理论所必须的;其他的、服务不了需要的所谓的规律和理论,离科学还有一定距离(数据时代语言学理论研究的路径与意义)。

牛:谢谢刘老师的解答。从书的标题和前面的访谈中不难看出,学科交叉是这本书的又一显著特征。事实上,近年来在国际知名普通科学刊物上发表的语言学相关研究也都具有较强的交叉学科属性。作为跨学科语言研究的先行者,您能不能跟我们谈一谈在数智时代,为什么语言学家需要交叉学科的方法呢?
刘:谈到学科交叉,我们需要知道,学科这个事情本来是不存在的。大家解决某个问题、探讨某个事物的规律,当然是有什么方法就用什么方法。但因为需要探讨的问题越来越复杂、人们心有余而力不足了,所以才细分为各种学科。

刚才我们提到,任何学科,具有博士培养项目的学科,大都与发现规律分不开。如果研究的目的是发现规律,那么就有一套科学的发现规律的方法,也就是我们今天所推崇的实证方法。那么,为什么要采用跨学科的方法?主要原因是采用传统的方法,有些问题我们解决不了或解决不好。例如我们刚才说的“语言是个系统”的观点,如果不采用研究系统的方法,就很难产生深刻的认识,永远只是一个“隐喻”罢了。

另外就是我刚才反复提到的,今天的人工智能时代是由数据催生的。语言数据为什么能够催生语言智能,这个问题有待语言学家来回答。过去,通过大量数据获取语言规律的研究方法是不可能的。但今天,得益于大量语料库的开发,我们可以去开展这类研究了。这时候,我们发现语言学的传统方法不适用于处理大量数据,这就要求我们学习新的方法借助其他学科的方法来更好地解决语言学面临的问题。

牛:谢谢刘老师。开展交叉学科研究,也有助于我们在这个“内卷”的时代开辟一条研究的新路径。感谢刘老师为我们带来了这么多好观点,也谢谢您一直身体力行、通过实际行动向我们展示“进来,就有希望”。数智时代,让我们一起为自己赋能,借助“他山之石”来更好地“攻玉”!


小编结语:通过这次访谈,相信大家对于《依存关系与语言网络》的内容以及它和我们自身的关系都有了更深入的了解。是不是已经迫不及待地想要开卷阅读了呢?好消息是,目前这本五十万字全彩印的匠心之作已经上架预售,识别下图中的二维码,可直达购买页面,现在预订享7.9折优惠哟~
官方小程序:

有赞:

京东也可购买,同样优惠,点击“阅读原文”可直达购买页面~
已经买好的小伙伴,可点击新著推荐 | 刘海涛:《依存关系与语言网络》查看全书目录,提前一睹为快哦!

如果您喜欢这篇推文,请点击“分享”、“赞”、或者“在看”吧
继续滑动看下一个
计量语言学
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存