查看原文
其他

序言 | 从无序中寻找有序

赵怿怡 计量语言学
2024-09-03
小编按:《依存关系与语言网络》的作者刘海涛教授在后记中写道:“二十年来,我指导过不少学生,但只有赵怿怡同学的学士、硕士和博士论文都是我指导的。她的三篇学位论文的标题分别是《“把”字句的计算机处理》、《基于依存语法的汉语并列结构自动分析研究》和《语言复杂网络若干问题研究》。在我看来,这三篇论文主题的变化,基本反映了我们在语言研究范式方面的转变轨迹。她是这一转变的见证者,也是参与者。因此,我请她为本书写了一个类似序言的东西。”今天就让我们一起来读一读赵博士的这篇序言。

在我与刘老师相遇的第二十个年头,听闻老师要出版一部总结过去十几年研究成果的书,并邀请我为新书作序,我十分欣喜。一是因为虽然老师喜欢读书、藏书丰富,但他自己很少出书。他的成果多是实证性的文章,虽然每篇论文从理论假设、文献综述到方法支撑都涉及多学科、多语言背景,完全可以形成一部长篇巨著,但是老师总是偏爱以论文这种方式与国内外同行交流。二是因为老师的经历传奇,为老师作序更让我受宠若惊。2000年,刘老师从中国铝业跳槽到了北京广播学院(今中国传媒大学)当一名教师,说是“跳槽”有些不恰当,因为别人跳槽多是为了追逐物质财富而随波沉浮,刘老师却是载着他前半生的精神食粮蜗居到荒凉的东五环定福庄一隅,彻底转行到播音学院的应用语言学系,开始面对一群文理皆有、参差不齐的本科生。

我在学术的起步阶段与刘老师相识,并且二十年来的学习与科研一直在老师的指导下进行,研究主线从基于规则的语法与自动分析发展到基于依存树库的自动分析,从依存关系的线性统计指标研究发展到语言网络多层级的复杂系统研究。尤其是刘老师2007年就在语言学界使用网络科学方法来研究人类语言的句法结构,这不仅深刻地影响了我的研究方向,而且在大数据研究成为趋势的今天,老师的研究仍处于语言网络研究的前沿。

《依存关系与语言网络》一书从微观解析与宏观重构两个角度归纳了刘老师团队近年来的主要研究内容,涵盖了他在依存语法这一普适语言学理论基础上近二十年来从计算到计量的语言学思想与实践精华。在受教于团队巨大研究成果的同时,我似乎看到了刘老师引领着一个个学文科的孩子走出迷茫的步步脚印。正如袁隆平院士所说,“人就像一粒种子,要做一粒好种子”。一个人要做一粒好种子,只需要给他注入一个梦想。刘老师将依存语法与计量充分结合在一起的研究就是开启这个梦想的原点。

2002年在北京广播学院应用语言学基地机房中的一堂语言学专业课上,刘老师讲授的《Prolog程序语言与自然语言的计算机处理》课程,让我第一次体会到语言背后蕴含的人类智能的确是惊人的。当时,我们尝试用语法结构简单描述能力强大的Prolog语言,“教会”计算机自动查找逻辑关系并给出题解的过程。在这个过程中,我们所做的只是用一种元语言充分描述事实与规则。那时候,利用计算机技术构建的主流语言资源库是基于短语结构语法的,我们传统的语文教育也多使用注重整体与部分关系的层次分析法进行语法分析,所以我最早的实验是使用哥本哈根树跟踪器——一种基于Prolog语言的图形接口,进行汉语短语结构的上下文自由文法(CFG)形式化自动分析。通过这个实验,我切实认识到了语法规则在机器理解自然语言过程中的重要作用,并进一步利用更复杂的特征结构来定义范畴,以实现对名词语义特征的表示,进而限制CFG过度的生成能力。刘老师对我的引导无疑是超前的,以至于这项2005年之前的研究在修改后被2014年的EI会议亚洲语言处理国际大会录用为口头报告。后来,此事被老师多次提及、津津乐道。现在想想,老师除了调侃我的神操作,还是因为这些让我彼时饶有兴致的形式化分析在老师眼中已然是精美的人工花园、脱离现实世界的空中楼阁了。

充分描述规则不能脱离充分的事实,而“依存关系”是语言学研究从“花园”走向“灌木丛”的普遍规则。相比于短语结构语法,依存分析具有更强大的自然语言分析能力。在遵循依存关系三要素——“二元”、“非对称”和“标记性”的条件下,依存关系可以分析数百种语言的多种语言单位之间的相互关系。因此,在攻读硕士学位阶段,我开始转向构建汉语并列结构依存树库。这个树库中的句子不再是“咬死了猎人的狗”式的精心设计,而是大量来自现实世界的语言事实。仰赖依存关系作为词间二元分析的标准,我再也不用担心长句子中突然插入的成分与那些文本里人为隔开的各种标点符号了。

当然,基于依存关系分析文本并非没有挑战,二元依存关系如何表示并列结构就是一个棘手的问题。在一个有至少两个并列体与一个并列连词的结构中,谁来做支配词、以及如何支配,并不是分析者拍拍脑袋就能说了算的。我们先假设并列结构的多种可行分析策略,构建了不同的训练模型,利用基于依存的图分析算法测试语料,找出精度更高的分析策略,因为在充分描述规则与事实的基础上,计算机会给出最真诚的解答。也正因为经历了从假设到数据再到验证的科学研究范式的训练,我才深刻地体会到语言研究科学化是脚踏实地的存在。计算机在训练中不仅能学会依存关系规则,还能形成自己的“习惯”。这些以精度与错例为表现的习惯,反映出依存关系与计算机处理方式间的隐含联系。比如,依存距离较短的并列结构标注策略与依存方向倾向一致的并列结构分析策略会得到较高的测试精度,而这些规律完全浮现于依存关系对事实充分描述的基础之上。后来,这项研究作为汉语依存句法分析的补充部分被发表在2009年第1期的《模式识别与人工智能》上。论文发表为我硕士阶段的研究做了一个完美注脚,而依存分析直面真实文本挑战的各种尝试才刚刚开始《依存关系与语言网络》的第一部分“依存关系计量研究”以依存距离和依存方向为轴心,由浅入深地展示了依存计量指标的可用之地。
第一章依存距离和依存方向用数学语言描述了依存关系的基本要素,在用依存句法描述词间关系的背景下,提出了依存距离、依存方向是两个衡量语言特性的计量指标。平均依存距离与人脑处理信息7±2 的组块不谋而合,成为衡量语言理解难度的指标,依存方向则可以作为语序类型学的计量指标分类语言间的亲属关系。
第二章参照影响依存距离和依存方向的因素——句长、语体、标注方式,分别设计了以英汉平行语料库递增句长的句子集、BNC语料库十类语体子集、UD和SUD 两种方式标注的多语子集为语料库的实验,论证了三类因素对依存距离和依存方向的差异化影响。研究发现,长句是长依存距离的必要非充分条件;各类语体的依存距离和依存方向整体分布不存在显著差异;有利于更小平均依存距离的标注方式在语言学研究中更具适用性。
第三章将人类语言置于更广阔的符号信息领域,从符号串的角度利用随机方法探查依存树的概率特点,深入挖掘自然语言依存距离最小化的形成机制。自然语言、投影性随机语言、随机语言三者的平均依存距离逐次递增,说明投影性随机语言无交叉弧的投影限制与自然语言的句法机制是依存距离最小化的重要原因。其中句法机制是人脑语言处理更待剥茧抽丝的研究对象。

如何研究句法机制?当然还是要从语言数据入手。30种语言的依存距离分布表明,在会话双方的博弈下,支配词与从属词间的依存关系的前后出现过程力求满足“约束长依存关系,增加短依存关系”的原则,最终使依存距离的分布达到一种可以描述为指数和幂律混合函数的平衡状态,而这种会话双方的博弈也反映了乔治·齐普夫提出的“省力原则”。即便交叉依存结构的理论占比远高于真实语言树库的统计数据,但人类语言倾向于选择不交叉的依存结构来降低句法复杂性。不交叉意味着更多的相邻结构,而组块化则是人类处理长句时启动的一种自适应的调节机制。

第四章依存结构的计量特征及其应用从上一章与随机语言的比较研究回归到人类语言的结构性计量上,在汉语句法类型特征的研究前提下,依存距离在数值上为潜在歧义结构的心理实现提供了解释依据,依存方向在概率上为亲属语言分类提供了量化支持。依存距离最小化的倾向与句长、词动态价的互动关系在英汉语料库的统计参数中存在差异。虽然动态价是加大特定语言平均依存距离的因素,但是汉语的平均依存距离大于英语,汉语的动态价均值却不高于英语,这又催生了其他因素诸如依存结构层级距离、跨度与句长之间协同关系的研究。

在依存分析的加持下,以上四章围绕依存距离与依存方向两个重要指标展开,面向真实的语言材料,对语言的线性结构与层次结构、依存关系形成的动态机制、协同机制进行了广泛的探讨,不仅验证了依存距离与依存方向在多种语言测度中的普遍价值,也揭示了人类语言系统静态线性表象下涌动的复杂适应性。这为该书的第二部分“语言复杂网络研究”埋下了伏笔。

在数据驱动的研究范式日益重要的今天,语言资源建设朝着充分描述事实的方向迈进。很多开源短语结构语法资源开始踏上向依存关系资源转化的道路,大量语言的依存树库被建立起来。此时,刘老师已经不满足于仅仅与机器交互的目标,对人类语言能力的探究才是语言学家的终极目标。在充分被解构的语言事实面前,进行复杂网络的重构,就像找到了一种新工具,用更贴近人脑生理结构的方式来分析语言系统。当然,新方法的使用并非要彻底颠覆传统,老师反复叮嘱我们一定要立足以往语言学各层面研究的成果,用网络科学的方法对模糊概念、分类、问题进行考证,这样的语言网络研究才更有价值。正因为有了这样的定位,语言网络区别于人工神经网络的通信定义,区别于神经网络的生物学定义,所以我们所达成的语言网络研究的基本假设是:网络结构是人类语言知识储存和表示的基础,人类语言能力的实现是句法网络、语义网络、概念网络相互联结作用的结果。在这样的共识之上,语言网络的研究开辟了一个全新的语言学领域,可以说是一个更加包容、多元的语言研究范式。

正如该书第五章第一节的标题所说,“语言是一个复杂网络”,它是一种复杂动态系统。语言要素可以在各个层级表现出高度的复杂网络结构,这些语言符号的相互联系和演变体现出人类语言系统的复杂性。语言网络分析从宏观层面重构了语言系统的整体性,各类语言尤其是汉语的句法网络、语义网络、音素网络、汉字部件网络等子网络在依存分析的支撑下被可靠地建立起来。第五章语言网络的整体特征重点求证了现代汉语句法、语义等复杂网络的全局参数均符合复杂网络小世界、无尺度的基本特性,同时兼具社会网络负相关和层级组织的特性。

与此同时,语言网络各层级间的关系更是研究的焦点与难点。第六章尝试使用复杂网络这一潜在方法从“意义(深层)—形式(浅层)”维度上描述语义结构、句法结构、句子线性、汉字线性四个子系统间的分层联系。四个汉语子系统在宏观特征上的共同点反映了汉语系统的高效组织方式,而其宏观特征差异则反映了汉语的四个子系统之间的关系与不同。这一关系主要表现为:语义结构子系统的聚类独特性证明它是更能反映人类语言普遍特点的层级。按照功能语言学家泰尔米·吉翁对人类交际系统的两大分类,语义结构属于认知表征子系统,而其他三个子系统都属于交际编码子系统。第六章在现代汉语多层级复杂网络研究上取得的突破让我尤为激动,因为这一章提供了语言网络整体特征与局部特征之间的研究线索,是语言网络研究从网络科学的宏观走向中观层次与微观结构的开始。这个路径涵盖了人脑语言处理音、意、形的全过程,也无疑包含语言演化的规律,是一个更具挑战的语言网络研究方向。只有将语言置于各子系统内部协同的层级关系中,才能洞悉语言处理的机制,最大限度地发挥语言网络这一工具的价值。

《语言网络:隐喻,还是利器?》是刘老师十年前的一篇论文。十年来,随着大数据、脑科学新技术的驱动,语言网络的利器作用越发显著。第七章的研究显示,刘老师团队的研究用网络科学新方法证明了传统语法一贯强调的句法研究的必要性,并为其提供了更为宏观、数据化的支撑。句法在语言网络连通的高效性上起着关键作用,重点表现为虚词作为网络中枢节点在维持全局结构完整性上的显著作用,但同时虚词剔除实验也表明:在中枢节点缺失的条件下,系统鲁棒性并不会导致大面积信息传输的失败。

语言网络的整体参数可以应用于语言类型学分类:词形网络可以更好地反映语言的形态复杂度,可以更好地解决语序不敏感的斯拉夫语族语言的分类问题。句法、语义网络是语体分类的有效知识源。在翻译、语言教学领域,语言网络可以作为一种手段对中介语进行分类、分层研究,以观察语言习得的程度与规律。这些应用研究见于该书的第八章,都是“君子生非异也,善假于物也”,使用语言网络这一利器披荆斩棘而带来的收获。

作为刘老师最早的学生之一,我从北京广播学院应用语言学系的一名本科生一步步成长为一名中文系的教师。作为一名曾经的文科学生与现今的文科教师,我依然饶有兴致、颇有收获地参与到语言理论与应用的跨学科研究中,并且越发意识到在桥接电脑与人脑的联系中语言所起到的阐释智能的关键性作用。在语言网络方向上,2014年我以“基于同一文本的句法网络语义网络关系研究”为题申请到了国家社会科学基金青年项目,2019年以良好的成绩顺利结项。在一份成绩为“优秀”的专家鉴定意见上,评委写了这样一句话:“可以看出作者是一位计算语言学研究的深耕者。”其实,我是“一粒种子”,只不过发芽有点慢而已。

如果你是一位对语言研究有兴趣的学习者,无论目前是何种学习背景与学习程度,都别犹豫,赶紧干起来!前人的脚印就在这本书里,它会引导你走上面向智能、适应变化的语言学道路,而且你可能比任何人都更加幸运,因为在这条路上,你前行已久的同伴们正要拉起你的手。

                                       赵怿怡

                                      于厦大凌峰

小编结语:怎么样,读完这篇序言,大家是不是对《依存关系与语言网络》更加期待了呢?目前这本历时十五年、五十万字全彩印的匠心之作仍在火热预售中,现在预订还可享受7.9折优惠~小编贴心地把不同平台的购买方式都附上了,赶快买起来吧!

官方小程序:

有赞:

京东的友友们,点击下方“阅读原文”可直达购买页面~

如果您喜欢这篇推文,请点击“分享”、“赞”、或者“在看”吧
继续滑动看下一个
计量语言学
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存