查看原文
其他

基于复杂网络的语言分类

丛进 计量语言学
2024-09-04

小编按:学科交叉融合是当前学术发展的重要趋势,不仅有利于培养创新型、复合型人才,更有利于推动社会经济的高质量持续发展。习近平总书记在全国科技创新大会和两院院士大会上,曾多次强调培育交叉学科的重要性和紧迫性。最近,我国在交叉学科研究的制度方面又有新的重大举措,教育部设置了“交叉学科”门类(门类代码为“14”),国家自然科学基金委也适时成立“交叉科学部”。另外,党的十九届四中全会明确将数据看作一种新型的生产要素。对于任何与时俱进的学科而言,如何基于数据开展交叉学科研究成为当务之急,语言学作为一门“领先学科”自然也不例外。从即日起,本号开始推送浙江大学刘海涛教授团队的一组科普短文,以期充分体现语言研究的数据驱动本质和语言学内在的交叉学科性质。这组短文原刊发于2015年11月13日《浙江大学报》第576期第3版,今天推送的是丛进博士的文章《基于复杂网络的语言分类》。



人类语言门类繁多,它们之间既存在差异,也不乏相似之处。就像自然界中的生物可以划入诸如界、门、纲、目、科、属、种的分类层级那样,人类语言也可以按照其异同关系来分门别类。

从语言学角度来说,语言的分类既可以基于其局部细节特征(例如,语序),也可以基于其整体特征。传统的语言学研究方法倾向于把握语言的局部细节特征,而难以把握语言的整体特征,因此目前的语言分类一般是依据前者来进行的。语言的局部细节特征虽然易于研究,但是可能难以反映语言的全貌。有鉴于此,语言的整体特征在语言分类方面可能具有独特的优势

最近十几年来兴起的语言复杂网络研究为基于整体特征的语言分类提供了良机。如果基于给定语言的真实语料构建复杂网络模型,那么网络模型的计量结构特征就能够反映该语言的整体特征。研究表明,不同语言的复杂网络模型在结构特征上的异同关系能够大致反映对应语言作为整体的异同关系

其中,我们的研究在世界上首次实现了基于语言复杂网络的语言精细分类。研究对象是12种斯拉夫语言(属于印欧语系的斯拉夫语族,又可进一步划分为东、西、南三个语支)和2种非斯拉夫语言(汉语和英语)。

基于14种语言的平行文本(即互为译文的文本),我们构建了对应的14个复杂网络模型。结果显示,基于14个网络模型的计量结构特征能够实现对这些语言的精细分类。下图展示了一个比较理想的分类结果。其中,每个分类层级均表示为两条竖线(分别代表该层级的两个成员)和连接它们顶端的一条横线。横线在纵坐标上对应的距离值代表着成员之间的相似程度。距离越小意味着相似程度越高。


基于复杂网络计量结构特征的14种语言的分类结果


分类结果不仅能区别斯拉夫语言和非斯拉夫语言,而且能将斯拉夫语言正确地划入各自的语支,即,白俄罗斯语、俄语和乌克兰语的东斯拉夫语支,保加利亚语、马其顿语、斯洛文尼亚语、克罗地亚语和塞尔维亚语的南斯拉夫语支,以及捷克语、波兰语、斯洛伐克语和上索布语的西斯拉夫语支。另外,结果还能反映出部分斯拉夫语言在其语支内部的异同关系。例如,克罗地亚语和塞尔维亚语虽然使用不同的文字,但是一般认为它们实际上是同一门语言。从图3来看,二者的相似程度非常高。本研究对斯拉夫语言的分类结果要好于基于语序的分类结果。这表明,对于斯拉夫语言这类语序比较灵活的语种,语序可能不是分类的最佳依据。这同时也表明了能够揭示语言整体特征的复杂网络方法在语言分类中的优势。

语言复杂网络方法注重语言的整体量化特征,有助于推动注重语言整体特征且使用计量手段的语言类型学研究的发展。另外,这一方法采用真实语料作为数据源,因此也有助于改善目前语言类型学研究不够重视真实语料的局面。

继续滑动看下一个
计量语言学
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存