刘海涛:大数据时代,语言学正经历一场“革命” | 社会科学报
点击上方“社会科学报”关注我们哦!
社科报
大数据时代语言学能做什么
国际世界语学院院士 刘海涛
◤语言学正在从传统的艺术与人文学科转向现代的认知与生命科学,其研究方法也正在经历从内省法到实验方法的转变。与此同时,正如舍恩伯格在《大数据时代》一书的开篇所说的那样,“大数据正在改变我们的生活以及理解世界的方式”。在这个不断变化、充满数据的世界,语言学家该做什么?怎么做呢?
大数据的价值
语言学是研究语言的本质、结构和发展规律的学科。现代语言学一般认为语言是一个复杂适应系统。这也意味着,我们需要采用研究复杂适应系统的一般方法来研究语言。这对于全面了解人类语言是极为必要的。
从系统的角度研究语言,目前可从以下两方面展开:一是研究语言系统内部各个组成要素之间的关系以及子系统之间的协同关系,二是研究语言系统的整体或涌现特征。
前者是现代计量语言学,特别是协同语言学的主要目标,而采用语言复杂网络方法则有助于发现语言的整体或涌现特征。无论是计量语言学还是复杂网络方法,对研究对象特征进行量化分析都是必不可少的,都属于数据密集型的语言研究。而大数据能够改变人类生活的最重要原因是其为人类的生活“创造了前所未有的可量化的维度”。
从这个意义上说,以量化为主要手段的数据密集型语言研究是符合大数据时代的语言研究精神的。这是因为“大数据”最大的价值并不在于数据本身,而在于如何将数据与知识、社会、文化、行为、人联系在一起,并通过数理统计方法,更科学地发现数据背后隐藏的有关人类认知、行为的模式以及人与社会、自然交互的规律。换言之,对于任何传统方法中缺少量化手段的学科而言,首先可能要解决的是用数据来做什么的问题。如果我们找不到需要用数据解决的问题,也就只剩下大数据时代的美好愿望了。好在语言学中不难发现这样的问题,这可能也从另一方面展现了人类语言所具有的系统特征。
助力语言规律研究
艾登与米歇尔在《可视化未来》一书中,基于1800-2000年间的500多万本图书的电子版,展现了大数据在研究人类语言、文化、声望、群体记忆等方面的作用与价值。其中第一章介绍的英语不规则动词的规则化演化规律的研究令人印象深刻。关于英语的不规则动词,此前语言学家已观察到,越是被人们频繁使用的动词,在语言进化过程中生存下来的可能性就越大。然而,这种猜测或假设如果没有大量真实数据的支持,是难以被视为语言演化的规律的。本书二位作者通过对177个英语不规则动词的数百年间的历时考察,发现人们对不规则动词的频繁使用,使它们免于被规则化。这项发表在2007年的Nature上的研究,充分展现了大数据在研究语言演化规律时的魅力!
我们团队也采用数据密集型的研究范式,对人类语言系统的词汇子系统主要特征之间的协同关系进行了研究。词是构成语言系统的基本单位之一。除了以上提及的不规则动词的规则化之外,词还有许多其他的属性,如长度、使用频度、多义的程度、与其他词结合的能力等。根据对人类语言的考察可以得知,一个长词如果其使用频率突然增加,则会很快变短。在现代汉语中,所谓“短”的限值一般大约为3个汉字。这一点,我们很容易从 “美国职业篮球赛”变为“美职篮”,“特立尼达和多巴哥”瞬间变为“特多”等例子看出。词的可计量的属性以及它们之间的关系构成了词汇协同子系统。这些从大规模人类语言材料中得出的统计规律,不仅可以解释人类语言词汇子系统的运作机理,也可以对词汇的演化做出科学的预测。而能否对所研究现象进行解释与预测,是衡量一个研究领域是否科学的重要指标。
对语言的分类以及语言类型的研究,也是语言学家一直以来努力的方向。为了提高语言类型研究的科学化程度,我们在世界上首次提出了从人类语言真实语料(大数据)中提取语言类型指标的方法,用句子中两个具有语法关系的词之间的相对位置(依存方向)解决了语序相对固定语言的分类问题,用复杂网络方法解决了语序相对自由语言的分类问题,推动了语言分类(类型)研究的科学化。这说明,在研究某种语言的过程中所发现的方法与理论也可以用来研究其他人类语言,充分显示了“大数据+专业”的方法的科学性与普适性。
语言学国际化
语言被视为洞察人类天性之窗。这是因为语言是人类认知机制的产物,语言的普遍规律在很大程度上体现了人类的认知规律,而语言多样性则可能反映的是人类社会以及人类所生存的自然环境的多样性。因此,探求语言的普遍性可能有助于发现人类认知的普遍性,而对语言多样性的研究有助于理解语言与社会以及自然的关系。这也是语言学能成为认知科学的核心元素的重要原因之一。然而,长久以来,基于内省的语言学研究虽然有过一些发现与成果,但由于方法与资源的限制,许多语言规律仍需要基于实证的科学验证。大数据在发现语言结构模式以及其与认知规律的关系方面,也可起到重要的作用。
2007年,我们采用20种语言的句法标注(真实)语料库,对于人类语言受认知(工作记忆)约束而产生的词在句中的线性排列规律进行了研究,结果发现,依存距离(两个有句法关系的词之间的线性距离)最小化可能是人类语言的一种普遍特征。2015年麻省理工学院(MIT)的研究团队,采用37种语言进行了类似研究,这项发表于《美国科学院院报》(PNAS)的研究,进一步支持了我们的发现。这些成果不但为探索语言与认知、语言与思维的关系提供了更加坚实的实证基础,也对从语言行为中发现人类的认知规律以及从人类认知的角度解释语言行为具有启示意义。此外,通过语言网络,我们可以更好地对语言系统的整体与涌现特征进行观察与研究,弥补一般系统方法的不足。比如,我们构建了12种斯拉夫语族语言和2种非斯拉夫语言的平行词同现网络,经对比研究表明,复杂网络方法不仅能区别斯拉夫语言和非斯拉夫语言,而且能将斯拉夫语言正确地划入各自的语支。这一数据密集型研究,展现了可揭示语言整体特征的复杂网络方法在语言分类中的优势,从而拓展了复杂网络在人文、社会与生命科学等领域中的应用。
李国杰院士在为《可视化未来》所写的序言中认为:“数据密集型科学研究已上升到与科学实验、理论分析、计算模拟并列的科学研究‘第四范式’……大数据对社会科学的变革意义,与伽利略首次将望远镜指向太空对天文学的意义一样重大。”实践证明,用数据密集型(“大数据+”)的范式来研究语言,不但有益于从各种相关中追寻因果,加深对语言与认知关系的认识,进而有助于更好地理解语言的结构模式与演化规律,也有助于推进语言学研究的科学化与国际化。
(本文仅代表作者观点,不代表本报立场。原文请见社科报总1550期,图片来自网络)
欢迎转载原创文章。如转载,请在文章前注明:本文首发于社会科学报。
长按二维码关注
做优质的思想产品
社会科学报
微信号:shehuikexuebao
社会科学报官网:http://www.shekebao.com.cn/