观约谈 | 计算社会语言学 | 自由微信

观约谈 | 计算社会语言学

Original 观约语言战略研究 2020-10-27

《语言战略研究》微信公众号“观约谈”栏目

不定期推出。敬请关注。

【观约按】 随着大数据技术的跨越式发展，“计算”已经越来越成为人文社会科学领域的关键词。与“计算”相结合的交叉学科/多学科研究领域也开始大量涌现，比如数字人文（Digital Humanities）/计算社会科学（Computational Social Science）/计算传播学（Computational Communication）/计算社会学（Computational Sociology）等。本期“观约谈”将通过对Nguyen et al. （2016）一文的概览性介绍，来聚焦一个正在形成中的新领域——计算社会语言学（Computational Sociolinguistics）。当然，如果想有更多、更深的了解，或者想做这个方向的研究，那么还是先去读透参考文献15页、全文57页的Nguyen et al. （2016）吧。

一引言

随着大数据的发展，科学经历了一场范式的转变。除了聚焦于传统的自然现象描写、理论发展以及计算科学，数据驱动的探索和发现已经成为了许多方法论框架的有机组成部分，而计算语言学也在这进化之列。

以往的计算语言学（Computational Linguistics，以下简称CL）主要是捕捉语言的信息维度和语言信息传递的结构，对语言的社会维度关注很少。近期，受社交媒体大数据的驱动，CL对研究社会环境中的语言兴趣越来越浓了。社交媒体平台上的大数据为CL的研究提供了新方向，也具有方法论意义。当然，此方向也面临着一些挑战，比如：（1）比起CL传统上用的语料来，社交媒体中的语言更口语化、变异也更多；（2）社会变量和语言之间的关系是更为动态和脆弱的，这也不同于CL以往所关注的文意和结构之间的相对固定的关联。

社会语言学（Sociolinguistics）研究语言与社会之间的共变关系。传统社会语言学会用量化或质性方法来研究口语语料，而调查和民族志方法则是语料收集的主要手段，但是其语料规模往往较小。随着类似社交媒体平台语料的出现，大规模的数据为语言变异研究提供了更为宽阔的舞台。面对这些更为庞大也更为异质的语料，社会语言学需要新的方法论，而CL则正符合这一期待。

本文的目的就是来呈现一个CL和社会语言学相结合的、可以被称之为“计算社会语言学”（Computational Sociolinguistics，以下简称CS）的新交叉领域。第一部分的下文将讨论其原理和范围；第二部分讨论其方法；在关于语言和社会身份建构的第三节讨论了说话者如何使用语言来塑造对其身份的感知，并重点讨论了基于性别、年龄和地理位置的语言变异模型的计算方法；在关于语言和社会互动的第四节中，从单个说话者转向成对、成组和社区，讨论语言在塑造个人关系、改变风格的使用以及在社区中采用规范和语言变化方面的作用；在第五节中，讨论了多语言和社交互动，其中概述了处理多语言交流的工具，如分析器和语言识别系统，还讨论了从计算角度分析多语言交流模式的方法；第六部分以此方向面临的挑战来结束全文。

1.1 计算社会语言学调查的基本原理

近些年出现了一股用计算的方法来研究社会现象的趋势，即“计算社会科学”，这也是更大范围的“多学科/跨学科/交叉学科”潮流的一部分。CS的出现也正是顺应了这一潮流。

用CS来指称这一正在浮现中的现象，它指的是整合社会语言学和计算机科学的各个方面，来从计算的角度对语言和社会之间的关系进行研究的一个领域。这篇调查文章旨在通过将计算语言学和机器学习的进步与社会语言学的基本概念和见解相结合，展示利用大数据研究语言使用中的社会动态的潜力。我们将计算社会语言学构建为一个有独立目标的研究领域，包括开发支持社会语言学的工具，建立包含语言内容以及社会背景信息的数据建模和分析的新统计方法，以及基于社会语言学见解开发或改进NLP工具。

1.2 讨论范围

鉴于这一领域的广度，我们将按如下方式限制本次调查的范围。首先，社会语言学主题的覆盖将是选择性的，主要由计算语言学中涉及社会语言学主题的工作决定。此外还会涉及到计算机媒介交际、口语会话中的言语和非言语层面、多模态分析、话语分析、语用学、修辞结构理论、社会心理学、计算风格学等。

1.3 自然语言处理的应用

除了对社会语境中的语言使用产生新的见解之外，计算社会语言学的研究也可能影响文本社交媒体和其他内容处理应用的发展。例如，基于对用户语言选择的分析，自动检测用户的性别、年龄、地理位置或从属关系的研究可能会给用户分析工具带来好处。使用年龄和性别等变量对所用语言的解释受益最大的情况通常也是最难自动检测这些变量的情况。然而，尽管有这种挑战，有一些已经发表的概念证据表明，在超越当前NLP工具中体现的语言使用同质性的典型假设方面，这是有潜在价值的。

二计算社会语言学的方法

通过处理与社会语言学和一般社会科学方法的关系，我们能够强调两个期望。首先，我们确信社会语言学和相关领域可以帮助计算语言学领域建立更丰富的模型，这些模型对于他们正在或可能被用于的任务更有效。其次，CL社区为社会语言学和社会科学做出贡献的时机似乎已经成熟，不仅要为社会语言学开发和调整工具，还要利用计算方法完善社会语言学中的理论模型，帮助理解自然语言中的社会动态。在这一部分，我们将反映计算语言学领域面临的挑战。在某种程度上，这些挑战与这样一个事实有关，即在整个语言技术领域，社会科学研究的方法通常不受重视，因此也不被教授。对那些即使被理解和接受的容易采用的方法，人们也很不熟悉。但是，在学习分析等相关领域已经出现了一些有希望的搭建沟通的例子。

在多学科协作开始时，有必要了解社区之间在目标和价值观上的差异，因为这些差异强烈影响着每个领域内的贡献，这反过来又会影响到各个领域相互贡献的意义。为此，我们首先讨论了可靠性和有效性这两个相关但不同的概念，以及这些概念在各个领域发挥的不同作用（2.1）；在第2.2节中，讨论了理论和经验主义的对立概念以及两者之间的关系；在第2.3节中，扩大了社会科学研究方法的范围，包括强定量和强定性方法，以及CL和相关社会学科之间的关系；在第2.4节中，说明了这些问题是如何在数据的作用下结合在一起的，因为数据的收集、采样和准备对这两个领域的工作都至关重要。

2.1 建模方法的验证

特别是在过去十年中，计算语言学领域许多研究的核心是开发新的计算建模方法，例如概率图形模型和神经网络方法中的深度学习。这些新方法的价值不仅在于指导新模型结构规范的创造性，还在于对新推理方法的相应要求，以及对有正确答案概念的任务的预测准确性。

新建模框架的开发是社会语言学（以及一般社会科学）和CL社区研究生产周期的一部分，它们在使用的方法类型上也有很多重叠。比如逻辑回归法（logistic regression）、潜在变量建模方法（latent variable modeling approaches）等。

而应用类似技术的原因的差异则表明了它们价值上的差异。尽管CL重视创造力和预测准确性，但在社会科学中则更强调有效性和可靠性。这种深层次的差异也给二者的交互带来了挑战。

2.2 理论与经验主义

在前一节中，我们讨论了社会科学中对有效性的重视，这源于为了回答问题而孤立一个论题的目标。为了澄清为什么这一点很重要，有必要讨论一下理论与经验主义的各自价值。

20世纪90年代中期以后，CL学界发生了一次范式的转变：从符号和知识驱动的方法向大数据统计方法的转变。这也就导致了乔姆斯基式及其他语言学理论的边缘化。

相比之下，在社会科学中，贡献的价值是以它对理论贡献的程度来衡量的。理论经验主义在社会科学中没有吸引力，社会科学的主要价值在于建构理论和参与模型解释的理论。

CS的发展必须面对并解决这种价值观的分歧。

2.3 定量与定性方法

CL和社会语言学都使用定量和定性的方法。

尽管在CL定性研究中，有时被认为缺乏严谨的定量研究，但人们可以认为高质量的定性研究有一个独立的严谨性和深度概念。定性研究的一个重要作用是挑战定量研究人员构建的可操作性。为了让社会科学研究者采用CL方法和模型，来自社会科学定性分支的挑战将成为需要仔细考虑的问题。

鉴于CL与变异社会语言学（Variationist Sociolinguistics）在价值取向上更为一致，所以CS的许多研究将聚焦于社会结构的影响，比如性别、职业等对语言使用带来的影响。

概念化这两个领域中计算模型使用之间对比的一种方式是重新考虑最大化解释能力（典型的社会科学和社会语言学）和最大化预测准确性（典型的CL）之间的权衡。

关注社会科学中的可解释性的一个结果是，就参数数量而言，模型往往小而简单，通常不超过10个，或者至少不超过100个。因为模型保持简单，所以只要仔细采样并控制无关的方差，就可以在较小的数据集上估计它们。在CL社区中，更典型的是模型包含成千上万个或更多的参数。对于这样大的模型，需要大量的语料库来防止过度拟合。因此，CL社区的研究经常受到大型语料库的驱动，这也就解释了最近大量关于网络数据的论文。

2.4 关注语料库和其他数据

对于社会语言学和计算语言学的研究者来说，数据收集是研究周期中的一个基本步骤。在这里，我们将反思这两个领域的实践和传统的差异，以及在线数据的新用途。

传统上，社会语言学家一直对捕捉非正式话语（也称为白话）的数据集感兴趣，也即当说话者不注意时使用的那种语言。他们使用多种方法收集数据，包括观察、调查和访谈。社会语言学数据集经过精心准备，能够深入分析一个言语社区是如何运作的，并认真遵守前面讨论的可靠性和有效性标准。这些数据收集方法必然是劳动密集型和耗时的。与计算语言学中使用的数据集相比，其得到的数据集通常也很小。这些小规模的数据集限制了CL学界对社会语言学研究的兴趣。

随着计算机媒介交流（CMC）的兴起，潮流开始了转向。CMC中生成的内容，尤其是在社交媒体平台上生成的内容，是大量非正式语言的丰富源泉。这些非正式语言与上下文相关的信息（例如用户、社交网络结构、生成时间或地理位置）一起，可用于大规模研究社交上下文中的语言。例子包括微博、网络论坛以及在线评论网站等。

社会语言学中数据收集的一个复杂问题是参与者可能会根据数据收集者的期望调整他们的语言使用。这种现象被Labov（1972）称为“观察者悖论”：“社区语言研究的目的必须是发现人们在没有被系统观察时是如何说话的；然而，我们却又只能通过系统观察来获得这些数据。”在社交媒体中，观察者的悖论可能被认为已经失去了大部分效用，这使得它成为补充传统数据收集方法的一个有希望的资源。尽管社交媒体数据是一个方便的数据源，但它的使用确实带来了新的挑战，无论在哪个领域，都必须应对这些挑战，这为各领域之间的潜在交流提供了一个方便的开端。

首先，社交媒体用户通常不代表一般人群。更好地了解人口统计数据可能有助于解释调查结果，但对用户的了解往往很少。收集人口统计信息需要付出巨大的努力，或者在某些情况下，由于道德问题，甚至可能无法收集。其次，社交媒体数据还引入了新的分析单位（如信息和线索），这些分析单位与传统的分析单位（如句子和话轮）不完全一致。这就提出了对以前工作中的研究发现的有效应用的问题。此外还有一些操作层面的问题。

与计算语言学中使用的各种其他类型的数据相比，自动处理社交媒体数据更加困难。由于许多社交媒体文本的非正式性质，许多开发的工具（例如分析器、命名实体识别器）都不能很好地工作。

另一个从社会角度研究语言的新兴资源是众包（crowdsourcing）。到目前为止，众包主要用于获取大量注释。然而，“群体”也可以用于大规模的感知研究（即研究非语言学家如何解读信息和识别说话人的社会特征），以及收集语言数据，如使用语言变量的变体。在社会语言学中，调查一直是收集数据的工具之一，众包是收集调查数据的传统方法的一种新兴替代方法。

众包已经被用来获取社会语言学研究的感知数据——例如，研究不同语言群体对英语话语的不同感知，以及获取语音样本的本土相似度评级。当然，众包也带来了一些挑战。

三语言与社会身份认同

下文来讨论建构与社会认同相关的语言变异的计算方法。说话者用语言来构建他们的社会身份，语言是说话者用来塑造身份的工具之一，但是其对可以实现的变异是有限制的（例如物理的或遗传的）。

认识到语言的使用可以揭示社会模式，许多计算语言学的研究集中于从文本中自动推断社会变量。这个任务可以被视为一种自动元数据检测的形式，可以提供关于作者特征的信息。对趋势分析工具的日益增长的兴趣是对这类元数据检测算法的开发和改进感兴趣的驱动因素之一。

在计算语言学中，与种族、社会阶层等变量相比，依据性别、年龄和地理位置的语言变异受到了更多的关注。许多研究集中在个人社会变量上，但是这些变量不是独立的。

在这一部分中，将概述与社会认同相关的语言变异的计算研究。本节将首先集中讨论在计算语言学中用于调查社会认同和语言变异的数据集（第3.1节）。在调查了根据性别（第3.2节）、年龄（第3.3节）和位置（第3.4节）对语言变异的计算研究后，最后讨论了如何通过考虑与说话者社会身份相关的语言变异来改进各种NLP任务，如情感检测（第3.5节）。

3.1 数据源

早期关于社会身份和语言使用的计算研究是基于正式文本，比如英国国家语料库，或者从受控环境中收集的数据集（如记录的对话和电话对话）。随着社交媒体的出现，人们注意到了一个向不受控制的环境中收集的非正式文本的转变。这个领域的最初工作大多集中在博客上，比如“博客作者语料库”（Blog Authorship Corpus）已经被用于各种与性别和年龄相关的研究中了。最近的研究则集中在Twitter数据上，这些数据包含比博客更丰富的互动。

在创建数据集以研究社会变量和语言使用之间的关系的过程中，有两个方面经常涉及。

标签。来自不受控制的环境（如社交媒体）的数据集通常缺乏关于用户身份的明确信息，如他们的性别、年龄或位置。研究人员使用了不同的策略来获得足够的标签：用户提供的信息、手动注释、利用名字。

样本选择。在许多情况下，有必要将研究限于样本人群。有时，所选样本与标签获取方式直接相关。

3.2 性别

性别和语言变异的研究在社会语言学中备受关注。各种研究都强调了性别差异。但是这些研究中的许多都依赖于小样本，忽略了其他变量（如种族、社会阶层）以及性别之间的许多相似之处。这种概括助长了陈规定型观念和将性别视为固有财产的观点。

3.2.1 性别建模。在计算语言学中，研究人员主要关注基于文本的自动性别分类。性别随后被视为基于生物特征的二元变量，导致二元分类任务。已经探索了多种机器学习方法，包括SVMs、逻辑回归、朴素贝叶斯和Winnow算法等。然而，将性别视为基于生物学特征的二元变量，假设性别是固定的，是人们拥有的东西，而不是人们所做的事情；也就是说，这种设置忽略了说话者的作用。许多社会语言学家和一般社会科学的学者将性别视为一种社会结构，强调性别行为是社会习俗的结果，而不是固有的生物学特征。

3.2.2 特性和模式。大多数研究没有关注底层的机器学习模型，而是专注于开发预测特性。许多基于语法结构的各种特征也已有很多研究，文体特征也有广泛探讨。

体裁（genre）。到目前为止，没有多少研究分析了体裁和领域对语言使用的影响，但是更好的理解将有助于对观察到的语言变异模式的解释。

社交互动（social interaction）。大多数关于语言使用中性别特定模式的计算研究都是孤立地研究说话者。由于会话伙伴和社交网络影响着说话者的语言使用，一些研究也通过考虑语境因素扩大了他们的关注范围。并非所有关于互动环境中性别的计算研究都关注性别分类本身，也有些人在研究其他现象时将性别作为变量。

3.2.3 对调查结果的解释。如前所述，大多数计算方法基于生物特征，将性别视为一种固有属性，这种观点过于简单。直到最近，计算语言学界才注意到这种简单化观点的局限性，承认说话者这一主体。

因此，语言本质上是社会性的，尽管某些语言特征通常被男性或女性更多地使用，但个别说话者可能会偏离许多研究中强调的刻板印象。此外，性别因文化和语言的不同而形成不同的形态，因此将性别作为一个普遍的社会变量可能会产生误导。此外，同一性别的人的语言差异也是如此。

3.3 年龄

衰老是一种普遍现象，理解语言和年龄之间的关系可以在许多方面提供有趣的见解。一个人在特定的时间代表了历史上的一个位置以及人生的一个阶段，因此观察到的模式有助于产生对语言变化以及个人在生活中如何改变他们的语言使用的新见解。在计算语言学中，关注语言随年龄变化的研究少于关注性别的研究，这可能是因为获取年龄标签比性别标签更难。这些研究大多集中在绝对时间年龄上，尽管年龄也可以被看作是一个如同性别一样的社会变量。

社会语言学研究发现，通常是青少年会使用最不规范的形式，因为在年轻时不符合既定社会惯例的群体压力最大。相比之下，成年人被发现会使用最标准的语言，因为对他们来说社会进步很重要，他们使用标准的语言才更会被社会认真对待。这些见解可以解释为什么预测老年人的年龄更难。因此，年龄是一个需要考虑的重要变量，特别是当我们考虑与语言进化相关的过程时，因为语言创新的程度因年龄而异。

3.3.1 建模年龄。一个基本问题是如何对年龄建模，到目前为止，研究人员还没有达成共识。在计算语言学中，最常见的方法是根据说话人的年龄来模拟特定年龄的语言使用。对于许多应用来说，将年龄建模为分类变量可能就足够了。然而，它确实有几个限制：首先，选择年龄界限已经证明是困难的。其次，研究人员根据其数据集的年龄分布使用了不同的类别，这使得跨数据集进行比较变得困难。出于这些限制，最近的研究将年龄建模为一个连续变量，消除了定义年龄类别的需要。

3.3.2 特性和模式。关于年龄预测的大多数研究都集中在识别预测特征上。尽管一些特性往往跨域有效，但其他特性往往是限于某特定域的。

3.3.3 对调查结果的解释。年龄预测实验通常在特定时间点收集的数据集上进行。基于这样的数据集，语言使用被建模并在不同年龄的用户之间进行比较。被发现具有预测性或与年龄高度相关的特征被用来强调“年轻”和“年长”的人说话或写作的不同。然而，基于这些数据集观察到的语言使用差异可以用多种方式解释。

3.4 位置

在社会语言学和相关领域，如方言学和方言测量学，区域变异已经得到了广泛的研究。区域变异的研究受到了新的统计方法的很大影响，例如计算语言学、机器学习和空间分析。尽管方言和方言测量研究中通常使用的数据集与计算语言学中使用的数据集相比仍然很小，但是类似的统计方法已经被探索过了。这为与计算语言学更密切的合作创造了一个有希望的起点。

3.4.1 建模地理变化。在CL中，我们发现在地理变异的计算建模上有两条工作线。（1）监督。第一种方法从根据他们的方言标注的文档开始，这可以看作是一种监督学习方法。采用这种方法的大多数研究都集中在自动方言识别上，这是自动语言识别的一种变体，是计算语言学领域中一个研究非常深入的课题。（2）无人监督。另一种方法是从位置标记数据开始，自动识别方言区域。尽管模型被赋予了标示说话者位置的标签，但方言标签本身却没有被观察到。在方言建模的背景下，我们认为这是一种无监督的方法。

3.4.2 特性和模式。单词和字符n-gram模型在方言识别中经常被使用。类似地，许多基于文本的位置预测系统利用单字特征。为了支持新的社会语言学模式的发现和提高预测性能，一些研究集中在自动识别方言的特征上。利用位置标记数据，一些研究集中于分析区域变化的模式。纵向数据的不断增加则使得研究语言创新在地理上和时间上的大规模传播成为可能。

3.4.3 对调查结果的解释。按方言标注文本假定方言之间有明确的界限。然而，要在语言变体（例如语言、方言）之间做出绝对的区分并不容易。因此，决定合适的标签来描述不同说话群体之间的语言交流（根据语言、方言、地区多样性等）是一个正在讨论的问题。

3.5 基于身份信息的文本分类

到目前为止，我们专注于自动预测变量本身（例如性别、年龄、位置），但是与说话者身份相关的语言变化也可以用来改进各种其他NLP任务。

四语言与社交互动

上一节探讨了通过语言研究身份建构的计算方法。我们讨论了性别、年龄和地理位置等变量，从而主要关注社会结构对语言使用的影响。然而，正如我们也指出的，说话人主体可以违反传统的语言模式。说话者不是孤立地行动，而是成对、成组和成社区的一部分。社会互动环境产生了因主体而变化的机会。响应这些社交场合和相遇的细节（例如，讲话者的听话人或听众、话题和社交目标），各个讲话者之间存在很大差异。与交互环境相关的变化将是本节的重点。

我们从讨论大规模分析成对、成组和社区语言使用的数据源开始（第4.1节）。接着讨论研究语言如何反映和塑造社会关系中的基础的计算方法（第4.2节）。在第4.3节中，继续讨论风格转变。我们讨论了社会语言学中的两个重要框架，听众设计和交际顺应理论，并讨论了这些框架是如何在计算语言学界得到研究的。最后，我们将注意力转移到社区层面，讨论成员如何调整语言以符合或有时偏离社区规范的计算研究。人们可能会猜测这些微观过程最终会变得多么传统，因此会考虑这些过程会如何导致语言随时间而变化（第4.4节）。

4.1 数据源

许多与调查社会认同概念相关的数据类型也与成对、成组和社区的交流动态相关。在线数据中详细交互记录的可用性，推动并促成了计算语言学中关于这一主题的大量工作。已经分析了各种在线论坛，包括在线癌症支持社区、街头帮派论坛，以及最近大规模开放在线课程中的论坛。审查网站也被用于在线社区的语言研究，如TripAdvisor、IMDB和啤酒审查社区。Enron邮件语料（Enron e-mail corpus）也常被使用；还涉及其他一些。

4.2 塑造社会关系

语言不仅是交流信息的一种手段，而且语言也有助于互动中行动的表现。语言同时反映了说话者相对于谈话伙伴的定位以及伴随这些定位的行动。有时，这些行为的分布可以被认为是如此的一致，以至于它们可以被认为是定义了会话角色。在概念层面上，这项工作大量借鉴了语言学的语用学基础以及社会学的话语理论，这两者都提供了一个互补的观点。

我们首先讨论从文本中自动提取社会关系的一般话题，然后重点讨论权力和礼貌。

社会关系的自动提取。意识到语言的使用可能揭示了社会关系的线索，CL中的研究探索了基于文本的不同类型社会关系的自动提取。已经做出的一个区别是弱关系（例如熟人）和强关系（例如家人和密友）。其他研究已经从更广泛的数据集中自动提取了社会关系，使得能够分析提取的网络结构。

权力。关于权力关系的工作借鉴了社会情境中相对权力的社会心理概念，特别是相对权力的各个方面，这些方面在个人层面上相对于群体或社区中的特定其他人发挥作用。在语言学和计算语言学领域，调查的重点是说话者如何使用语言来维持和改变权力关系。这两个维度的操作和计算建模在学习科学领域有着重要的应用。

在计算语言学中，大部分与权力分析相关的工作都集中在从文本中自动识别权力关系上，因为权力通过语言反映出来。尽管本文引用了一些文献，但社区之间的互动迄今仍停留在简单的层面上。

礼貌。礼貌行为有助于维持社会和谐和避免社会冲突。检测礼貌的自动分类器已经被开发出来，用于大规模研究礼貌策略。

4.3 风格转变

根据Labov（1972），没有单一风格的说话者，因为说话者可能会根据他们的交流伙伴（例如受话人的年龄、性别和社会背景）在不同风格之间切换（风格转换）。

交际顺应理论。交际顺应理论试图解释为什么说话者在交谈中相互顺应。

听众设计。在新西兰的一项经典研究中，艾伦·贝尔发现，新闻广播员会根据电台的不同而使用不同的话语风格，即使他们在同一天报道相同的新闻。贝尔的听众设计框架（Bell 1984）解释了作为对听众进行反应的风格转变。

4.4 社区动态

正如我们刚才讨论的，人们会根据谈话对象调整他们的语言使用。在社区内，规范随着时间的推移通过成员之间的互动而出现，例如使用俚语和特定领域的行话，或者在Twitter上表示转发的约定。

对这一主题的早期调查基于非公共社区的数据。最近的研究则使用了来自公共在线社区的数据，如在线论坛和评论网站。这一方向的研究显示了利用大量在线数据定量研究社区语言变化的潜力。然而，在这种分析中，应该仔细考虑数据中的偏差，特别是当数据的动态和内容没有被完全理解时。

五多语言与社交互动

语言是通过语言社区内外说话者的互动来发展的。在社会语言学中，关于语言混合和/或语码转换的背景和条件，多语使用者和言语社区已经被广泛研究。本节的其余部分将讨论大规模研究多语交流的数据源（第5.1节）；调整各种NLP工具以处理混合语言文本的研究（第5.2节）；甚至试图预测多语交流中多种语言的使用的研究（第5.3节）。

5.1 数据源

在社会语言学中，会话数据通常是由研究人员自己收集的，或者是在不同时间的小组说话者中收集的，或者是纵向从同一组说话者中收集的。手动转录和注释数据既耗时又昂贵，在线环境中的多语言数据通常以小批量、短时间提取。对大多数语言来说，自动分析这类数据一直很困难，尤其是在缺乏资源或技术支持的情况下。

在计算语言学中，人们对混合语言文本的自动处理越来越感兴趣了。处理和分析混合语言数据通常需要在单词级别识别语言，而语言识别则是CL中一个研究很深入的问题。

5.2 用于多语数据的NLP工具

大多数当前的NLP工具（例如语法分析器）是为用单一语言编写的文本开发的。因此，这种工具并没有针对处理包含多种语言的文本进行优化。在本节中，我们讨论了NLP工具的开发，这些工具的具体目标是支持多语言文本的处理。我们从研究自动语言识别开始，这是许多特定语言分析任务预处理流程中的重要一步。混合语言文档给这项任务带来了新的挑战。然后，我们会继续讨论其他各种NLP工具的工作。

自动语言识别。自动语言识别通常是处理混合语言文本的系统的第一步。此外，它也支持对多语言交流模式的大规模分析。

解析。早期对计算语言学中语言混合的研究侧重于开发语法来模拟语言混合。然而，这些早期研究中开发的模型没有在经验数据上进行测试。最近开发的系统已经在大量真实数据上得到验证。

语言和话题模型。学者已经开发出了一些语言模型，通过向语言模型中添加POS和语言信息或结合句法反转约束，来改善混合语言的言语识别。

5.3 多语言交流的分析与预测

在多语场景中，社会因素有着与语言因素同样重要的作用。随着自动语言识别工具的出现，多语言交流中的社会因素的大规模分析直到最近才成为可能。Twitter经常被用作这类研究的资源。除了对多语言交流模式的分析之外，一些研究还探索了语言转换的自动预测。

六研究议程

计算社会语言学是一个新兴的多学科领域。社会语言学家和计算语言学家之间更密切的合作可能对这两个领域的研究人员都有好处。在这篇文章中，我们概述了一些与数据和方法差异相关的挑战，这些挑战必须得到解决，才能有效发挥协同作用。在这一部分，我们总结了推进计算社会语言学领域研究的主要挑战：扩大该领域的调查范围、调整方法以提高兼容性以及提供工具。

6.1 扩展调查范围

计算语言学领域已经开始研究与社会语言学领域重叠的一些问题。两个社区都感兴趣的新出现的数据可用性是一个重要因素，但是为了从中产生真正的协同作用，需要在各自社区的研究议程和方法框架中增加新的角度。

包括：超越词汇和文体变异；将焦点扩展到其他社会变量；超越英语和单语数据；从单模态到多模态数据。

6.2 调整方法框架以提高兼容性

为了利用社会语言学丰富的理论和实践，并为之做出贡献，我们必须理解社会语言学研究的方法。然而，正如我们在方法论讨论中强调的那样，社区之间价值观的差异可以被视为一种鸿沟。CL社区经历了一段历史，在这段历史中，理论和经验主义被视为一个光谱的极端，而在社会科学中则没有这种二分法，经验主义对理论有很大贡献。展望未来，计算社会语言学的研究应该建立在现有社会语言学理论和见解的基础上，并寻求合作伙伴。这需要将重点放在已开发模型的可解释性上。当观察应用计算社会语言学工作的成功时，可以看出这种注意力转移的可行性。

这其中包括：多变量的控制；开发跨领域推广的模型；使用社会语言学和社会科学作为方法论反思的灵感来源。

6.3 根据社会语言学研究的需要调整NLP工具

作为最后一个重要的方向，我们应该考虑NLP工具需要做些什么来支持社会语言学工作。比如：开发可以指导数据分析系统用户采取下一步行动的模型；开发预处理工具来支持语言变异分析。

七结论

尽管计算语言学领域在历史上一直强调对语言命题内容的解释和操作，但对语言的另一个观点是，它是一个动态的社会实体。从社会的角度来看，语言的某些方面是可以预测的，因此其行为更像该领域常见调查对象的其他方面。但是我们必须承认，语言主体是语言如何被用来构建社会身份、建立和维持社会关系，甚至界定社区边界的一个重要部分。

对社交媒体数据越来越多的研究有助于人们认识到，文本可以被视为捕捉人类和社会行为的多个方面和层面的数据源。最近对文本作为社会数据的关注以及计算社会科学的出现，可能会增加计算语言学界对社会语言学论题的兴趣。在这篇文章中，我们定义了“计算社会语言学”这一新兴领域并制定了一个研究议程。我们旨在全面概述CL领域内发表的涉及社会语言学主题的研究，以便概述到目前为止什么已经完成了，以及哪里还有增长的空间。特别是，我们努力展示了CL社区的大规模数据驱动方法是如何能够给现有的社会语言学研究带来补充和完善的，也同时说明了社会语言学如何能够告知和挑战我们的方法和假设。

参考文献

Nguyen, Dong., A. Seza Doğruöz, Carolyn P. Rosé, Franciska de Jong. 2016. Computational Sociolinguistics: A Survey. Computational Linguistics 42(3): 537-593.

往期“观约谈”

（点击蓝色文字跳转）

第28期 “剑桥、SAGE、牛津”社会语言学手册之比较

第24期语言是扶贫脱贫的基础因素之一