查看原文
其他

前沿专著|Jonathan Dunn《语料库语言学的自然语言处理》

六万学者关注了→ 语言学心得 2024-02-19

沿


///

剑桥大学出版社

2022年3月



[美] 乔纳森‧邓恩 著



语料库(Corpus)分析可以通过与自然语言处理相关的计算方法来扩展。 该方法展示了文本分类和文本相似性模型拓展语料库语言学在大型语料库中应用的能力。语料库的扩大导致传统类型的语言分析难以应用,因此这些计算方法变得愈加重要。 本书中利用五个案例来展示如何以及为何使用计算方法,从基于使用的语法到作者分析,再到使用社交媒体进行基于语料库的社会语言学。 每个部分都附有交互式代码以展示如何在 Python 中实现分析。 还提供独立的 Python 包来帮助读者将这些方法应用于自己的数据。 由于大规模分析引入了新的伦理问题,因此将每种新方法与其潜在伦理影响也会配对进行讨论。


  ///  前沿专著(第2期)


《语料库语言学自然语言处理》

[美] 乔纳森‧邓恩 著

作者简介

[美]乔纳森‧邓恩(Jonathan Dunn),坎特伯雷大学高级讲师,计算语言学家。发布超过35篇论文,研究领域包括对语法结构的出现以及变化进行建模。同时关注语言变异以及NLP模型。进行MOOC跨学科教学,教授NLP知识超14000人。



目录

第一章 计算语言分析

1.1 扩大语料库语言学规模

1.2 案例研究

1.3 分类问题

1.4 比较问题

1.5 向量空间中的语言


第二章 文本分类

2.1 量词评估

2.2 内容展示

2.3 结构展示

2.4 上下文展示

2.5 语用展示

2.6 逻辑回归

2.7 前馈网络

2.8 伦理问题:隐性偏见


第三章 文本相似度

3.1 分类与认知

3.2 测量语料库相似度

3.3 测量文档相似度

3.4 使用关联测量单词相似度

3.5 测量向量空间中的单词相似度

3.6 按相似度聚类

3.7 伦理:模型歧视


第四章 验证及可视化

4.1 政治演讲预测结果报告

4.2 使用箱线图确保有效性

4.3 使用线图揭露假名作者

4.4 使用热图比较嵌入词

4.5 使用等值区域图追踪语言多样性

4.6 伦理:平等访问


第五章 结论


参考文献



书  评


如今,随着可用于语言研究的语言数量的不断增加,语料库语言学 (CL)的黄金时代已经到来。语料库数据可以描述大规模人群的语言使用情况,绕过内省研究的局限性。然而,语言数据的广泛可用性要求语言学家拥有可靠的方法来分析它。尽管自然语言处理(NLP)和计算语言学取得了进步,但它们似乎与CL和语言理论越来越脱节。然而,Jonathan Dunn 的《自然语言处理语料库语言学》将NLP和CL结合在一起,展示了如何使用计算模型来解决分类和比较问题,以及如何在非常大的语料库中进行 CL。五个研究案例展示了如何以及为何使用计算方法,范围从语义分析、句法分析到基于语料库的社会语言学。目的是展示如何应用这些计算模型、应用它们可以解決哪些语言问题,以及为什么这种方式对扩展语料库语言学至关重要等。本书阐述了如何使用 NLP 来回答语言问题,并帮助计算机科学家理解NLP 的假设和经常被忽视的局限性。


本书由五章组成。首先简要介绍主要主题。第二章和第三章讨论文本分类和相似度。第四章是结果总结,四个主要章节的每一章都以对所提出的方法产生的伦理问题的讨论作为结束。最后,第五章从技术、语言和道德的角度审视了计算方法。


本书的目的是演示如何使用文本分类和文本相似性模型来回答分类和比较等语言问题,提出了五个案例,范围从语料库文体学到涉及社会经济指标的研究。其中一节分析了如何使用文本分类器来解决分类问题。在这个完整的分类系统中,每个语言单位又被分为多个类别。另一节重点介绍第二种模型,即文本相似度模型,用于解决比较问题。文本相似性模型不是离散的,并且与分类器不同,它们不需要任何初步注释。换句话说,这些模型并不期望语言学家或研究人员事先指定类别。乔纳森•邓恩接着指出了


语言的高维表示模式,即向量空间,它允许计算机读取语言数据,并且其中的关系应该反映我们感兴趣的语言关系。最后,作者提出了有关数据权利的道德担忧。研究人员现在可以利用计算模型来检查非常大的语料库,但他们需要意识到他们的工作可以为监视资本主义做出贡献。作者提出的问题是:学者们如何确保这种语言分析的使用符合伦理?


第二章讨论如何将语言信号的特定部分转换为突出显示各种类型特征的向量空间。关于文本分类器评估的主题,作者提供了一个示例,其中通过将分类器暴露于多个实例来训练分类器,以达到捕获英语方言的词汇和语法特征的目的。精度、召回率和千分数是用于衡量分类器预测准确性的三个常用指标。“精确度”告诉读者真阳性率,“召回率”告诉他们假阴性率,“分数”为读者提供同时解释真阴性和假阴性的一有衡量标准。在接下来的四个部分中,每个向量空间都作为几个不同表示的核心,突出显示内容 (语义)、结构(句法)、上下文(局部句法关系)和情感(语用)。在作者所说的 “人文地理学”中,他借助来自全球三十个城市的推文来说明如何将内容转换为代表不同语义特征的向量空间,从而对社会和地理特征进行预测每个城市。在讨论结构的表示时,邓恩使用虚词 n 元语法作为文体特征,预测了由 24 位不同作者撰写的 1100 本书的作者身份。在有关上下文表示的部分中,作者解释了描述单个单词的句法环境的位置向量如何预测词性。这可以更好地表示单词的预测,因为位置向量捕获每个标记的语言上下文。在下一节中,作者假设采用基于字典的方法来描述情感,使用字典确定的积极单词列表和消极单词列表。在这种情况下,分类器可以确定530 条酒店评论是正面还是负面。无论向量空间的类型如何,这些在各种特征上训练的分类模型似乎都可以做出准确的预测。


在描述了语言在向量空间中的表示方式之后,作者检查了文本分类器的内部工作原理以及如何使用逻辑回归和前馈神经网络来训练模型。前者允许研究人员为输入向量中的每个特征或维度赋予权重,使结果更容易解释;而后者包含几个隐藏层,产生较少易于解释的结果。最后,研究了文本分类中隐含偏见的伦理问题。


第三章重点讨论使用文本相似度模型的分类和比较问题。分类问题涉及具有预定义的离散边界的类别,可用于单独预测样本,而比较问题涉及确定哪些现有标签最适合给定样本,解决两个之间的 “连续(标量)关系”样品”。作者继续利用文档相似性来研究相似性关系,以识别语料库中的相关文本。作为最具包容性的比较模型,语料库相似度揭示了两个语料库之问的整体相似性。作者使用语料库相似性度量来研究语言语域变异。结果表明,特定于上下文的特征(例如构造频率和功能词n元语法)是语域变化的可靠指标。文档相似性根据与文本主题、风格(作者)和情感相关的三种不同的语言表示来搜索相关文档。作者使用欧几里德距旁作为度量来查找特定向量空间中最相似的文档,并以人类如何构造类别的近似值为例。单词相似度量化一对单词或概念之问的语义相似度。两个部分涉及测量单词相似度。首先讨论向量语义,例如AP关联。第二个涉及分布式语义,例如词嵌入的余弦距离。作者重点关注k均值聚类算法,扩展了整个数据集的成对相似性。再次讨论了围绕模特歧视的伦理问题,特别是与负面刻板印象相关的问题。


下一章涉及答案的验证和可视化方法,以探索使用计算方法时的研究结果。为了确定计算模型在孤立情况下是否表现良好,作者展示了如何通过添加基线并比较不同系统的性能来报告政治演讲预测的发现。如果不考虑计算模型的背景,则很难仅依赖千分数。当模型捕获数据集中不相关的线索时,经常会出现过度拟合的验证问题。交叉验证和验证集是可用于在这种情况 下解决此问题的两种技术。第一种技术将所有数据存储在内存中,例如在逻辑回等浅分类器的情况下。另一方面,像前馈网络这样的深度分类器需要更长的时问来进行小批量增量训练。然后,作者讨论了如何使用各种类型的图表来可视化计算模型的结果。线图和面网格可用于可视化作者身份分析的揭露性能。热图旨在比较多组语料库中的词嵌入,有时使用 Jaccard 相似度。等值区域图通过给定社会经济数量的地图说明了语言多样性。最后,作者重点讨论了数字数据的可用性对语言和人口的影响,学者可以通过计算模型对其进行评估


显然,如最后一章所述,必须考虑所提出的计算方法的技术和语言以及伦理方面。然而,目前尚不清楚分类问题和比较问题之间是否总是存在明显的区别。例子证明他们之间互动频繁。想要重现所有示例的读者可以使用文本分析Python 包并在自己的计算环境中实现这些方法。


这本书非常有价值。如果添加两种类型的案例研究,它的用处可能会更大。人们可以将文本分类和文本相似性方法与验证和可视化相结合,因为越来越多的研究人员采用机器学习技术从图像数据中得出有关话语分析的结论。作为第二个案例研究,基于计算方法的多模态分析也将迎来自然语言处理和语料库语言学的新时代。我们只能希望这將在第二版中出现。


尽管存在这些限制,本书在如何整合语料库语言学和计算方法来解決各种分类和比较挑战方面令人大开眼界。本书与现有文献的一个特点是其统一的视角,描述了计算方法的新功能,并作为该领域研究人员的起点。对于那些想要将计算模型应用于自己的语言研究的人来说,这本书是一个路标。


此外,它有助于评估熟悉语料库语言学并具有 NLP 背景的研究人员的任务。本书教读者如何将计算模型应用于语料库语言学,并改进对语言学中最困难问题的研究。它可用于学者和教师的高级本科生和研究生课程,因为它为希望用 Python 实现分析的读者提供了交互式代码笔记本。希望将这些方法应用到自己的研究中的研究生和研究人员也可以使用它。此外,本书还提供了对语义、句法、文体学和社会语言学的新见解,并为语言学之外的问题提出了新的研究途径。值得称赞的是,作者还解决了大型数字语料库和计算语言学相结合所产生的伦理问题。总之,这显然是一本在语料库语言学研究领域值得关注的出版物。


参考文献:

Zhao, Q. Review of Natural Language Processing for Corpus Linguistics. Corpus Pragmatics 6, 311–314 (2022). https://doi.org/10.1007/s41701-022-00127-6





课程推荐




重  磅|中国史上首个境外大学排名发布!(语言文学专业)

2023-08-30

刊讯|SSCI 期刊 《认知语言学》 2023年第1-2期

2023-08-30

博学有道|英国应用语言学专业申博交流会

2023-08-29

刊讯|SSCI 期刊《第二语言学习与教学研究》2023年第1-2期

2023-08-29

汉语句子阅读中,正字法影响形-名词搭配理解吗?

2023-08-28

刊讯|SSCI 期刊 《应用心理语言学》 2023年第1-2期

2023-08-28

好书推荐|《话语分析:实用工具及练习指导》(留言赠书)

2023-08-27

刊讯|SSCI 期刊《社会中的语言》2023年第1-3期

2023-08-27

刊讯|CSSCI 来源集刊《南开语言学刊》2023年第1期

2023-08-26

刊讯|《语言智能教学》2023年“技术赋能国际中文教育”专刊

2023-08-25

语言学应该面向“应用”吗?如果是,如何用呢?

2023-08-24

研究必备|如何做好质性研究?(限时赠书)

2023-08-24


欢迎加入

“语言学心得交流分享群”“语言学考博/考研/保研交流群”
请添加“心得君”入群务必备注“学校+研究方向/专业”


今日小编:墨 色 深

审     核:心得小蔓

转载&合作请联系

"心得君"

微信:xindejun_yyxxd

继续滑动看下一个

前沿专著|Jonathan Dunn《语料库语言学的自然语言处理》

六万学者关注了→ 语言学心得
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存