计算语言学 | 使用文本分析非人性化现象

大邓和他的Python

2024-09-09

The following article is from 小T英语 Author 小T英语

关于计算语言学分析非人化的框架

分享一篇论文：关于计算语言学分析非人化的框架。

该论文发表在Frontiers in artificial intelligence：

Mendelsohn, J., Tsvetkov, Y., & Jurafsky, D. (2020). A framework for the computational linguistic analysis of dehumanization. Frontiers in artificial intelligence, 3, 55

一、研究背景

使用计算语言学技术来分析语言中的非人化现象。这种方法可以帮助研究人员更好地了解人类语言使用中的非人化现象，以及这些现象对社会、文化和政治的影响。这个框架包括了一系列的技术和方法，如情感分析、词频统计、主题建模等，旨在帮助研究人员更全面、深入地理解非人化现象，并提供基于证据的见解和结论。

非人化（英语：Dehumanization），又称非人性化或去人性化，是指对他人的人性的充分否认，经常随之而来的是对其他人的残酷，以及对他人痛苦的不怜悯。一个实际的定义是，任何不将他人视作人的行为或者想法均属于非人化。在这个定义中，每一个将人视为“低于”人的行为或思想都是非人化。非人化往往是煽动种族灭绝的一种手段[7]，它还常被用来为战争、法外处决、奴役等行为辩护，另外用来攻击敌人或政治对手

该框架涉及从社会心理学文献中识别非人化的主要维度，为每个维度提出语言相关性，并开发稳健且可解释的计算方法来量化这些相关性。应用此框架研究 1986 年至 2015 年纽约时报对 LGBTQ 人群的非人性化。衡量了非人性化的四个维度：对目标群体的负面评价、能动性否定、道德厌恶和（隐含的）害虫隐喻调用。为了便于解释，将分析限制在词汇层面，并利用了多种现有资源，包括 NRC VAD 词典（Mohammad，2018 年）、内涵框架词典（Rashkin 等人，2016 年；Sap 等人，2017 年） )，以及《道德基础词典》（Graham 等人，2009 年）。

二、数据来源

涵盖纽约时报 30 多年的文章，从 1986 年 1 月到 2015 年 12 月，最初由 Fast 和 Horvitz (2016) 收集。
NRC VAD 词典（Mohammad，2018 年）、内涵框架词典（Rashkin 等人，2016 年；Sap 等人，2017 年） )，以及《道德基础词典》（Graham 等人，2009 年）。

三、研究发现

在 1986 年，LGBTQ 群体与经常传达性变态感的词关联度最高，包括promiscuity, promiscuous, polygamy, bestiality, and pornography。这些联想表明，此时的 LGBTQ 人群在某种程度上被非人化，他们的身份没有得到充分的认可或重视。这种情况在 2000 年发生了转变，我们不再看到 LGBTQ 群体与引起道德厌恶的想法之间的联系。2000年向量空间表明 LGBTQ 人群与民权问题的关联度越来越高（表现为interracial, homophobia, and discrimination）。orderation 和 ordaining 这两个词的出现可能是由于此时出现了关于是否应允许 LGBTQ 人群被任命的重大争议。我们还看到一些迹象表明，公开地使用该术语进行自我认同。最后，我们看到 2015 年与身份的关联略有转变，附近的词包括nontransgender, closeted, equality, and sexuality。奇怪的是，abortion这个词是所有 3 年的近义词。也许这是因为对堕胎和 LGBTQ 权利的看法似乎存在类似的党派分歧。
揭示了男gay 和 homosexual 之间的社会意义差异，尽管指称相似，并且这些差异随着时间的推移而加剧。1986 年，gay与歧视、公民权利和行动主义相关，如civil rights and activism, such as homophobia, feminist, suffrage, sexism, and a.c.l.u. 另一方面，homosexual主要与与性活动相关的词语相关（例如，promiscuity, anal, intercourse, consenting）。
随着时间的推移，LGBTQ 群体的评价越来越积极，因此在《纽约时报》中的非人性化程度可能会降低。然而，2001 年至 2015 年间包含homosexual的段落的效价略有下降趋势表明，对被描述为homosexual的人的评价并没有像其他标签所描述的那样得到改善。
这种测量结果不支持我们最初的假设，即 LGBTQ 群体比美国人受到的负面评价更多，但仍然表明观察到的 LGBTQ 标签趋势不仅仅是报告风格变化的产物，因为包含美国人的段落显示出截然不同的模式。总的来说，这一结果表明纽约时报对 LGBTQ 人群的讨论发生了重大的语言变化，以及不同群体标签出现的背景发生了变化，尤其是homosexual。
内涵框架的观点得分揭示了与段落级效价分析类似的模式，随着时间的推移，纽约时报对 LGBTQ 群体的总体评价似乎更为积极。与 gay 和所有 LGBTQ 术语的总和不同，homosexual 这个标签会受到贬低，因为在（含蓄地）表达对 LGBTQ 人群的负面态度时，越来越多地使用 homosexual。
长期以来，与gay相比，homosexual 在更消极（并且可能不人道）的语境中被使用，并且随着时间的推移，同性恋这个标签在越来越消极的语境中被使用，这些词的含义进一步分化。
高正效价通常伴随着对 LGBTQ 群体的积极评价表达，而低效价通常伴随着消极评价表达。然而，段落级的效价分数也受到各种主题提示的特定词的影响；关于同性婚姻的段落往往更积极，因为像婚姻、结婚和夫妻这样的词具有高效价分数，而报告仇恨犯罪的段落往往更消极，因为它们包含与犯罪、暴力和伤害相关的低效价词.此外，这种方法不能解开文本中的观点；尽管在反 LGBTQ 暴力和恐同言论的报道中表达了非人性化的语言信号，但这些非人性化的态度并不一定是从记者或机构的角度来看的。然而，如果媒体对边缘化社会群体的讨论强调此类伤害人的事件，则可能会产生整体上的非人化效果。LGBTQ 标签与此类负面背景之间的反复关联可能会导致对 LGBTQ 群体的负面评价。
在 1999 年，gay、homosexual 和所有 LGBTQ 术语的聚合表示与低价词的关联比几乎任何其他术语都更紧密年。我们将这一发现与 1998 年 10 月怀俄明州一名同性恋大学生 Matthew Shepard 被谋杀后几个月的大量报道联系起来，这起事件引起了全国对反 LGBTQ 暴力的关注。自 1999 年以来对gay和所有 LGBTQ 术语最负面的年份是 2014 年，这是数据的第二个最新年份。与 1999 年和 2014 年不同，1993 年的 LGBTQ 术语与更高价的词相关联，尤其是homosexual。homosexual在 1993 年的唯一最近邻包括高价词承诺、平民、准备和包容。这些话很可能与 1993 年的许多故事有关，这些故事涵盖了关于 LGBTQ 人群是否应该被允许参军的争论。
LGBTQ 群体在《纽约时报》中比该机构的群体内标识符 American 经历了更大的能动性否定。此外，被描述为homosexual的人比被描述为gay的人经历更多的能动性否定。与我们对目标群体的负面评价的分析所表明的改善态度不同，对于所有 LGBTQ 群体而言，能动性否定似乎随着时间的推移而增加。然而，homosexual能动性的相对快速下降与其他暗示homosexual贬损的结果是一致的。
随着时间的推移，所有 LGBTQ 术语的内涵框架的代理略有下降，但随着词嵌入邻居优势的增加而增加。
homosexual 一词与道德厌恶的联系总是更多，而且近年来homosexual 实际上与这种非人化概念的联系更加密切。
homosexual's不断变化的语义邻居的分析表明，这个词与不道德概念的联系越来越紧密，这表明道德厌恶是 LGBTQ 人被非人化的一种机制。
LGBTQ 群体与害虫的联系比美国人多，但这种联系会随着时间的推移而减弱，这表明人性化程度有所提高。此外，homosexual 已成为一个更加非人化的术语，与害虫的关联比其他 LGBTQ 标签更强。
尽管没有《纽约时报》的作者直接将 LGBTQ 人群比作害虫，但这个比喻可能会以更微妙的方式被引用。LGBTQ 语料库中只有三段明确提到害虫，以批评 LGBTQ 人是害虫的比喻。然而，这些段落指出了这个比喻的存在。
《纽约时报》对 LGBTQ 人群的非人化描述可能主要是由对他人态度的描述驱动的，其次是直接引用和释义。

四、可视化

表 1 四种非人化要素的语言相关性和操作化概述

表 1 纽约时报数据中每年六个最常见的 LGBTQ 标签的计数

表 2 1986年、2000年和2015年所有 LGBTQ 术语向量的加权平均值最接近的单词

表 3 1986年、2000年和2015年的gay和homosexual向量表示中最接近的单词

图 2 （A）包含gay、homosexual、任何LGBTQ术语和American的段落的平均段落级情感价值，按5年间隔分组

图 2 （B）5年间隔的情感意义框架视角得分的平均值

图 2 （C）gay、homosexual、所有LGBTQ术语和American的500个最接近向量表示的单词的平均情感价值，平均分布在每年的10个经过训练的word2vec模型中，这些模型都是基于纽约时报数据训练的

表 4 高价值分数和低价值分数的示例段落，以及我们发现的模式的解释

表 6 以下是使用情感分析技术（Connotation Frames词典）分别表达高度正面和负面态度的段落，针对LGBTQ群体

表 7 LGBTQ 术语的最接近邻居具有异常高和低情感价值的年份的示例段落。

图 3 （A）使用内涵框架词典对同性恋、同性恋者、所有LGBTQ术语和美国的代理权进行评估，对包含每个群体标签的主语-谓语-宾语元组的代理权进行评估（Sap等人，2017），并按5年间隔计算

图 3 （B）基于每年训练的10个word2vec模型，对同性恋、同性恋者、所有LGBTQ术语和美国的表示的500个最近单词的平均支配性进行计算

表 8 根据情感分析工具Connotation Frames的代理词汇表

图 4 我们对gay、homosexual、所有LGBTQ术语和American的表示形式以及道德反感概念的向量表示，在每年的New York Times数据上训练的10个word2vec模型中进行了余弦距离计算，并对其进行了平均

图 5 我们对gay、homosexual、所有LGBTQ术语和American的表示形式以及“害虫”概念的向量表示，在每年的New York Times数据上训练的10个word2vec模型中进行了余弦距离计算，并对其进行了平均

表 9 MTurk 工人注释的四段示例，每个非人化成分一个

图 6 基于向量的方法来量化针对目标群体的负面评价、否认能动性、道德反感以及“害虫”隐喻的人类评估结果。较高的值表示更具有人性化（更积极的评价、更大的代理权、更少与道德反感或“害虫”相关的联想），较低的值则表示更具有去人性化的特征

五、未来研究

本文的主要目的是开发一个计算框架，用于分析针对目标群体的非人化语言。虽然我们深入的案例研究侧重于一个特定的社会群体，但这个框架可以推广到研究各种社会群体的非人化，这可能是未来工作的一个富有成果的领域。例如，自 COVID-19 大流行开始以来，亚洲人面临着越来越多的偏见和非人化（Van Bavel 等人，2020 年；Vidgen 等人，2020 年；Ziems 等人，2020 年）。我们的框架可用于了解谁在新闻和社交媒体上使这些人群非人化，以及非人化程度如何随时间变化或因地区而异。该框架可以为亚洲人非人化性质的转变提供一个微妙的视角。例如，“亚洲人擅长数学”的刻板印象可能通过拒绝代理或拒绝主观性导致非人性化（Shah，2019）。然而，将亚洲人视为 COVID-19 携带者的刻板印象可能使道德上的厌恶和与害虫的联系成为更突出的非人化机制。在我们的案例研究中，我们使用非人化语言的计算措施来展示同性恋和同性恋这两个词在含义上的差异。这种展示外延相似项目在内涵上有何不同的方法也可以推广到其他问题和社会群体。例如，与 COVID-19 或 SARS-CoV-2 相比，我们可能认为将 COVID-19 标记为武汉病毒或中国病毒可能会导致亚洲人更加非人化（Van Bavel 等人，2020 年；Xu 和 Liu， 2020 年）。