Google AI 推出“GoEmotions”:用于细粒度情感分类的 NLP 数据集
喜欢我们的文章,点击上方AINLPer,关注一下叭!
引言
情绪能够刺激我们采取行动并影响在生活中做出的重大和次要决定,极大地影响了人们社交和建立联系的方式。因此理解语言中包含的情绪信息在应用中具有重大的意义。 谷歌最近的一项新的研究介绍了:一个人工标注的细粒度情绪数据集,其中包含 58k 条来自主要英语子版块的 Reddit 评论,并确定了 28个情绪类别。它有 12 个正面、11 个负面、4 个模棱两可的情感类别和 1 个“中性”情感类别,使其广泛适用于需要在情感表现之间进行微妙区分的对话解释任务。论文:GoEmotions: A Dataset of Fine-Grained Emotions.链接:https://arxiv.org/pdf/2005.00547.pdf如果您不便下载:回复: GoEmotions 获取原文。正文开始
1背景介绍
当今是个数据爆炸的时代,随着社交软件(微信、QQ)的普及,我们每天都要面对大量的语言信息。在这些语言信息中又会蕴含着很多情绪信息,它可以刺激我们采取行动并影响在生活中做出的重大和次要决定,极大地影响了人们社交和建立联系的方式。因此理解语言中包含的情绪信息在应用中具有重大的意义,例如:感情陪护机器人、舆论检测、优化客户服务体验等。
我们知道在使用微信、QQ等社交软件聊天的时候,短短的几个词就可以表达各种各样微妙而复杂的情感。随着 NLP 的最新进展,已经可以使用多个基于语言的情感分类数据集。他们中的大多数关注特定类型(新闻标题、电影字幕,甚至童话故事)和六种主要情绪(愤怒、惊讶、厌恶、喜悦、恐惧和悲伤)。因此,需要一个涵盖更广泛情感的更大规模数据集,以允许更广泛的未来应用。
谷歌最近的一项研究介绍了GoEmotions:一个人工标注的细粒度情绪数据集,其中包含 58k 条来自主要英语子版块的 Reddit 评论,并确定了 28个情绪类别。它有 12 个正面、11 个负面、4 个模棱两可的情感类别和 1 个“中性”情感类别,使其广泛适用于需要在情感表现之间进行微妙区分的对话解释任务。并且演示了一个完整的教程,展示了如何使用 GoEmotions 训练神经模型架构并将其应用于基于对话文本推荐表情符号。
本文的目标是制作一个庞大的且专注于情感信息的对话数据数据集。Reddit 平台是情感研究的重要资源,因为它提供了大量公开可用的内容,包括直接的用户对用户对话。Google的研究人员收集了来自至少 10,000 条评论的 subreddit 的 Reddit 评论,删除了已删除和非英文评论。
为了能够构建具有广泛代表性的情感模型,我们应用了数据管理措施来确保数据集不会强化一般的或特定于情感的语言偏见。这一点尤其重要,因为 Reddit 有一个众所周知的人口偏见,倾向于年轻男性用户,这并不能反映全球人口的多样化。该平台还引入了对有毒、攻击性语言的偏向。为了解决这些问题,我们使用针对攻击性/成人和粗俗内容以及我们用于数据过滤和屏蔽的身份和宗教的预定义术语来识别有害评论。我们还对数据进行了过滤,以减少脏话、限制文本长度并平衡所表示的情绪和情绪。为避免流行 subreddit 的过度代表并确保评论也反映不太活跃的 subreddit,我们还平衡了 subreddit 社区之间的数据。
我们创建了一个分类法,旨在共同最大化三个目标:
(1) 最大程度地覆盖 Reddit 数据中表达的情绪;
(2) 提供最大程度的情感表达类型覆盖;
(3) 限制情绪的总数及其重叠。这样的分类允许数据驱动的细粒度情感理解,同时还解决了某些情感的潜在数据稀疏问题。
建立分类法是定义和完善情感标签类别的迭代过程。在数据标记阶段,我们总共考虑了 56 个情感类别。从这个样本中,我们识别并删除了评估者几乎没有选择的情绪,由于与其他情绪的相似性而具有较低的内部一致性,或者难以从文本中检测到的情绪。我们还添加了评分者经常建议并在数据中得到很好体现的情绪。最后,我们改进了情感类别名称以最大限度地提高可解释性,从而获得高的人际一致性,94% 的示例至少有两个评估者就至少 1 个情感标签达成一致。已发布的 GoEmotions 数据集包括下面介绍的分类法,并通过最后一轮数据标记完全收集,其中分类法和评级标准都是预先定义和固定的。
我们通过主成分析证明了标注的高质量。我们使用现有的情绪基准进行迁移学习实验,结果表明我们的数据集可以很好地推广到其他领域和不同的情绪分类。在我们提出的分类法中,我们基于Bert的模型的F1平均得分为0.46。
主成分析
为了验证我们的分类选择是否与基础数据相匹配,我们进行了关键保留成分分析 (PPCA),这是一种通过提取情感判断的线性组合来比较两组数据集的方法,在两组评分员中表现出最高的联合可变性。 因此,它可以帮助我们发现评价者之间高度一致的情绪维度。 PPCA 之前用于理解视频和语音中情感识别的主要维度,我们在这里使用它来理解文本中情感的主要维度。
我们发现每个组件都很重要(所有维度的 p 值 < 1.5e-6),表明每种情绪都捕获了数据的独特部分。这并非微不足道,因为在之前的语音情感识别工作中,30 个情感维度中只有 12 个被发现是重要的。
迁移学习实验
♥如果您喜欢AINLPer的文章♥
资料整理不易,帮忙点个【赞】、【在看】吧