查看原文
其他

Nature | 通用中英文六维语义情感词典

大邓 大邓和他的Python
2024-09-09


应用价值

对于大量散落在网络中的文本数据, 可以度量用户在视觉、运动、社交、情感、时间和空间等维度上心理、认知、抽象层面的信息。


Wang, S., Zhang, Y., Shi, W. et al. A large dataset of semantic ratings and its computational extension. Sci Data 10, 106 (2023). https://doi.org/10.1038/s41597-023-01995-6

一、摘要

来自心理学和认知神经科学的证据表明,人类大脑的语义系统包含几个特定的子系统,每个子系统都代表语义信息的特定维度。对这些不同语义维度上的词语评分可以帮助研究语义维度对语言处理的行为和神经影响,并根据人类认知系统的语义空间建立语言含义的计算表示。现有的语义评分数据库提供了数百到数千个词语的评分,但这无法支持对自然文本或语音的全面语义分析。本文报告了一个大型数据库——六维语义数据库(SSDD, 后文「数据库」均用「词典」代替),其中包含对 17,940 个常用汉语词语在六个主要语义维度上的主观评分:视觉、运动、社交、情感、时间和空间。此外,使用计算模型学习主观评分和词嵌入之间的映射关系,我们在SSDD中包括了1,427,992个汉语和1,515,633个英语词语的估计语义评分。SSDD将有助于自然语言处理、文本分析和大脑中的语义表示研究。



二、背景

大量行为和神经证据表明,单词语义表示分布在不同的神经子系统中, 每个子系统代表着特定的语义信息维度。这些语义子系统和维度为人类语义系统的组织提供了重要线索。为了研究单词在人脑中的 意义表示信息加工, 许多研究基于心理和神经生物学可行的语义维度,通过人员标准构建了单词的词典。与现有NLP领域的embeddings相比, 基于特定意义维度所构建的词典可以在经验语义纬度上提供量化的评分, 使得研究者可以调查语义维度对语言处理的行为和神经影响, 并建立语言含义的(表示)计算。

然而现有的词典只包含数百、数钱个词,不足以支持自然文本或语音的全面语义分析。该研究提供了一个大型的语义评分语义词典, 名为六维语义(Six Semantic Dimension Database,SSDD)词典, 每个中英文词语含六个维度的得分(可以理解为效价valence),分别是视觉、运动、社交、情感、时间、空间。其中视觉和运动维度反映了感觉运动体验对语义表示的影响。感觉和运动维度可能是最常研究的语义维度之一,它们对于对象和动作概念的重要性已经得到了很好的确认。在与语义表示相关的多个感官维度中,我们选择了视觉维度,因为视觉是主导的感觉模态。视觉和运动语义对认知处理的行为和神经影响已经被许多研究证实。社交和情感维度反映了社会情感体验对语义表示的影响。这些维度具有可分离的神经相关性,并且对于心理和抽象概念的表示尤其重要。Huth等人采用数据驱动方法研究了大脑中的语义表示组织,并发现社交情感和感官运动语义与最重要的数据驱动语义维度的两端相关联。因此,社交和情感维度可以作为视觉和运动维度的重要补充,以反映语义表示。时间和空间维度对于事件和情境的表示尤为重要。神经心理学和神经影像研究也表明这些维度具有可分离的神经相关性。Binder等人对经验语义属性进行了全面的综述,反映了六个维度的代表性。Binder等人总结了属于14个领域的65个语义维度,其中超过2/3的维度属于视觉、运动、社交、情感、时间和空间领域。SSDD将这六个领域作为粗粒度语义维度,并为每个维度提供了一般评分。



三、构建方法

3.1 标准者(被试人员)

该研究找了85位心理、神经都正常的本硕中国学生, 通过数据质量评估,最终保留了80位学生的数据标注结果。


3.2 待标注的17940中文词

待标注中文词,一共有17940个, 是由三种数据源筛选得来

  1. 中文维基百科12814高频词
  2. fMRI领域研究(发表&未发表)的4915个中文词
  3. 最后一组项目是来自Binder等人和Tamir等人的语义评分实验中英文刺激词的211个汉语翻译。

3.3 标注过程

  • 该研究对17980个词进行了6个标注实验的, 每个实验聚焦于一个语义维度(视觉、运动、社交、情感、时间、空间)。
  • 每个标注实验会分成18个session,每个session含1000个词(最后一个session有940个词)
  • 标准过程使用问卷星
  • 情绪维度标注的时候,使用13-point scale标准标注(-6表示非常负面, 0表示中性, 6表示非常积极)
  • 剩下的5维(视觉、运动、社交、时间、空间)使用7-point scale标准标注(1表示非常低, 7表示非常高)
  • 每次标注前, 标注者需要阅读标注指南,指南会含有一些语义例子。
  • 为了控制标准数据质量, 保证每位标注者与所有标准者的相关性大于0.5,最终拒绝了28个session大概0.87%的数据量。

3.4 扩充词典

标准的17940个中文词的六维度数据,可以认为是标准数据。用机器学习方法,想办法扩充词典。

该团队检验了语义上下文不敏感的词嵌入算法(word2vec/Glove)和 对上下文语义敏感的嵌入算法(GPT2, BERT ERNIE, and MacBERT) ,让这6类嵌入模型分别预测, 确定下表现效果较好的Word2vec和MacBERT算法。

使用Word2vec和MacBERT预测剩下所有的中文词,共扩展出1427992个中文词。

人类在视觉、运动、社交、情感、时间、空间六个维度上是共通的,结合语言嵌入模型可以在不同语言中进行语义空间对齐,该研究根据英文嵌入语言模型,也预测出了1,515,633个词。



四、SSDD

SSDD包含两个数据集:

  • 第一个是17,940个常用汉语词语在六个语义维度上的主观评分。
  • 第二个是主观评分数据的计算扩展。我们将主观评分与计算模型相结合,然后估算出1,427,992个汉语和1,515,633个英语单词的语义评分。

该研究标准、训练的源代码数据均已开源,https://osf.io/n5vke/

由于数据量太大, 这里只给大家读取并显示17940个标注的6维语义数据, 其实对于经管社科研究, 标注的 17940个词 已经是很大的情感词典了。


import pandas as pd

df = pd.read_csv('Rated_semantic_dimensions.csv')
df.head()


#词汇量
len(df)

Run

17940

# 计算相关性矩阵
df.corr()



corr_df = df.corr()
mark = lambda cell: 'background-color: %s' % 'red' if cell > 0.4 else ''
color_matrix = corr_df.style.applymap(mark)
color_matrix

相关性最高的单元格是Motor与Vision, 6个维度相关性均小于0.5 , 六维的选择是很合理。

精选文章

管理世界 | 使用文本分析词构建并测量短视主义

管理世界 | 使用 经营讨论与分析 测量 企业数字化指标

管理世界 | 用正则表达式、文本向量化、线性回归算法从md&a数据中计算 「企业融资约束指标

可视化 | 词嵌入模型用于计算社科领域刻板印象等信息(含代码)

可视化 | 绘制《三体》人物关系网络图

可视化 | 使用决策树分析小红书帖子数据(含代码)

转载 | 基于词嵌入技术的心理学研究: 方法及应用

赶快收藏 | 社会科学文本挖掘技术资料汇总

B站社会科学文本分析视频合集

词嵌入技术在社会科学领域进行数据挖掘常见39个FAQ汇总

文本分析 | 中国企业高管团队创新注意力(含代码)

文本分析 | MD&A 信息含量指标构建代码实现

金融研究 | 使用Python构建「关键审计事项信息含量」

金融研究 | 文本相似度计算与可视化

转载 | 社会计算驱动的社会科学研究方法

推荐 | 社科(经管)文本分析快速指南

视频分享 | 文本分析在经管研究中的应用

转载 | 金融学文本大数据挖掘方法与研究进展

转载 | 大数据驱动的「社会经济地位」分析研究综述

使用 Word2Vec 和 TF-IDF 计算五类企业文化

如何用「图嵌入」将企业、高管职业经历表征为向量数据

JM2022综述 | 黄金领域: 为营销研究(新洞察)采集网络数据

MS | 使用网络算法识别创新的颠覆性与否

认知的测量 | 向量距离vs语义投影

Asent库 | 英文文本数据情感分析

PNAS | 文本网络分析&文化桥梁Python代码实现

PNAS | 使用语义距离测量一个人的创新力(发散思维)得分

PNAS | 历史文本中的语言积极性反映了动态的环境和心理因素(含Python代码)

tomotopy | 速度最快的LDA主题模型

数据集 | cctv新闻联播文稿数据

数据集 | 睡前消息文稿数据集

EDGAR | 25年数据的预训练词向量模型(含代码)

2G数据集 | 80w知乎用户问答数据

采购合同数据集 | 政府采购何以牵动企业创新

借助chatGPT更高效地学习Python文本分析

可视化99-21年地方政府报告关键词变化趋势

word_in_context | 查看某类词的上下文,更好的理解文本数据

继续滑动看下一个
大邓和他的Python
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存