查看原文
其他

中文心理词典,含具体性、可成象性等指标

大邓 大邓和他的Python
2024-09-09

之前分享过JCR的一篇语言具体性的研究应用,但是具体性词典是英文的。今天分享的这篇论文是1600个词,含具体性和表象性词典。

Wang, Ruiming, Shuting Huang, Yacong Zhou, and Zhenguang G. Cai. "Chinese character handwriting: A large-scale behavioral study and a database." Behavior Research Methods 52 (2020): 82-96.


摘要

该研究建立了一个汉字书写的心理语言学数据库。该数据库挑选出了1600个频率分布广泛的汉字,采用听写任务,总共203名被试来书写这些汉字,采集了被试的书写潜伏期、书写时长、书写正确率,并收集了1600汉字的14个词汇变量。研究结果发现,字频、习得年龄、语境是影响正字法通达、运动执行和书写正确率的共同因素;语音变量(是否为形声字、规则性、同音字密度)影响正字法通达,但不影响运动执行;语义变量(表象性和具体性)只影响书写正确率。研究结果对汉字书写产生机制有着重要启发。作为第一个大规模的汉字书写的心理语言学数据库,该数据库可以作为二次数据分析的资源以及书写实验材料制作的工具。数据库免费公开,访问网址为:https://osf.io/7s9kq/。


字段

字段有很多,我挑选最重要的翻译过来。

ItemItem number of characters
Character中文单字
Word由该字组成的词语
......
zImageability可成像性(归一化评分)
zConcreteness具体性(归一化评分)
......

import pandas as pd

df = pd.read_excel('Database.xlsx', sheet_name='Data')
df.columns
Index(['Item', 'Character', 'Word', 'nOccurrence', 'nACC', 'nMisheard', 'nTOP',
'nMisspelt', 'nMisremembered', 'ACC', 'Misheard', 'TOP', 'Misspelt',
'Misremembered', 'Latency_Correct', 'Duration_Correct', 'Latency_z',
'Duration_z', 'FreqCount', 'FreqContext', 'AoA', 'nMeaning',
'zImageability', 'zConcreteness', 'Phonogram', 'SRO', 'zRegularity',
'logHomoDen', 'nStroke', 'nRadical', 'Comp_LR', 'Comp_TD',
'zwFamiliarity'],
dtype='object')
df[['Character''Word''zConcreteness''zImageability']]

CharacterWordzConcretenesszImageability
0悲哀-0.1032120.404177
1癌症0.3198440.176291
2伤疤1.1800320.919010
3明白0.6913020.527291
4一百-0.234004-0.039290
...............
1595小组-0.556125-0.326855
1596钻石0.4126410.116090
1597住嘴1.4471120.846971
1598麻醉0.2975120.596776
1599工作-0.817521-0.933269

1600 rows × 4 columns


精选文章

管理世界 | 使用文本分析词构建并测量短视主义

管理世界 | 使用 经营讨论与分析 测量 企业数字化指标

管理世界 | 用正则表达式、文本向量化、线性回归算法从md&a数据中计算 「企业融资约束指标

PNAS | 14000+篇心理学顶刊论文可复现性调研(含代码)

可视化 | 词嵌入模型用于计算社科领域刻板印象等信息(含代码)

可视化 | 绘制《三体》人物关系网络图

可视化 | 99-21年地方政府报告关键词变化趋势

可视化 | 文本数据分成n等份、词云图、情绪变化趋势、相似度变化趋势

转载 | 基于词嵌入技术的心理学研究: 方法及应用

B站社会科学文本分析视频合集

文本分析 | 中国企业高管团队创新注意力(含代码)

文本分析 | MD&A 信息含量指标构建代码实现

金融研究 | 使用Python构建「关键审计事项信息含量」

金融研究 | 文本相似度计算与可视化

转载 | 大数据驱动的「社会经济地位」分析研究综述

使用 Word2Vec 和 TF-IDF 计算五类企业文化

如何用「图嵌入」将企业、高管职业经历表征为向量数据

JM2022综述 | 黄金领域: 为营销研究(新洞察)采集网络数据

MS | 使用网络算法识别创新的颠覆性与否

认知的测量 | 向量距离vs语义投影

Asent库 | 英文文本数据情感分析

PNAS | 文本网络分析&文化桥梁Python代码实现

PNAS | 使用语义距离测量一个人的创新力(发散思维)得分

PNAS | 历史文本中的语言积极性反映了动态的环境和心理因素(含Python代码)

Nature | 通用中英文六维语义情感词典

正念爱好者的 twitter 语言风格有何不同?

tomotopy | 速度最快的LDA主题模型

采购合同数据集 | 政府采购何以牵动企业创新


继续滑动看下一个
大邓和他的Python
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存