中文心理词典,含具体性、可成象性等指标
之前分享过JCR的一篇语言具体性的研究应用,但是具体性词典是英文的。今天分享的这篇论文是1600个词,含具体性和表象性词典。
Wang, Ruiming, Shuting Huang, Yacong Zhou, and Zhenguang G. Cai. "Chinese character handwriting: A large-scale behavioral study and a database." Behavior Research Methods 52 (2020): 82-96.
摘要
该研究建立了一个汉字书写的心理语言学数据库。该数据库挑选出了1600个频率分布广泛的汉字,采用听写任务,总共203名被试来书写这些汉字,采集了被试的书写潜伏期、书写时长、书写正确率,并收集了1600汉字的14个词汇变量。研究结果发现,字频、习得年龄、语境是影响正字法通达、运动执行和书写正确率的共同因素;语音变量(是否为形声字、规则性、同音字密度)影响正字法通达,但不影响运动执行;语义变量(表象性和具体性)只影响书写正确率。研究结果对汉字书写产生机制有着重要启发。作为第一个大规模的汉字书写的心理语言学数据库,该数据库可以作为二次数据分析的资源以及书写实验材料制作的工具。数据库免费公开,访问网址为:https://osf.io/7s9kq/。
字段
字段有很多,我挑选最重要的翻译过来。
Item | Item number of characters |
---|---|
Character | 中文单字 |
Word | 由该字组成的词语 |
... | ... |
zImageability | 可成像性(归一化评分) |
zConcreteness | 具体性(归一化评分) |
... | ... |
import pandas as pd
df = pd.read_excel('Database.xlsx', sheet_name='Data')
df.columns
Index(['Item', 'Character', 'Word', 'nOccurrence', 'nACC', 'nMisheard', 'nTOP',
'nMisspelt', 'nMisremembered', 'ACC', 'Misheard', 'TOP', 'Misspelt',
'Misremembered', 'Latency_Correct', 'Duration_Correct', 'Latency_z',
'Duration_z', 'FreqCount', 'FreqContext', 'AoA', 'nMeaning',
'zImageability', 'zConcreteness', 'Phonogram', 'SRO', 'zRegularity',
'logHomoDen', 'nStroke', 'nRadical', 'Comp_LR', 'Comp_TD',
'zwFamiliarity'],
dtype='object')
df[['Character', 'Word', 'zConcreteness', 'zImageability']]
Character | Word | zConcreteness | zImageability | |
---|---|---|---|---|
0 | 哀 | 悲哀 | -0.103212 | 0.404177 |
1 | 癌 | 癌症 | 0.319844 | 0.176291 |
2 | 疤 | 伤疤 | 1.180032 | 0.919010 |
3 | 白 | 明白 | 0.691302 | 0.527291 |
4 | 百 | 一百 | -0.234004 | -0.039290 |
... | ... | ... | ... | ... |
1595 | 组 | 小组 | -0.556125 | -0.326855 |
1596 | 钻 | 钻石 | 0.412641 | 0.116090 |
1597 | 嘴 | 住嘴 | 1.447112 | 0.846971 |
1598 | 醉 | 麻醉 | 0.297512 | 0.596776 |
1599 | 作 | 工作 | -0.817521 | -0.933269 |
1600 rows × 4 columns
精选文章
管理世界 | 用正则表达式、文本向量化、线性回归算法从md&a数据中计算 「企业融资约束指标」
PNAS | 14000+篇心理学顶刊论文可复现性调研(含代码)
可视化 | 词嵌入模型用于计算社科领域刻板印象等信息(含代码)
可视化 | 文本数据分成n等份、词云图、情绪变化趋势、相似度变化趋势
JM2022综述 | 黄金领域: 为营销研究(新洞察)采集网络数据
PNAS | 使用语义距离测量一个人的创新力(发散思维)得分
PNAS | 历史文本中的语言积极性反映了动态的环境和心理因素(含Python代码)