中文心理词典，含具体性、可成象性等指标

Original 大邓大邓和他的Python

2024-09-09

之前分享过JCR的一篇语言具体性的研究应用，但是具体性词典是英文的。今天分享的这篇论文是1600个词，含具体性和表象性词典。

Wang, Ruiming, Shuting Huang, Yacong Zhou, and Zhenguang G. Cai. "Chinese character handwriting: A large-scale behavioral study and a database." Behavior Research Methods 52 (2020): 82-96.

摘要

该研究建立了一个汉字书写的心理语言学数据库。该数据库挑选出了1600个频率分布广泛的汉字，采用听写任务，总共203名被试来书写这些汉字，采集了被试的书写潜伏期、书写时长、书写正确率，并收集了1600汉字的14个词汇变量。研究结果发现，字频、习得年龄、语境是影响正字法通达、运动执行和书写正确率的共同因素；语音变量（是否为形声字、规则性、同音字密度）影响正字法通达，但不影响运动执行；语义变量（表象性和具体性）只影响书写正确率。研究结果对汉字书写产生机制有着重要启发。作为第一个大规模的汉字书写的心理语言学数据库，该数据库可以作为二次数据分析的资源以及书写实验材料制作的工具。数据库免费公开，访问网址为：https://osf.io/7s9kq/。

字段

字段有很多，我挑选最重要的翻译过来。

Item	Item number of characters
Character	中文单字
Word	由该字组成的词语
...	...
zImageability	可成像性（归一化评分）
zConcreteness	具体性（归一化评分)
...	...

import pandas as pd

df = pd.read_excel('Database.xlsx', sheet_name='Data')
df.columns

Index(['Item', 'Character', 'Word', 'nOccurrence', 'nACC', 'nMisheard', 'nTOP',
       'nMisspelt', 'nMisremembered', 'ACC', 'Misheard', 'TOP', 'Misspelt',
       'Misremembered', 'Latency_Correct', 'Duration_Correct', 'Latency_z',
       'Duration_z', 'FreqCount', 'FreqContext', 'AoA', 'nMeaning',
       'zImageability', 'zConcreteness', 'Phonogram', 'SRO', 'zRegularity',
       'logHomoDen', 'nStroke', 'nRadical', 'Comp_LR', 'Comp_TD',
       'zwFamiliarity'],
      dtype='object')

df[['Character', 'Word', 'zConcreteness', 'zImageability']]

	Character	Word	zConcreteness	zImageability
0	哀	悲哀	-0.103212	0.404177
1	癌	癌症	0.319844	0.176291
2	疤	伤疤	1.180032	0.919010
3	白	明白	0.691302	0.527291
4	百	一百	-0.234004	-0.039290
...	...	...	...	...
1595	组	小组	-0.556125	-0.326855
1596	钻	钻石	0.412641	0.116090
1597	嘴	住嘴	1.447112	0.846971
1598	醉	麻醉	0.297512	0.596776
1599	作	工作	-0.817521	-0.933269