查看原文
其他

资源推荐|中文概念语义特征数据库(CCFD)

The following article is from 脑与智能 Author 邓雅菱 曹立宏

当我们想到“狗”时,会想到这是一种特殊的动物、有尾巴、有毛、会发出“汪”声、可以当宠物等等,这是我们人脑对“狗”这个概念的一些表征。当我们把概念通过语言的形式表达出来时,则可称为概念的语义特征。自2005年,科学家发现人脑中的概念细胞以来,虽然对概念细胞的形成机制还不清楚,但主流的观点是:语言是概念细胞形成的重要条件。显然,概念的语义特征依赖于人脑的记忆、抽象和语言等高级认知功能,是心理学、神经科学、语言学等多学科研究者一直在努力研究的方向之一,也是近年来人工智能,尤其是类脑智能的前沿研究的一个重要方向。


你脑中的“狗”是什么样子的?

 

概念语义特征的另外一个特点是个体和群体的差异性。同一个概念,对于不同年龄和文化水平的人,会有不同的个体表征差异。在不同文化和语言的背景下,同一个概念在不同人群大脑中的表征会呈现出群体性的差异。目前,国外学者已建立了多个英文版概念语义特征数据库,但尚缺乏完善的中文版概念语义特征数据库。为此,中国传媒大学的媒体融合与传播国家重点实验室团队建立了一个中文版概念语义特征数据库,共采集了1410个概念及其语义特征。论文及数据资料已在线发表于Springer Nature的《Behavior Research Methods》(https://doi.org/10.3758/s13428-020-01525-x)。希望本数据库的建立可以为相关领域研究者提供必要的数据支持,也欢迎广大研究者的使用与批评。

 

已有的研究发现,关于概念的各属性知识分布式表征在大脑相应区域,并且人脑存在基于感觉的和基于语言的两种概念表征系统。人们在回忆信息时也是通过语义网络的搜寻而进行的,因此,在语义上与其他词汇有更广泛连接的词更容易被记住。然而目前尚不清楚人脑如何表征概念之间的关系。目前对于概念之间关系的度量主要依据概念之间共享的特征,如果两个概念有较多的共享特征,则这两个概念就具有很高的相似性。基于这一观点,我们采用了特征产出范式(Toglia, 2009),请被试列出概念的属性,即给定一个单词,让被试对这个概念的特征进行描述,被试想到什么特征就写下什么。

 

本数据库共包含1410个概念,均为实体概念(名词)。共有204名被试参与本实验(男性44名)。年龄在18-57岁之间(M=23.495,SD=4.806)。所有的被试均为中国人,母语为汉语。平均每个被试完成了对202个概念的评定。本数据库中,1410个概念共得到378533个有效描述,平均每个概念获得的描述为268个,平均每个概念有37个特征。

我们还统计了哪些特征是多个概念所共有的,哪些特征是某些概念所特有的。如果某特征是3个及以上的概念都有的,则算共有特征,如果某特征只有1或2个概念拥有,则算特有特征。平均每个概念有31个共有特征,6个特有特征。

有研究表明,不同类别的物体拥有的共享特征数量不同,例如,动物类概念具有更多的共享特征(如都有眼睛、耳朵和鼻子),而工具类物体则共享特征较少而特有特征较多(Clarke & Tyler, 2015)。我们将1410个概念分成了28个小类和7个大类,并统计了每个类别的概念数量以及概念具有的共享特征数、特有特征数和特征总数,分析了不同类别的差异,发现:动物、植物、食物拥有较多的共有特征和较少的特有特征,而自然物、人造物、身体部位则拥有较多的特有特征和较少的共享特征。结果如下图所示:

 


各类别共有特征和特有特征所占比例

 

概念之间的相似度分析:

苹果和香蕉这两个概念显然要比苹果和网球这两个概念更相似,即使网球从外形上看要比香蕉更像苹果。对于概念的语义表征,我们采用余弦距离计算概念之间的距离,以此作为相似度的指标。数值越大表示概念之间的距离越近,概念相似度越高。我们对比了本数据库与目前已经被广泛使用的英文版概念语义特征数据库CSLB (Devereux, Tyler, Geertzen, & Randall, 2014)在概念相似度方面的情况。结果如图3所示。其中图3(a)是本研究的结果,图3(b)是CSLB的结果。可以看出:大类概念上基本是一致的,在某些小类之间还是有一定的差异。例如花与水果在CSLB中分的更开一些。这或许反映出文化上的一些差异。


概念之间的相似性矩阵


分层聚类:

本研究还基于概念的特征,对所有概念做了分层聚类。由于概念太多,无法全部可视化呈现,因此,仅可视化了动物这一大类的分层聚类结果,如下图所示。从分层聚类的结果可以看出,在动物类别下,本数据库与CSLB相似,可以很好地细分为鸟类(绿线)、昆虫类(红线)、水生动物类(紫线)和陆生动物类(青线)。


动物大类分层聚类的结果

总结:

本研究建立了一个数据量上千的中文版概念语义特征数据库。共有1410个概念,都是对以汉语为母语的被试而言很熟悉的实体概念,涵盖7个大类,28个小类,平均每个概念有约37个特征。根据概念的特征计算出的概念之间的相似性分析结果显示,同一类别内的概念具有相似性,不同类别之间的概念相似性较低,但也并非完全无关。这与我们日常对事物的认识是一致的,即使是不同类别的物体,我们仍然可以以非类别的关系产生一定的关联,如经常在同一场景中出现的筷子和面条,前者属于餐具,后者属于食物。

通过与已有的标准化的英文版数据库进行各方面对比,本研究提出的CCPD无论从数据量还是质量上看,都是可观的。与英文版数据库最大的区别在于具体的概念和特征有所不同,尤其是食物这一大类有很大的区别,食物中包含一些人们非常熟悉却又非常具有文化差异的概念,如臭豆腐、皮蛋、冰糖葫芦等只有中国人才熟悉的概念,因此,这是一个更适合中文被试和中文研究的数据库。通过对比中英文的概念特征数据库,也可以系统地考察中西方的差异,包括概念的差异、相同概念的不同特征的差异等。

通过分析概念各个特征被提及的频次,可以看到哪些特征是核心特征,哪些特征是边缘特征,如何根据这些特征定义一个概念,也是语言和认知心理学家研究的重要问题。并且本数据库的数据显示,根据这些概念所具有的特征可以对概念进行分类,甚至可以按层级分类。但是人脑如何表征概念的范畴和概念的层级关系还有待探索。本数据库可以为此类研究提供数据支持。本研究还发现,不同类别的概念拥有的共享特征和特有特征的数量具有差异,自然生物,如动物、植物等概念具有更多的共享特征,而人造物,如工具等概念具有更少的共享特征,这与以往的研究结果是一致的(Clarke & Tyler, 2015)。

很多关于记忆和语言的研究会采用语义启动范式,研究者通过操纵前后呈现的两个词之间的相关程度来激发操纵启动效应,比起不相关的提示词,相关的提示词能使被试更快地识别出目标词。如何确定概念之间的相关程度,进而选择合适的启动词和目标词,是相关研究的关键。本研究通过各个特征及其权重计算了概念之间的距离,未来的语义启动范式研究可以此作为度量启动词与目标词之间相关程度的指标之一。因此,本研究为语义启动范式提供了丰富的数据支持。

人工智能的知识图谱领域中,研究者们试图在数据库系统上利用图谱这种抽象载体来表示知识这种认知内容,从而服务于机器翻译、智能问答等领域(Balaid, Abd Rozan, Hikmi, & Memon,2016)。知识图谱数据库的概念数量相比于人为评定的数据库的概念数量大很多,但这些概念的特征通常是从互联网海量数据中抽取出来的,并采用逻辑严密的结构来表征他们之间的关系。这与人脑对概念的学习和表征不同,人脑对概念的学习并不是一次性获得并存储概念的所有特征,而是在生活中不同时刻习得概念的各个特征,而且学习的过程也分为快速学习和慢速学习两种,当新学习的内容与已有知识结构一致时,可以快速整合到新皮层已有知识中,而当与已有知识不一致时,则需要耗费较长时间在内侧颞叶皮层和海马体内进行加工,再缓慢整合到新皮层中。新皮层中分布式存储着概念的各种模态的特征,如狗的形象在视觉皮层表征,狗的叫声在听觉皮层表征,同时,关于狗的各种特征的语义表征则在前颞叶区域。虽然人脑对概念的表征不是完全精确的,但却有很强的灵活性,这也是人脑智能的重要体现。通过对人脑知识表征方式的研究,建立更类似于大脑拥有的知识图谱(我们称为类脑知识图谱),或许能为人工智能提供更好的数据基础服务。

 

希望通过本数据库的建立为语言学、心理学、神经科学、人工智能等领域相关研究者提供有关概念语义表征标准化的数据支持。如果大家在使用过程中发现了错误,希望您能直接联系我们,我们及时更改,为后续研究者提供更准确的数据支持。如果有对人脑概念学习和表征感兴趣的研究者,也欢迎合作交流。

 

文献信息:邓雅菱*、王晔、邱晨阳、胡振超、孙雯洋、宫妍竹、赵雪、何伟、曹立宏*. A Chinese Conceptual Semantic Feature Dataset (CCFD). Behavior Research Methods (2021).

作者团队来自中国传媒大学。

文献获取地址:

http://link.springer.com/article/10.3758/s13428-020-01525-x

 

其它参考文献

    Balaid, A., Abd Rozan, M.Z., Hikmi, S. N., & Memon, J. (2016). Knowledge maps: A systematicliterature review and directions for future research. International Journal ofInformation Management, 36(3), 451-475. doi:10.1016/j.ijinfomgt.2016.02.005

    Clarke, A., & Tyler, L.K. (2015). Understanding What We See: How We Derive Meaning From Vision. TrendsCogn Sci, 19(11), 677-687. doi:10.1016/j.tics.2015.08.008

    Devereux, B. J., Tyler, L.K., Geertzen, J., & Randall, B. (2014). The Centre for Speech, Language andthe Brain (CSLB) concept property norms. Behav Res Methods, 46(4), 1119-1127.doi:10.3758/s13428-013-0420-4 

    Toglia, M. P. (2009).Withstanding the test of time: the 1978 semantic word norms. Behav Res Methods,41(2), 531-533. doi:10.3758/BRM.41.2.531


课程推荐


助  研|语言学、汉语国际教育及相关专业学术论文写作研修班(第二期)

2021-05-04

推  荐|三天搞懂质性研究:方法、NVivo数据分析与写作

2021-04-15

助力科研|国家社科基金后期资助——从规划到立项

2021-03-29

必备课程|定量研究与SPSS体验营——3天爱上定量研究

2021-03-06

必备课程|让每一位文科生都能轻松上手的Python基础课

2021-02-06

推荐课程|8小时带你搞懂扎根理论:从方法到案例

2020-12-16

必备课程|“统计女王”和你讲:每一个文科生都能成为SPSS操作能手!

2020-12-07

研修班|语言学、汉语国际教育专业学术论文写作@北语出版社出品

2020-10-21


往期回顾


学术会议|第17届功能语言学学术研讨会


学术会议|第二届汉语语言学前沿问题国际论坛


学术会议|第17届国际中文教育学术研讨会(ICCSL-17)


学术会议|2021年第十四届中国语音学学术会议


欢迎加入
“语言学心得交流分享群”“语言学考博/考研/保研交流群”


请添加“心得君”入群


今日小编:心得君

审    核:心得君

转载&合作请联系

"心得君"

微信:xindejun_yyxxd

点击“阅读原文”跳转原文

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存