查看原文
其他

专著推荐|词语认知属性的知识库构建和应用(互动赠书)

语言学通讯 语言学通讯 2021-03-17

再不点蓝字关注,机会就要飞走了哦

       认知属性是什么东东?

      

前几天语言学通讯小编在朋友圈发了一张图,问:怎么用认知语言学的相关理论或知识解释“螃蟹plus = 蜈蚣”?

     

无论是认知语言学学者还是非认知语言学学者,看到这张图后,大家都会认为螃蟹叠加排列起来乍看就像是蜈蚣的样子。

咱们暂时不管认知语言学学者怎么解释这个问题,而是先看看一般人对“螃蟹、蜈蚣”的认识是什么样的。

于是乎,在词语认知属性知识库中检索了一下,发现人们对“螃蟹”、“蜈蚣”的认识还是挺形象生动的(见下图),比如“螃蟹”会“爬”而且是“横着爬”还会“吐泡泡”,“蜈蚣”也会“爬”并且是“一节节”的“有很多只长长的脚”。

叠加排列的“螃蟹”乍看就像是“蜈蚣”,也是因为螃蟹这样摆放符合人们对“蜈蚣”的认知,即叠加排列的“螃蟹”看起来是在“爬”,而且看起来也是“一节节”的“有很多只长长的脚”。


我们把“爬”、“一节节”、“有很多只长长的脚”称作词语“蜈蚣”的认知属性,在“属性”前加“认知”二字,体现出语言社团对某事物或概念的认知。现有的词典中几乎没有展现人们对词语所代表概念或事物的认知属性,比如在中国,一般人都认为“猪”既“肥”又“懒”还“笨”,但这些属性并不会体现在词典中。

词语的认知属性知识库,就是用来收集人们对词语所代表概念或事物的认知属性的。


认知属性有用吗?有必要建库吗?

其实,若有了“猪-笨”这样的信息,我们可以做很多事情哦。

首先,我们可以看看其他语言里的“猪”都有哪些属性,是否和汉语得一样?其次,我们可以反过来看看具有“笨”这种属性的事物都有哪些,这可以帮助小学生、留学生造比喻句嘛。当然,也可以用在人机对话中,让机器人委婉地拐弯抹角地表达自己。

为了能用,这库可不能太小,至少得收录几千词才好用。但是单纯依靠语言学者的经验或拍脑袋的方法比较慢,也难以得到比较一致的属性,怎么办?

要语料,靠百度。我们从百度上定制了“A像B一样C”的搜索模板,下载了500多万条“B-C”实例。然后经过人工校对和整理,得到了23万多条带有概率信息的“词语-认知属性”对,覆盖了1万多个词语和1万多条认知属性。比如下图的“猪”的认知属性图,我们可以看到人们对“猪”的认知真是丰富多样,多到看不清“猪”到底都有哪些属性了。

那我们来查个少点的,看看具有“懒”这一属性的事物有哪些(见下图),我们可以看到“猪、猪八戒、懒洋洋”都很“懒”,这符合一般人的认知。

若想查找更多其他词语的认知属性,可访问作者编程制作的网站cognitivebase.com,也可扫描文末二维码直接访问。


认知属性知识库有啥用?

首先,可以做一些认知语言学的研究。比如形容词的语义选择限制,借助知网HowNet的语义体系,全自动地获取语义类的限制。下图给出了具有“辛苦”这一属性的对象的语义类分布,主要是人(human|人)和一些繁重的劳动(如卖早点、打工等),也有牛、蜜蜂等动物。


其次,可以获取认知上相似的词语。我们提出了认知相似度的概念,运用认知属性的二次扩展方法,根据属性再次扩展出词语,可视化套件会自动地把共同属性多的词语聚在中心位置。比如我们查找“猎豹”,可以得到很多跟“猎豹”具有相同属性的词语,如“火箭”、“闪电”等,这可是传统方法很难得到的结果。


     

另外,还可进行以英汉双语对比研究。作者从google抓取了大量了英文“词语-属性”对,我们来看看英汉共有的“词语-属性”对都有哪些(见下图),比如无论是使用英语的人还是使用汉语的人,都认为“雪”是“白”的,“狐狸”是“狡猾”的。


   

当然,我们也可以查英汉对译的词。比如我们可以看看英语中的“sheep”跟汉语中的“羊”是否具有相同的认知属性,从下图可以看出,英汉双语都认为“羊(sheep)”是“温顺(decile)、愚钝(stupid)”的。


综上,认知属性库提供了大量的主观数据,可以用于语言学和心理学研究。本书还针对“副词+名词”结构进行了考察。一般认为,能进入“很中国、特土匪”之类的副名结构的名词,需要有较为丰富的属性特征。但由于属性特征数据库的缺失,这一研究未能有效展开。本书则基于认知属性库的大量数据,对前人论文中的99个名词逐个考察,验证了属性特征说的正确性。同时,也提出了副名结构的这种转喻需要顾及转喻的本体(副名结构前面的主语),主语的类型往往需要和喻体词语进行匹配,才能更有效地激活转喻。

书中还有基于认知属性库的原型范畴研究,在理论上也做出了百科知识、语言知识和日常感知知识的三大分野,以及对新兴的分布语义学的介绍与展望。这里不一一展开,待后续推送,欢迎继续关注。


作者简介

李斌,1981年生,南京师范大学文学院语言科技系副教授。1999~2003年就读于南京师范大学文学院汉语言文学(文科基地)专业,获学士学位。2006年、2009年,继续在文学院攻读研究生,分获计算语言学方向硕士和博士学位。后留校任教,讲授《中文信息处理概论》、《数据结构》、《数理逻辑》、《人工智能》、《数据库编程》等研究生和本科课程。2010~2013年南京大学计算机科学与技术系在职博士后,2015年美国Brandeis大学计算机系访学一年。研究领域包括词法分析、认知语义计算、语料库技术、语法理论等方面。在国内外期刊和会议上发表论文40多篇,主持完成国家社会科学基金青年项目一项,参与完成国家自然科学基金、国家社会科学基金、211工程项目等多个研究项目。

E-mail:libin.njnu@gmail.com

推荐阅读专著推荐|动宾搭配的语义分析和计算

一点彩蛋,看看师生关系图

长按二维码关注我们

福利赠书:语言学通讯公众号为热心读者准备了2本赠书。获得赠书的办法:1 将本文分享到朋友圈,截图发给公众号; 2 在本文留言处分享您的评论。完成以上两步的读者中,选出公众号留言获得点赞最多的前两名(截止日期10月31日)。赠书免费;江浙沪地区包邮,其他地区申通到付。


赠书有限,欢迎大家点击阅读原文购买本书

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存