查看原文
其他

一款超级强大的儿童语音语料库 | 语言学午餐

2016-03-08 语言学午餐 语言学午餐Ling-Lunch

貌似午餐有段时间没介绍语料库相关资料了,这不,小编今天便给大家推销一款功能强大,历史悠久,使用范围广泛的儿童语音语料库——CHILDES


CHILDES (Child Language Data Exchange System),儿童语言数据交流系统,也被称为国际儿童口语语料库,是在儿童语言研究相关领域被最广泛使用的语料库,有1000余项基于该语料库的研究成果发表( MacWhinney 2000)。这些文章有的是关于语法发展的(如 Eisenberg 1989;Slobin 1994),有的是关于儿童如何接受语言输入的(如Van Houten,1988;Anderson &Shirai 1994),有的是关于儿童如何学习词汇的(如Clark & Carpenter 1989;Au &Song 1994),有的是关于儿童音位发展的(如 Wijnen 1988; Bernstein Ratner 1993),等等。


1983 年, 心理学家 Elizabeth Bates、Brian MacWhinney和Catherine Snow等人意识到进行语言研究时记录语音和相关转写数据的重要性,开始计划建立一个大型儿童语言数据转写储存系统。但如此一个庞大的工程,没有资金支持自然是万万不能的,于是他们申请了美国麦克阿瑟基金会(MacArthur Foundation)的资金资助。顺便插一句,麦克阿瑟基金会是美国十大私人基金会之一,其更出名的是资助了一个叫做麦克阿瑟天才奖(MacArthur Fellows Program)的奖项,目前只有少数几位华裔获得此奖,比如陶哲轩和张益唐。翌年,经费获批,这一世界上最大的儿童语言语料库在MacWhinney和Snow的负责下开始正式筹建。到目前为止,该语料库已收集了包括英语、汉语在内的25 种语言。


获得CHILDES很容易,只要登上其网站便可(http://childes.talkbank.org),网站上提供了几乎一切和该语料库相关的资料,包括数据,软件和详尽的使用说明,最关键的是,这一切都是免费的。但另一方面,也正因为上面内容很多,对于初次接触的人来说又一时无从下手,甚感慌乱,下面小编就简单介绍一下数据库的使用。



CHILDES由三部分组成, 第一部分是儿童口语语料库,第二部分为语料分析程序CLAN,第三部分为文本赋码系统CHAT。鉴于语音文本转写制作费时费力还费钱,大多数读者更可能运用已有数据进行分析和研究,本文主要介绍如何运用网站提供的数据进行分析研究,即主要涉及前两部分。


我们先看一下这个年龄比小编大多了的语料库都包含哪些资源,资源首先被分为转写文本和视频音频,当然内容是对应的,我们看一下转写文本的目录



不难发现儿童语言分类很细很全,而且数据库一直在保持更新,以东亚语言为例,子目录是这样的



这时我们会发现印尼语只有一个可用数据,而汉语,日语等则包括多个语音数据包,但数据倒是有了,可这些数据都是如何收集的呢,语音数据的元信息又如何查看呢,别着急,人家网站自然是提供了的。



网站本身支持数据库的在线检索分析功能,但小编感觉还是把数据下载下来,再用软件分析更方便一些。这些数据都是CHAT格式,需要使用专门的语料分析软件CLAN进行数据分析,软件在CHILDES首页下载即可,下面介绍一下如何进行简单的数据检索和分析。



进入软件界面很简单,一个用于检索和数据分析的命令行窗口,一个用于音视频转写或文本查看的主界面。CLAN的数据检索是利用命令行来实现的,但不用紧张,这个比什么Matlab,R之类的简单多了。


可供查询的数据类型还是很多的,例如常见的词频(freq)、关键词(kwal)、类符型符比(TTR)等等,绝对满足你各种各样的使用需求。下面以关键词查询为例,简单介绍一下。


首先选择要进行统计分析的文件

然后选择要查找的说话人,例如儿童,就选择speaker tier,输入相应的代码CHI

最后,输入你要查找的单词就好啦,比如“dog”,然后就万事大吉,点击run,运行就好啦,喏,下面就是结果咯



以上就是关于数据库统计查询的基本流程,但这无疑是十分基础的,如果想有更深入的了解,还需要多多使用,以及对其使用说明书进行仔细的研读,如果嫌英文说明书读起来慢,不妨点击阅读原文,参看一下由林枫老师编辑的CLAN中文使用说明书,除此之外,也可以参看《国际儿童语言研究方法:CHILDES国际儿童语料库数据储存和分析系统》一书,对CHILDES的使用也有详尽的介绍。




参考文献

温志军 ,胡瑰玲. 开发利用世界上最大的儿童语料库——CHILDES[J]. 外语教学与研究,2001,05:374-377.
王立非,刘斌. 国际儿童口语语料库录写系统的赋码原则初探[J]. 解放军外国语学院学报,2003,01:50-54.
JurgenWeissenborn,闵瑞芳. 研究第一语言习得的资料数据库(CHILDES~*):儿童语言资料交流系统[J]. 国外语言学,1988,03:132-135.



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存