其他
搭配的界定、测量与中国学习者语料库搭配分析
从搭配的界定入手,讨论语料库搭配研究的各种测量手段及存在的难题,并探讨和评价中国学习者搭配分析的作用与意义。结论认为,对搭配不同的定义方法,反映了不同学科和领域观察和分析搭配的视角差异,呈现出搭配研究的多元化特征; 统计测量及自动处理无法取代研究者的判断和分析,因为意义的产生与谈判并不纯粹遵从逻辑和概率。在外语学习与教学中,如何将搭配融合于语言学习过程仍然需要更多的研究; 处于固定与自由组合之间的各种变异性搭配使用,是语言使用者及外语学习者体现语言创新能力的主要区域。
关键词:搭配的界定; 搭配测量; 学习者语料库; 学习者搭 1.引言 搭配即语言使用中两个或两个以上词语在给定跨距内(如Span = ± 5) 的重复同现,反映了语言中“词语就像人一样结伴”的现象。语法分析中对搭配现象较早的关注大多与外语学习相关,其焦点在于词语的组合对于意义表达、词汇记忆、语言产出的流利度与习语性( Jespersen 1904;Hornby 1935) 。20世纪30年代,前苏联学者针对短语学单位进行了深入的研究,并把该单位在功能和结构上划分为“类词表达”和“类句表达”两种类型(参见Cowie 1998a: 3-8; Pawley 2007: 10) 。20世纪50年代,英国语言学家J.R.Firth 把搭配这一概念引入到他的语言学意义语境理论中,提出“由搭配而知意义”,论述了搭配语境对词语意义的重要作用( Firth 1957a,1957b,1957c) ; 此后,Halliday ( 1966: 158-9) 深入论述了词语作为语言学研究的一个重要层级; 而Sinclair(1966: 412; Sinclair et al.1970) 则通过自己的研究实践,确立了搭配测量和分析过程中一系列重要术语和方法。20世纪80年代以后,随着计算机技术的发展,语料库搭配研究在词典编纂、语言分析、学习者语言研究等领域得到长足发展,尤其是 Sinclair 从搭配研究入手,提出词语法( lexical grammar) 理论,认为在语言使用中,词语组合序列才是意义分析的起点和中心,而具有独立意义的单个词语只是语言的边缘性现象,并提出了“习语原则”与“开放选择原则”两大语言组织原则,还为此提出并实施了一系列分析原则和方法( Sinclair1991,2000,2001,2004a,2004b) 。语料库语言学的兴起,结合语料库证据的搭配研究显得更有说服力(方子纯 2013: 45) 。由此,语料库搭配研究成为多名学者的关注焦点(如Stubbs 2001; Hoey 2005; Tognini-Bonelli2001; Hunston & Francis 2000) 。在国内,外语界语料库搭配研究始于20 世纪90 年代后期对学习者语言的观察和分析,着重从学习者书面语或口头语文本中分析词语组合或搭配的使用特征,主要视角可分为两种,一是从交际策略视角研究学习者词语组合的个性特征(李文中 1999) ,另一个就是从对比中介语分析视角分析学习者的动词搭配行为(卫乃兴 2002; 濮建忠 2003) 。之后的研究基本沿袭了对比中介语分析的研究视角,通过对比观察和分析中国英语学习者搭配使用困难,试图从母语迁移及学习不足等方面归因错误,从而提出教学补偿。该范式由于其自身理论的缺陷,以及国际英语使用语境的变化,开始受到质疑和反思(李文中2009) 。本文从搭配的界定入手,讨论语料库搭配研究的各种测量手段及存在的难题,并探讨和评价中国学习者搭配分析的作用与意义。2.搭配的界定及分析难题 虽然搭配作为一种语言现象,已引起了语言学界普遍的关注,但学者们对搭配的观点却是同中见异,众说纷纭。这一点从众多学者对搭配的不同定义上就可以看出来,不同的定义反映出学者的迥异的观察视角和研究取向。Seretan(2011) 在她的著作附录中列举了从 1957 年( Firth) 到2008 年五十年间,共二十位学者对搭配的定义,这还不包括与所列出的学者具有相似研究理念的其他学者。在这些定义中,有十五位学者指出了搭配是一种词语“组合”( combi-nation) 或“同现”(co-occurrence) ,说明“同现”是搭配的核心特征,有十一位学者提出了搭配的结构特征或语义特征,表明大多数学者基本共识,即搭配不仅是一种词语的同现,还具有语法结构及语义属性的识别特征。但是,如何看待这些特征以及这些特征之间的关系,学者们的观点分歧较大。为了梳理搭配的定义,更清晰地辨别其中的异同,有学者对搭配研究概括了三种分类方法,即词语构成方法、语义方法、及结构方法(Gitsaki 1996) 。这实际上是把词语搭配序列分析、语义分析、及结构分析看成了三个支点,并从中审视研究者的出发点和研究聚焦。比如词语构成方法强调词语的同现与复现,主张词语序列与搭配结构并不存在截然分明的界线,通过词语看结构; 与此相比,结构方法也强调词语、语法及语义相互依存,但其出发点是确立搭配的结构型式,再通过结构去看词语。而语义方法试图通过语义特征分析,预测搭配词(Gitsaki 1996: 160) 。这种分类方法从搭配定义出发,对不同方法的研究思想和实践关照不够,且划分互有交叉,缺乏依据,如把 Sinclair 与Renouf 划分为结构方法,显得依据不足。Evert(2004) 把搭配界定归纳为二种方法,分别为“位置分布型方法”(positional distribution approach) 及“内涵型方法”( intensional approach) ,前者强调某一具体文本中复现的词语同现,包括词语同现的频数及词语联系的统计值,而后者把搭配界定为是一种词语组合,其语义或句法关系不能由其内部组成元素预测,则该词语组合须列入词符表。Evert 认为,后者基于某个语言学理论的定量分析更清晰,更有意义; 在实践上,位置同现往往包括了各种混杂的结构关系,至少在给定的跨距内或句子内就有多种同现的理据。实际上,这种观点仅仅基于对搭配词对的观察和测量,无视搭配分析过程中扩展语境对搭配结构和语义的消岐,也忽略了Sinclair 的“扩展意义单位分析”的研究实践。也有学者从搭配的产生机制来解释搭配与短语单位的关系,认为不是搭配引起了短语单位,而是更大的短语单位促生了搭配(Barnbrook,Mason & Krishnamur-thy 2013: 165) 。Seretan(2011) 基本上沿袭了 Evert 的思想,把搭配定义分为“基于统计的方法”与“基于语法的方法”,概括起来就是,基于统计的方法认为搭配中的词语关联具有统计学意义,且词语互相预期( 选择) ; 搭配关系不平衡,可区分为上行搭配与下行搭配 1; 而基于语法的方法强调句法结构的先决性及良好性,同时也观察词语同现与复现。 正如Sinclair 所言,意义与结构不可分割,抛开意义分析进行纯粹的词语同现统计,或者孤立地进行语法分析,都不足以区分和解释同现序列的意义关系。如以下短信段子: (1)冬天: 能穿多少穿多少 ; 夏天: 能穿多少穿多少 (2)地铁里听到一个女孩儿大概是给男朋友打电话“我已经到西直门了,你快出来往地铁站走。如果你到了,我还没到,你就等着吧。如果我到了,你还没到,你就等着吧 ! ” 在第(1) 例中,“多少”作为同现序列出现 4 次,但该序列在前句和后句呈现出不同的结构关系和意义关系,前者是习语,表示数量; 后者是修饰结构。第( 2) 例中“你就等着吧”同样是一个复现的同现序列,但其在前句是一个可分析的主谓结构,表达字面意义的请求,而在后句就是一个不可进一步分析的习语序列,表示语用的警告和威胁。以上两例仅依据同现和复现的标准就会遇到很大的难题。基于语法的方法强调句法结构的先决性和结构的良好性,把搭配序列看成是一个句法或语义单位,但很难解释搭配中的词语可交替性限制,某些搭配词从语义视角是可以交替使用的,但从搭配视角却不交替使用( Sinclair 2004b: 285) ; 一些词语序列表现出纯粹的搭配行为,不能由语法直接解释。尽管各种研究搭配的路径和视角不一,但对搭配的基本属性还是存在一定的共识,如搭配是预制性短语,是任意的、不可预测的; 搭配是复现的; 搭配关系具有复杂性,表现在不对称、不平衡、方向性和序列性等(Seretan 2011: 15) 。 为解决上述难题,Stefanowitsch and Gries(2003: 214) 试图把意义单位理论与构式语法、认知语法等结合起来,提出搭配构式( collostruction) 分析方法,期望该方法“既对语言结构敏感,也对各个层面上产生的具体构式敏感”; 在这种构式中,“受某一具体结构吸引的词位(lexemes) 称作该结构的搭配位(collexemes) ; 反之,与某一具体词位相关联的结构称作搭配构(collostruct) ; 搭配位与搭配构的结合称作搭配构式”(Seretan 2011: 215) 。与以往结构分析不同的是,搭配构式在分析中先观察同现词语结构,这种词语结构或搭配构不是抽象的语法范畴,而是具体的词语序列,通过分析搭配位上的搭配词集来获取整个序列的意义,如上述两位学者所举的实例“[N]waiting to happen”中,N表示搭配位,而后跟的“waiting to happen”则是搭配构,通过该搭配构与搭配位上的词位共现,测量其联系强度,从而观察整个搭配构式的意义和态度,如他们发现经常出现的词位大多是“几乎肯定要发生或在当前时间迹象明显的含有消极意义的事件”(Seretan 2011: 215) 。搭配构式可作为意义单位分析的一个补充,以构式为观测节点,再去看与该构式共现的搭配词,丰富了搭配研究的视野,但搭配构式分析却不能代替扩展单位意义分析。3.搭配的测量与作用 既然搭配是一种复现特征,而同现的词语又是互相期望或共选的,那么通过统计和检验测量搭配的强度无疑是搭配分析初始阶段重要的依据。在一个语料库中可以测量出任意两个词的原始频数,并计算其同现的期望概率,再与实际观测的同现概率相比,得出该搭配的强度值。搭配的强度测量旨在确定,在一个节点词的给定跨距内,某一搭配词的同现/复现频率是否具有统计学意义( Z,T) ,这个主要通过对比实际观测的频数与期望频数,计算该搭配词与节点词的搭配力,一般使用 Z、T、MI、MI3 等检验方法。这种测量存在几个主要难题: 1) 无法表示搭配的序列信息,即到底是哪一个词更能预测另一个词的同现,其搭配的顺序如何;2) 不够精细,缺乏词性信息; 3) 缺乏搭配词在跨距内的分布信息,仅靠同现频数是不够的。为说明这一问题,我们以 of course 为例,使用CROWN 语料库,分别以其中一个词为节点词,对比四种统计检验结果,如表 1:作者简介:
(阅读原文)
语科教师群
邀您入同学群
欢迎留言并分享至朋友圈