好文荐读丨张进凯:“X 不比 / 没有 / 不如 Y Z”变体选择的多变量分析
2024-07-09
好文荐读(第119期)“X 不比 / 没有 / 不如 Y Z”变体选择的多变量分析。
“好文荐读”不定期更新,为大家带来最新的核心期刊亮眼论文,希望大家多多支持,也欢迎给我们留言推荐更多值得一荐的好文哦~
“X 不比 / 没有 / 不如 Y Z”变体选择的多变量分析
文章简介
文章来源:张进凯.“X 不比 / 没有 / 不如 Y Z”变体选择的多变量分析[J].当代语言学,2024(01):84-98.
摘要:本研究基于语料库标注数据,首先探讨制约“X 不比/ 没有/ 不如 Y Z”变体选择的显著因素及其影响效应,发现当语域偏向书面语、比较项和被比项为无生、结论项极性体现为积极义、比较点出现时,结构选择上倾向于“X 没有 Y Z”“X 不如 Y Z”,但是当比较项和被比项词长不等时,结构选择上倾向于“X 不比Y Z”。本研究发现“X 不比/ 没有/ 不如 Y Z”变体选择是多个因素互相作用的结果,而且不同因素之间常常呈现出复杂的多重交互效应。最后发现对“X 不比/ 没有/ 不如 Y Z”变体选择具有显著影响的预测变量,按照其相对重要性由高到低依次是:结论项极性、语域、比较点的位置、被比项的生命度、比较项和被比项的词长、比较项的生命度。
关键词:逻辑回归;对数优势比;条件推断决策树;随机森林;多变量分析
基金项目: 贵州省2022年度哲学社会科学规划课题(自筹经费)“民汉双语应急语言服务机制与人才培养模式研究”(22GZYB75)资助。感谢张进凯老师授权推广,全文下载请点击文末“阅读原文”。
一.引言
差比结构“X 比 Y Z”的否定形式有“X 不比 Y Z”、“X 没有 Y Z”(吴福祥2004)、“X 不如 Y Z”等,三者具有互换性,但是在某些语境中三者却不能互换,或者互换后可接受度较低。例如:
本文考察“X不比/没有/不如 Y Z”变体选择的影响因素。在具体语境中“X不比/没有/不如 Y Z”变体选择往往受到诸多语境特征的共同影响,因此本文基于大规模真实语言数据,借助多变量统计分析方法,探讨“X不比/没有/不如 Y Z”之间的细微差异,揭示制约“X不比/没有/不如 Y Z”变体选择的影响因素。用量化手段来揭示影响变体选择倾向性的因素,使得研究有数据支撑,而不再只根据经验进行描写性分析。
逻辑回归分析(logistic regression analysis)可以计算因变量为二分类的分类变量或某事件的发生率,因此本文通过逻辑回归分析,探讨“X不比/没有/不如 Y Z”变体选择概率。条件推断决策树(conditional inference trees)能够很好地表现多个特征之间的相互作用,因此本文利用这一模型来探讨多个变量之间对“X 不比/没有/不如 Y Z”变体选择的交互作用。随机森林(random forests)可以产生模型中每个变量的重要性测度,本文利用此模型计算出对“X不比/没有/不如 Y Z”变体选择具有显著影响的预测变量,按照相对重要性进行排序。
本文第2节为文献综述,第3节介绍语料来源及其标注,第4节基于语料库概率模型分析“X不比/没有/不如 Y Z”变体选择,第5节为“X不比/没有/不如 Y Z”变体选择的条件推断决策树和随机森林分析,第6节为结论。
二.文献综述
相原茂(1992)比较了“不比”和“没有”两种类型的比较句否定形式,认为这两种类型不是等价的,两者的预设、含意和主张相反。周小兵(1994:251-255)将“比”字句否定式分为四类,指出“比”字句“不”的位置不同和数量宾语的有无,会使句子的预设、含意、蕴涵、否定的类型、范围、焦点等发生变化。吴福祥(2004)认为“X 不比 Y Z”是一种反预期结构,其语用功能是表达一种反预期信息。华雨(2017)对“X 不如 Y Z”和“X 不比 Y Z”在语义及主观性强度上的差异进行了计量分析。
以上研究大多关注“X 不比/ 没有/ 不如 Y Z”两两之间的变体选择,尚未涉及三者的变体选择,但是在语言研究尤其是国际中文教育中,三者的变体选择是不能绕过的话题。同时,既有研究较少涉及各种预测因素之间是否存在关系、 哪些预测因素对“X 不比/ 没有/ 不如Y Z”变体选择具有显著影响,也尚未基于用法系统阐述各预测因素在影响“X 不比/ 没有/ 不如 Y Z”变体选择中所占的权重。
鉴于此,本文基于北京语言大学 BCC 语料库,采用多变量分析探讨“X 不比/ 没有/ 不如 Y Z”变体选择,以期回答如下问题:
1) 制约“X 不比/ 没有/ 不如 Y Z”变体选择的显著影响因素是什么?这些因素影响效应下,选择变体的优势比呈现什么样态?
2) 预测因素之间是否有较强的交互效应?具体体现是什么?
3) 各预测因素所占的权重如何排序?
在研究“X 不比/ 没有/ 不如 Y Z”变体选择时应该主要考察哪些变量?以下先行研究考察到的变量,为本文的研究提供了参考。
李临定(2011[1986]:409-420)将“比”字句总结为 6 种格式,从能进入这些格式的名词来看,比较项和被比项有有生命(人和动物)和无生命(物质和抽象实体)之分。相原茂(1992)、史有为(1994)、徐燕青(1997)都对“不比”句和“没有”句结论项位置上的形容词褒贬义或者积极消极义进行了分析,本文认为这是一种对结论项极性的察。Fraser(1966)在考察小品词位置时,把直接宾语的词长,即是简单的还是受短语或分句修饰的,作为一个重要变量。Levshina(2014)、张懂(2019, 2020)都对语域(语体)进行了考察,发现不同语域对不同词汇的选择有一定的影响和偏好。邓耀臣、冯志伟(2013)验证了词汇的使用频数和词汇长度之间存在明显依存关系。何元建(2010)指出“比较点可以跟随主体、客体一起出现,也可以随其一,还可以完全不出现”。据此,本文将考察比较项生命度、被比项生命度、结论项极性、比较项与被比项词长、比较点出现与否、语域等多种变量对“X 不比/ 没有/ 不如Y Z”变体选择的影响。
本研究是对近义结构进行量化分析的一次尝试,用数据说话,并将研究结果可视化,直观形象,避免片面化和绝对化。
三. 语料来源
3.1语料来源
本研究以“不比”“没有”和“不如”为关键词在BCC语料库多领域频道进行穷尽式搜索,“不比”得到9803条,“没有”得到1928678条,“不如”得93377条。针对容量较大的“没有”和“不如”,本研究采用系统抽样法(systematic sampling),各抽取其中的10000例。之后以是否含有“X 不比/ 没有/ 不如Y Z”的所有部件为删选条件进行清洗,最后获得1420 条“不比”句、1015条“没有”句、1090条“不如”句, 分别编码为分别编码为BB1-1420、MY1-1015、BR1-1090。
3.2 语料标注
语言类型学中比结构应该由比较项、比较基准、比较标记、结论项四个重要概念组成(Stassen 1985;李蓝 2003),赵金铭(2001)将四类比较次范畴统一编码为:比项+标记+被比项+结论项,其中被比项对应比较基准。
本研究对以上四个部分进行标注,即 X 为比较项,“不比/ 没有/ 不如”为标记,Y 为被比项,Z 为结论项。另外,比较句有时比较的是比较项和被比项的某个方面,例如“这本书没有那本书价格高”,比较的是价格,本研究称之为“比较点”,并作为标注对象。标注因素及其水平见表1。
4.1 语料库概率模型的建立
本研究通过多元逻辑回归分析,揭示制约“X 不比/ 没有/ 不如 Y Z”变体选择的显著因素及其影响效应。多元逻辑回归分析涉及更多斜率,同时考察多个预测变量对因变量的影响,它可以在控制其他变量影响的基础上,考察每个个体变量的影响,同时还可以考察变量之间的交互效应。因此,个别变量的影响不会被夸大,而是在控制其他因素作用的情况下考察这个变量的影响。本文将标注好的数据导入R语言软件,在安装调用程序包mlogit、polytomous 后使用mlogit函数,进行多元逻辑回归建模,对数据进行拟合。在R中运行以上函数得到的多元逻辑回归结果如表2所示。
“拟合对数” 表示允许的偏差量,绝对值越小,表示拟合越好(Levshina 2015:280),本模型的拟合对数为-2812.2。多元逻辑回归中的R2类似于线性回归中的R2,其数值在0.2到0.4之间被认为是非常好的拟合。对应于线性模型中的0.7到0.9(Louviere 等 2000:55;Levshina 2015:280),本研究的R2为0.27,表明本模型能很好地拟合。同时,p值<0.001说明本研究的模型具有较高的预测度。通过以上拟合优度统计指标可知,本研究构建的语料库概率模型对数据具有很强的解释性能,模型能够依据预测变量对反应变量进行较为准确的分类和预测。
为了防止多重共线性(multicollinearity)对模型的参数估计和预测性能造成干扰,本研究对模型做多重共线性检验,检验各变量之间是否具有高度相关性(Levishina 2015:159-160,272;张懂 2020)。由表2可知,本研究模型中各个预测变量的方差扩大因子(VIF)的值均小于2,因此本研究模型不存在严重多重共线性(Baayen 2008)。
4.2 语料库概率模型结果
回归系数是当其他预测变量不变时, 一个单位预测变量的变化可引起的响应变量对数优势比(log odds ratio)的变化。在本模型中,系统默认的预测因素“不比”要与其他两个因素“没有”和“不如”分别进行比较。当回归系数为正时,意味着在差比结构否定式的选择上,选择“X 没有 Y Z”或者“X 不如Y Z”的概率要大于“X 不比 Y Z”;相反,当系数为负时,意味着在差比结构否定式的选择上,选择“X 没有 Y Z”或者“X 不如 Y Z”的概率要小于“X 不比 Y Z”。使用exp( )函数可以去掉对数并获得相应的简单优势比,因此本研究使用 exp( )来计算优势比。下面进行具体分析。
当语域偏向书面语时,选择“X 不如 Y Z”的发生比(odds)是“X 不比 Y Z”的8.71( e2.16463)倍;相反,选择“X 不比 Y Z” 的发生比是“X 不如 Y Z” 的1/8.71=0.11倍。在本研究的原语料中,语域为书面语的“X 不如 Y Z” 共有536句,如(2a),表现出较强的优势,“X 不比 Y Z”为130句, 如(2b)。
当语域偏向书面语时,选择“X 没有 Y Z”的发生比是“X 不比 Y Z”的2.2(e0.78646)倍;相反,选择“X 不比 Y Z”的发生比是“X 没有 Y Z”的1/2.2=0.46倍。在本研究的原语料中,语域为书面语的“X 没有 Y Z” 共有210句,如(3a),表现出较强的优势,“X 不比 Y Z”为130句,如(3b)。
当比较项为无生时,选择“X 不如 Y Z”的发生比是“X 不比 Y Z”的1.36(e0.30838)倍;相反,选择“X 不比 Y Z”的发生比是“X 不如 Y Z”的1/1.36=0.73倍。在本研究的原语料中,比较项为无生的“X 不如 Y Z” 共有974句,如(4a),表现出一定优势,“X 不比 Y Z”为791句,如(4b)。
当比较项为无生时,选择“X 没有 Y Z”的发生比是“X 不比 Y Z”的1.81(e0.59181)倍;相反,选择“X 不比 Y Z” 的发生比是“X 没有 Y Z” 的1/1.81=0.5533倍。在本研究的原语料中,比较项为无生的“X 没有 Y Z”共有908句,如(5a),表现出一定优势,“X 不比 Y Z”为791句如(5b)。
当被比项为无生时,选择“ X 不如 Y Z” 的发生比是“ X 不比 Y Z” 的2.19561(e0.78646)倍;相反,选择“X 不比 Y Z” 的发生比是“X 不如 Y Z” 的1/2.19561=0.55倍。在本研究的原语料中,被比项为无生的“X 不如 Y Z”共有866句,如(6a),表现出一定优势,“X 不比 Y Z”为685句,如(6b)。
当被比项为无生时,选择“X 没有 Y Z”的发生比是“X 不比 Y Z”的2.86(e1.05102)倍;相反,选择“X 不比 Y Z”的发生比是“X 没有 Y Z”的1/2.86=0.35倍。在本研究的原语料中,被比项为无生的“X 没有 Y Z” 共有793句,如(7a),表现出一定优势,“X 不比 Y Z”为685句,如(7b)。
当结论项极性体现为积极义时,选择“X 不如 Y Z” 的发生比是“X 不比Y Z”的54.11(e3.99098)倍;相反,选择“X 不比 Y Z”的发生比是“X 不如 Y Z”的1/54.11=0.02 倍。在本研究的原语料中,结论项为积极义的“X 不如 Y Z”共有1054句,如(8a),表现出较强优势,“X 不比 Y Z”为197句,如(8b)。
当结论项极性体现为积极义时,选择“X 没有 Y Z” 的发生比是“X 不比Y Z”的15.42(e2.73547)倍;相反,选择“X 不比 Y Z”的发生比是“X 没有 Y Z”的1/15.42=0.06倍。在本研究的原语料中,结论项为积极义的“X 没有 Y Z”共有913句,如(9a),表现出较强优势,“X 不比 Y Z”为197句,如(9b)。
当比较项与被比项词长不等时,选择“X 不如 Y Z” 的发生比是“X 不比Y Z”的0.31(e-1.18183)倍;相反,选择“X 不比 Y Z”的发生比是“X 不如 Y Z”的1/0.31=3.26 倍。在本研究的原语料中,比较项与被比项词长不等的“X 不如Y Z”共有481句,如(10a)表现出劣势,“X 不比 Y Z” 为1192句,如(10b),表现出优势。
当比较项与被比项词长不等时,选择“X 没有 Y Z” 的发生比是“X 不比Y Z”的 0.43(e-0.84396)倍;相反,选择“X 不比 Y Z”的发生比是“X 没有 Y Z”的1/0.43=2.33 倍。在本研究的原语料中,比较项与被比项词长不等的“X 没有Y Z”共有568句, 如(11a),表现出劣势,“X 不比 Y Z” 为1192句,如(11b),表现出优势。
当比较点出现时,选择“X 不如 Y Z” 的发生比是“X 不比 Y Z” 的2. 72(e0.99895)倍;相反,选择“X 不比 Y Z”的发生比是“X 不如 Y Z”的1/2.72=0.37倍。在本研究的原语料中,比较点出现的“X 不如 Y Z”共有994句,如(12a),表现出较强优势,“X 不比 Y Z”为431句,如(12b)。
当比较点出现时,选择“X 没有 Y Z” 的发生比是“X 不比 Y Z” 的2. 69(e0.98865)倍;相反,选择“X 不比 Y Z”的发生比是“X 没有 Y Z”的1/2.69=0.37倍。在本研究的原语料中,比较点出现的“X 没有 Y Z”共有723句,如(13a),表现出较强优势,“X 不比 Y Z”为431句,如(13b)。
4.3 语料库概率模型结果讨论
根据以上统计结果,本研究所选定的预测因素均对“X 不比/ 没有/ 不如 Y Z”变体选择具有显著影响。具体而言,当语域偏向书面语、比较项为无生、被比项为无生、结论项的极性体现为积极义、比较点出现时,倾向于使用“X不如 Y Z” “X 没有 Y Z”;当比较项和被比项词长不等时,倾向于使用“X 不比 Y Z”。
吕叔湘(1999[1980])指出“X 不如 Y Z”比较前项(比较项)总是比比较后项(被比项)差。根据吕先生的分析,Z应该为积极义,和本概率模型结果一致。本研究的1090条“不如”原语料中,Z为积极义的共有1054句,Z为消极义的只有36句,前者为后者的29.3倍。例如,(14a)中位于 Z 位置上的“强壮”为积极义,不能替换为“弱”;(14b)中位于 Z 位置上的“冷”为消极义,可以替换为“暖和”,但是句义相反。
相原茂(1992)认为“X 不比 Y Z”最基本语义等于“X 不 Z, Y 不 Z”,即对于“不 Z”来说, X = Y。刘月华等(2001)认为“X 不比 Y Z”主要有两种意思,一是“X 不如 Y Z”,二是“X 跟 Y 差不多 Z”,但有可能出现正面偏移或负面偏移。由此我们有理由相信,“X 不比 Y Z”中的 Z 既可为积极义又可为消极义,和本概率模型结果一致。本研究的1420条“不比”原语料中,Z为积极义的共有597句,Z为消极义的有823句,前者与后者比为0.73:1。例如,(15a)中位于 Z 位置上的“高为积极义,可替换为消极义的“矮”,句义虽然稍有不同,但是基本句义不变;(15b)中位于 Z 位置上的“少” 为消极义,可以替换为“多”,但是句义相反。
Tagliamonte 和 Baayen(2012)首次将条件推断决策树和随机森林引进语言学研究中,本研究使用条件推断决策树考察“X 不比/ 没有/ 不如 Y Z”变体选择影响因素之间的多重交互,利用随机森林分析变体选择的影响因素之间的相对重要性。语言特征之间经常存在多重共线性,会给统计建模带来严重问题(Szmrecsanyi 2010),而条件推断决策树和随机森林属于非参数统计模型,不需要呈正态分布的数据,同时不被多重共线性所干扰。
5.1 “X 不比/ 没有/ 不如 Y Z”变体选择的条件推断决策树分析
条件推断决策树是一种基于二元递归划分的回归分类方法,可创建树状模型,能够很好地表现多个特征之间的相互作用,适用于多种数据类型。首先,变量选择是无偏的(传统的方法偏向于有许多分支可能的变量)。其次,不必“修剪”(即简化)生成的树以避免过度匹配。最后,该算法还返回p值,这些值显示了圆锥曲线在每次分割时的大小(Levshina 2015:292)。这一过程的结果可以被可视化为一个树结构,二元分裂形成“分支”和“叶子”。因此,决策树包含众多节点(node),节点分为根节点(root node)与叶节点(leaf node)。其中根节点位于决策树最顶部,它是分类的起始点,位于最底端且没有子节点的节点称为叶节点。本研究在R语言软件中加载party程序包,使用ctree函数构建条件推断决策树模型(Hothorn 等 2006a),对数据进行统计。结果如图1所示。本研究基于语料库标注数据,使用逻辑回归分析,首先探讨制约“X 不比/没有/ 不如 Y Z”变体选择的显著因素及其影响效应,发现当语域偏向于书面语体、比较项和被比项为无生、结论项极性体现为积极义、比较点出现时,结构选择上倾向于“X 没有 Y Z” “X 不如 Y Z”,但是当比较项和被比项词长不等时,结构选择上倾向于“X 不比 Y Z”。再次,发现“X 不比/ 没有/ 不如 Y Z”结构变体选择是多个因素互相作用的结果,而且不同因素之间常常呈现出复杂的多重交互效应。条件推断决策树和逻辑回归的统计结果揭示,对“X 不比/ 没有/ 不如 Y Z”变体选择具有显著影响的变量全部包含在逻辑回归模型中,并且两个模型中预测变量的影响效应方向基本一致。最后通过随机森林发现对“X 不比/ 没有/ 不如 Y Z”变体选择具有显著影响的预测变量,按照其相对重要性由高到低依次是:结论项极性、语域、比较点是否出现、被比项的生命度、比较项和被比项的词长、比较项的生命度。根据吕叔湘(1999[1980]),“X 不如 Y Z”的 Z 应该为积极义,根据相原茂(1992)、刘月华等(2001),“X 不比Y Z”中的 Z 既可为积极义又可为消极义。结合本文结论和已有成果可知,Z的极性(积极义/ 消极义)对“X 不比/ 没有/ 不如 Y Z”变体选择起着决定作用,并与其他变量进行交互。“不比”“没有” “不如”的原型语义是这一结果产生的动因,其中“没有”“不如”的原型语义为“在 Z 上,X<Y”,“不比”的原型语义为“在 Z 上,X≤Y”(相原茂 1992;刘月华等 2001;华雨 2017),因此前者中Z 倾向于表达积极义,后者中 Z 可为积极义也可为消极义。 本研究是一次将差比结构变体选择进行量化分析的尝试,其中涉及了三种量化统计模型,本研究不仅验证了上述变量对“X 不比/ 没有/ 不如 Y Z”变体选择具有显著影响,还揭示了变量之间存在多重交互效应,同时发现了各个变量的相对重要性。其中结论项的极性(积极义/ 消极义) 在“X 不比/ 没有/ 不如Y Z”结构变体选择中起着决定作用。 |
作者简介
个人简介:张进凯,文学博士,兴义民族师范学院教师,主要研究方向为汉语语言学、语言学及应用语言学。主持国家社科项目一项、贵州省社科一项、教育部语和中心项目一项,发表论文多篇,出版专著一部教材多部。联系方式:kelvinsoul@naver.com。
本文来源:《当代语言学》
点击文末“阅读原文”可跳转下载推 荐
2024-07-11
2024-07-10
2024-07-05
2024-07-03
2024-06-29
2024-06-28
2024-06-25
2024-06-24
2024-06-20
“语言学心得交流分享群”“语言学考博/考研/保研交流群”
今日小编:语安
审 核:心得小蔓
转载&合作请联系
"心得君"
微信:xindejun_yyxxd
点击“阅读原文”可跳转下载