学术观点|方昱、刘海涛 :汉语句式选择可以预测吗?
Predicting syntactic choice in Mandarin Chinese:a corpus-based analysis of ba sentences and SVO sentences
方昱博士
同济大学外国语学院助理教授,英语系外事秘书,研究方向:计量语言学、依存语法。
刘海涛教授
浙江大学求是特聘教授,国际世界语学院院士,教育部“长江学者”特聘教授;连续七年进入爱思唯尔“中国高被引学者”榜单,国务院政府特殊津贴获得者,省优博论文指导教师,多次获得教育部与省级政府社科奖。多种语言学出版物的主编、副主编及编委会成员。在数十种国内外文、理、工刊物发表语言学相关文章200余篇,其中100多篇被WOS核心库收录。
|前言|
汉语的句式选择可以预测么?今天,小编和大家一起学习一下方昱老师和刘海涛教授发表在Cognitive Linguistics上的新作:Predicting syntactic choice in Mandarin Chinese: a corpus-based analysis of ba sentences and SVO sentences.
本研究以能够相互转换的把字句和主动宾句为例,应用混合效应模型考察已知性、句式并列、宾语长度、谓语动词长度、依存距离和惊异值等10个因素对现代汉语近义句式选择的影响。研究发现,已知性、句式并列、宾语与谓语动词长度之比能有效预测把字句与主动宾句的选择;而依存距离和惊异值能有效预测自然出现的把字句(主动宾句)与由其转换得到的主动宾句(把字句)的选择。这一发现与前人基于其他语言和其他句式的研究结果一致,说明影响近义句式选择的因素在不同语言之间具有共性。
首先,从大家感兴趣的研究方法说起:
|Methods|
语料来源
本研究语料源自于北京大学CCL语料库。把字句和主动宾句之间的互换受谓语动词的制约,因此首先我们需要确定一个可以用于两种句式的动词列表。具体说来,如果一个动词在两种句式中至少出现3次,则认为它在两种句式中都是适用的。在实际操作过程中,以“把”作为关键字来提取所有包含把的句子。为了在达到研究目标的同时减少工作量,我们根据以下三个标准筛选句子后,保留了每个体裁的前250个句子。首先,一个句子必须包含BA+NP2+VP形式的ba结构,而不仅仅是“把握”和”把持“等含有把的词组;其次,一个把字句可以转换成主动宾句;第三,动词在把字句中必须至少出现3次。之后,将把字句中使用的动词作为关键词,提取出可以转化为把字句的主动宾句。如果一个动词在主动宾句中出现少于3次,则该动词被排除,其出现的相应把字句也将被排除。此外,一个把字句或一个主动宾句如果没有出现在主句中,则被排除。最后,最后得到的语料信息如下所示:
数据处理
在句式选择研究中广泛使用的建模技术是逻辑回归。在逻辑回归模型中,因变量必须为分类变量,而自变量既可以是分类变量,也可以是数值型变量。得到模型后,我们可以根据系数的重要性判断自变量是否对因变量有影响在本研究中,逻辑回归模型将使用R 3.6.1构建。在下面的部分中,作者通过混合效应模型考察已知性、句式并列、宾语长度、谓语动词长度、依存距离和惊异值等10个因素对现代汉语近义句式选择的影响。
研究问题
本文研究问题主要有以下两个:
1.已知性、句式并列、宾语长度等八个因素能否准确预测把字句和主动宾句的选用;
2. 依存距离和惊异值能否准确预测自然出现的把字句(或主动宾句)和由其转换得到的主动宾句(或把字句)的选用。
研究结果
根据以上研究问题,作者分别建立了两个回归模型。根据第一个回归模型的结果,只有已知性、句式并列、宾语与谓语动词长度之比能有效预测把字句与主动宾句的选择。当宾语未知、句式并列或长度之比更大时,会优先选择主动宾句。
根据第二个回归模型的结果,近义句式的依存距离之差和惊异值之差能有效预测自然出现的句子和转换得到的句子。随着转换句子的依存距离或惊异值越来越大于自然出现的句子,选择自然出现的句子的可能性也越来越大。
讨论与结论
本研究结果与前人基于其他语言和其他句式的研究结果一致,说明影响近义句式选择的因素在不同语言之间具有共性。
结语
看完方老师和刘教授的文章,你觉汉语的句式选择可以预测吗?欢迎大家下载原文阅读。
编者按
原文地址:https://doi.org/10.1515/cog-2020-0005
本文编辑:孙雨
本文审核:沈骑
长三角语言治理研究联盟
欢迎关注
Language Governance Alliance
球分享
球点赞
球在看