好文荐读|莫凯洁、胡韧奋:现代汉语词汇语体属性探测模型研究
好文荐读(第八十五期)现代汉语词汇语体属性探测模型研究。
“好文荐读”不定期更新,为大家带来最新的核心期刊亮眼论文,希望大家多多支持,也欢迎给我们留言推荐更多值得一荐的好文哦~
北京师范大学国际中文教育学院
文章简介
文章来源:莫凯洁,胡韧奋.现代汉语词汇语体属性探测模型研究[J].语言文字应用,2023(04):118-131.
摘要:本文立足于正式—非正式的语体维度,提出了基于机器学习方法的现代汉语词汇语体属性探测模型,旨在实现符合语体连续统特性的词语正式度测量。研究首先构建了现代汉语语体语料库,设计了语体分类特征,并基于《现代汉语词典》(第7版)中的〈书〉〈口〉标注数据训练语体属性自动分类模型。模型五折验证准确率达87.26%。进一步的误例分析发现:词典中的语体标注存在部分缺漏、过时、不对称等问题,而基于语体语料库的语境特征能有效修正数据偏差。为了更好地服务词汇语体教学,本研究使用上述模型对《国际中文教育中文水平等级标准》词表和《义务教育常用词表(草案)》主表的共25500个词语进行了语体正式度测量,并分析了该方法在词典编纂和教学方面的应用。
关键词:语体特征;正式度;机器学习;语体词表基金项目: 教育部中外语言交流合作中心国际中文教育中外联合研究专项课题“基于新标准的智能化语言分析技术研究”(22YH04ZW);中央高校基本科研业务费专项资金(北京师范大学优秀青年创新团队项目“基于数字人文的《说文》学跨学科研究”)资助。感谢《语言文字应用》授权推广,全文下载请点击文末“阅读原文”。
一.引言
语体是不同交际领域中具有差异的语言体系,承载着人类语言的社会性,在人类交际中起着重要作用。学界对语体的定义较多,王德春(1987)认为,语体就是语言素材在各个交际环境中形成的系列特征集合。刘大为(1994)指出,语体是一种语言在交际过程中产生变异而形成的特征集合体。冯胜利、施春宏(2018)将语体界定为“实现人们在直接交际中具有元始属性的、用语言来表达或确定彼此之间关系和距离的一种语言机制”。总体而言,语体和交际息息相关,不同交际距离中的语体存在各自不同的语言特征。目前学界通常将语体划分为口语体和书面语体(邵敬敏,2016;胡裕树,2019),也有学者提出了更细化的区分方式,如李文明(1994)将语体划分为科学、艺术和应用三大类,每类下设书面语体、口语体;冯胜利(2010)提出,正式与非正式、典雅与便俗是构成语体的两对基本范畴。综上来看,正式与非正式是最基本的语体范畴。通常,交际者和交际对象之间的距离越远,所用的语体正式程度越高。
语体词指某类语体中常用且专用的词语(袁晖,2004),通常包括日常口头交际中使用的口语体词汇和在正式交际场合中使用的正式体词汇,以及不具有明显语体属性的通用体词汇(符淮青,2011;汪维辉,2014;冯胜利、王永娜,2017)。若一个语体词被使用在非所属语体的交际语境中,可能会导致所谓“不得体”情况。以下为一则汉语学习者的语用偏误示例(冯胜利,2015):
(1)老师您媳妇儿在家吗?*
(2)老师您妻子/夫人在家吗?
“媳妇儿”是口语体词。当面向交际距离较远,需以尊重态度去进行交际的对象“老师”时,交际者使用该词是不够得体的行为。当前研究表明,汉语学习者语体意识较为缺乏,对语体掌握存在困难(张翠吉,2018;马明艳,2017)。学界也意识到语体参与语言教学的重要性,李泉(2003)认为应改善“中性语体”在教学中占优势的局面,增加针对口语和书面语的教学,促进学习者的交际用语习得。冯胜利、王永娜(2017)指出在二语教学和本族语教学中,若要学生具有语体意识、学会得体表达,需进行语体分级教学研究。词汇正是语言教学中的关键点,汉语学习者学会区分和掌握汉语语体词十分重要。
然而,语体的边界模糊,给词汇语体属性的划定带来了挑战。从正式—非正式范畴来看,语体的过渡呈现为一个连续统(崔希亮,2020),而仅靠语感难以实现对连续统的精确描述。目前标注词语语体的方法主要有以下三种:
1.人工标注:根据语言学理论及人的语感确定词语的正式程度或语体分类,如冯胜利和王永娜(2017)、黄国敬等(2022)。该方法以非连续统的方式进行分类标注,标注成本较高,且易受主观因素影响。
2.从典型语料中提取高频词:选择较为典型的正式体语料和非正式体语料,统计两种语料中的高频词汇,从中提取语体词汇(潘先军,2021)。该方法的频度阈值较难确定,且提取出的语体词易混入高频的通用词汇。
3.对比词语在典型语料中的频度:选择典型语体语料库(如报刊、科技和对话语料),对比某词在不同语料库中的频度(张文贤等,2012;崔希亮,2020;黄劲怡、彭宣维,2022)。该方法的统计结果易受语料库规模影响,且其对语体的评估仅限于词频,刻画维度较为单一。
基于以上考虑,本文将从词典编纂、汉语教学实际需求出发,结合汉语语体特性及多维度语言特征,构建现代汉语词汇语体属性探测模型,以平衡客观数据与人类语感,促进解决语体标注模糊性难题。在理论层面上,本研究将分析不同语言特征对语体分类的影响,挖掘更多语体分类依据;在实践层面上,本研究利用语体语料库及词向量技术来抽取表层、深层语言特征,以构建现代汉语词汇语体属性探测模型,实现高效率的词汇语体属性量化分析;在应用层面上,本研究拟将词汇语体属性测量模型应用于二语教学、义务教育领域的词表自动标注,并探讨其在语言教学中的应用价值。
二.词汇语体属性探测模型构建
本文主要从正式-非正式的范畴出发,采用机器学习方法训练承载现代汉语语体知识的分类模型,进一步提取模型的预测概率,实现词语正式度的“连续统”测量。机器学习方法需从训练数据中提取特征,抽象出数据模型,从而对未知新数据进行预测和分析(李航,2019)。由于机器学习可以客观、定量地学习数据中的规律,并对大规模未知样本进行预测,该方法不仅成为自然语言处理、图像识别、语音识别等计算机应用学科的基础性方法,也在金融、医疗、教育等领域有广泛应用。在应用语言学方面,机器学习方法常用于文本分类、分级研究,如文本可读性分析(杜月明等,2022;吴思远等,2020)、作文自动评分(Attali&Burstein,2006;Wang&Hu,2021)等。接下来,本文将从数据、特征、模型三个层面介绍现代汉语词汇语体属性探测模型的构建方法。
(一)词汇数据对于训练机器学习模型而言,词汇语体标注数据的质量十分重要。现有较为全面、系统的语体标注数据主要见于词典。其中,《现代汉语词典》(第7版)采用〈口〉〈方〉和〈书〉标记来分别标注口语词、方言词和书面文言词汇;冯胜利等(2020a)所编著的《汉语八百对单双音节对应词词典》使用通体、正式体、口语体、庄典体将单双音节对应词进行分类标注。此外,也有专门的语体词典,例如施光亨(2012)编著的《汉语口语词词典》、李行健(2022)主编的《现代汉语口语词典》。本文旨在对现代汉语词汇的语体属性进行测量,需选择较为全面、系统且经多次校对的语体标注数据。《现代汉语词典》(第7版)(以下简称《现汉》)中标注了口语体词和书面文言词汇。其中,书面文言词汇属于书面语,是现代汉语中继承自文言文的书面语成分,属于现代汉语书面语的子集(孙德金,2012)。《现汉》中词汇语体标注数据来源较为权威,且质量高、数量多,因此本文选择《现汉》的语体标注数据为主要训练、测试数据。具体来说,从《现汉》中提取标注〈口〉的口语体词838个,标注〈书〉的书面语词3002个,并随机抽样2500个不带任何语体标注的通用体词汇。最终,从《现汉》中得到非正式语体词汇3338个,正式语体词汇3002个,其比例为1.1:1,较为均衡。(二)面向词汇语体分类的基础资源本研究主要从正式—非正式语体范畴出发建立语体语料库,为抽取语体特征提供资源支撑。冯胜利(2010)指出,非正式语体和正式语体的区别在于一个是日常性的或亲密随便的语言交际,另一个是非日常的或严肃庄重的语言交际。邰沁清、饶高琦(2021)对汉语文本进行了语体聚类,发现属于正式语体的文本有公文、学术文献、政论、新闻报道;属于非正式语体的文本有小说、散文、微博、歌词、谈话、问答。根据前人研究的分类依据,本文构建了较均衡的语体语料库,表1为语体语料库的具体情况。三. 实验与分析
(一)实验设置
首先,对来自《现汉》的标注数据进行过滤,剔除在语料库、词向量词表中未收录的词,共计得到5422词。包括2433个正式语体词、2989个非正式语体词。然后,依据上文方法抽取词语特征,并按照8:2分割训练集和测试集。在构建机器学习模型时,将SVM的probability参数调整为True,RRC的alpha参数设置为0.3,LR的penalty设置为“l1”,solver设置为“liblinear”,RF的max_depth参数设置为4,random_state参数设置为0。除以上参数外,其他模型参数均保持默认值。(二)实验结果及分析实验对比不同特征和模型的组合效果,各组模型均在完整数据集上采用五折交叉验证来计算平均准确率,结果如表2所示。相较于单独使用词本身特征、语料库语境特征,大部分情况下,组合使用这两类特征时,模型分类预测效果会更好,说明这两类特征为有效且互补的词汇语体分类依据。单独使用词向量特征训练出来的模型准确率处于较高水平,在SVM模型中达到了87.26%,表明词向量特征能够较好地捕捉词汇的语体特点。四.词表语体属性预测
根据实验结果分析,词汇语体属性探测模型能够为词典中的语体属性标注提供一定参考。在汉语教学领域的词表中,大部分词语均未被《现汉》标记语体属性,如果能通过模型对其语体正式程度进行量化判定,将有助于教材编写者和教师将语体信息融入词汇教学,加强学生的语体意识。本文应用模型对《国际中文教育中文水平等级标准》词表(以下简称“《标准》词表”)、《义务教育常用词表(草案)》主表(以下简称“《常用词表》”)进行语体正式度预测,以服务该领域的教学和研究。(一)《国际中文教育中文水平等级标准》词表语体属性预测《标准》词表收录11092个词条。因词表未提供词性标注,本文使用《现汉》对词表中的词条进行词性标注。经拆分词组、排除词缀和短语、词性标注后,进一步检查词条是否被语料库和词向量词表收录,最终得到10028词。本文使用两种模型进行加权组合预测,模型一为基于词向量特征的SVM模型,该模型对《现汉》的拟合效果最佳,模型二为使用词本身特征+语料库语境特征训练的RF模型,可以修正数据中存在的“文言偏见”。经尝试不同权重设定,发现RF模型加权分数为60%时,得到的正式度分值对不同词汇有较好的语体区分效果,且与人的语感较为相符。表6展示了单独使用两种模型和加权组合的结果,可以看出,SVM模型因拟合了《现汉》数据的“文言偏见”,对该词表的正式度预测均值过低(0.0945),RF模型使用词本身特征+语料库语境特征预测,正式度均值较高(0.5333)。从加权后的分数来看,《标准》词表正式度均值偏低(0.3577),超过75%的词语正式度都低于0.5。不同正式度区间的词语示例可参见表7。五. 结语
本文尝试从词典编纂、汉语教学的需求出发,采用机器学习方法训练词汇语体属性分类模型,以促进解决语体属性标注的模糊性难题。在理论层面上,挖掘语体分类依据,设计多维度语言特征,首次实现了词汇语体正式度的连续统式标注;在应用层面上,研究成果发现了当前《现汉》语体标注的部分问题,可为其未来修订提供参考,还利用基于词汇特征、语料库语境特征的模型在一定程度上修正了训练数据中的“文言偏见”,并开放了汉语教学领域的语体词表资源,探讨语体知识引入语言教学中的应用价值。
本次研究尚存在一些待改进之处,如训练数据须进一步优化,应在《现汉》标记的基础上补充校对语体信息,添加成语类标注数据,并引入词义消歧方法,以实现更加细粒度的语体属性测量。此外,研究采用《现汉》中书面语、口语二分的语体标注数据,而事实上,标注的书面语体词汇中混杂典雅体词汇。李宇明(2023)在《中国语言生活状况报告》序中指出,在网络语言、领域语言迅速发展,传统文化也被愈发重视的当下,普通话形成了口语体、一般书面语体和典雅语体三足鼎立的格局。未来的词典编纂或语体研究有必要开启语体三分的研究路线。本研究仅从正式—非正式维度对词汇进行语体属性测量,未来还需尝试对典雅—通俗维度进行探索,挖掘更多语体相关的语言特征,探寻更完善、准确的语体标注体系。作者简介
莫凯洁,北京师范大学国际中文教育学院硕士生,主要研究计算语言学。
本文来源:《语言文字应用》
点击文末“阅读原文”可跳转下载课程推荐
2024-03-13
2024-03-08
2024-03-07
2024-03-04
2024-02-29
2024-02-25
2024-02-24
2024-02-18
2024-02-16
2024-02-14
欢迎加入
今日小编:东东咚
审 核:心得小蔓
转载&合作请联系
"心得君"
微信:xindejun_yyxxd