"汉语助研"操作指南与案例十:搭配分析
一、术语与方法说明
“汉语助研”的搭配模块,主要运用统计测量手段如Z值、T值和MI值测量词语搭配的概率,以判断各搭配词与节点词搭配的显著性与典型性。同时,提供了搭配过滤与统计分析功能。
1. MI 值
即互信息,互信息值体现的是节点词和搭配词之间的互相吸引关系。用来测量节点词和搭配词之间的相互关联程度和搭配强弱。
一般来讲,MI值越大,说明两个词之间的搭配强度越高。互信息值可能为正值或负值,如互信息值为负,则表明两词之间出现互相排斥的现象,即两词不倾向于在一定语境内共现。
2. Z 值
Z 值表示节点词或搭配词相互吸引或相互预见的程度,Z值达到一定的数量,搭配词即可视为显著搭配词,它与节点词组成的序列则是显著搭配。
Z 值是用来检验词语序列搭配的显著性。一般来说,Z值越大,该词语序列是搭配的可能性越大。
通常情况下,若某词项组合的 Z 值和 MI 值都达到一定程度,则该组合可视为典型且常用的搭配。
根据以往的研究经验,在进行词语搭配研究时主要采用 MI 值和 Z 值相结合的测量方法,且它们要同时满足以下条件:MI≥3,Z≥2.58(经验值)。
3. 搭配节点词、搭配词
将对语料库中所有词语进行搭配抽取,这些词语称之为搭配节点词,与其搭配的词语称为搭配词。
4. 跨距
跨距是节点词左右的语境,以词为计算单位。确定跨距即确定节点词的观察窗口。跨距的确定随着语言类型和节点词词性的变化而变化。
设定名词跨距为【-2,1】,形容词跨距为【-1,2】,动词跨距为【-3,4】,副词跨距为【-2,3】,其他词性跨距为【-2,2】。
“-2”即名词节点词的左边搭配最多统计两个词语,“1”即右边统计一个词语。
例如,“一朵红花开了”,“花”节点词的左边两个搭配词分别为“朵、红”,右边搭配词为“开”,将抽取出搭配“朵 + 花、红 + 花;花 + 开”。
二、使用指南视频
下面详细介绍使用汉语助研软件的搭配分析功能。
三、使用图文步骤
01 搭配抽取
单击“搭配抽取”模块中的“打开语料库文件夹”,选择需搭配抽取的语料库文件夹。
语料库是以文本文件形式存储的语料,一篇文章保存为一个文件,可以层级文件夹形式存放。
语料一般只包含标题和正文,格式、编码不限。
如语料库已预先分词,请选中“已分词”。
单击“设置保存文件夹”,设置或输入结果保存文件夹路径。
运行程序
可以看到系统对语料库中所有词语都进行了左右搭配的抽取,这些词语称为搭配节点词,与其搭配的词语称为搭配词。
文件夹分为“left”和“right”两个文件夹,“left”即节点词与其左边搭配词的情况,“right”即节点词与其右边搭配词的情况。
两个文件夹均已按词性分组。
以节点词“才能”左搭配为例,文本文件中从左到右应按搭配词、Z值、互信息、共现次数、词性来排列。
02 搭配过滤
步骤一,选择过滤词语条件。
条件可多选,包括过滤掉搭配频次(即共现次数)小于某数的搭配词,如3;
过滤掉Z值小于某数的搭配词,如5;过滤掉互信息M值小于某数的搭配词,如5;过滤掉某些词类的搭配词,如代词 r,拟声词 o 等。
步骤二,打开搭配库文件夹
注意:“搭配库文件夹”指的是上一步“搭配抽取”中抽取建设的搭配文件夹。
建议一次只处理“left”或“right”一边的文件夹,或者某一边的某词性的搭配库文件夹。
运行前,请先将待处理搭配文件夹进行备份,否则本次处理结果会覆盖原始语料。
03 搭配分析
步骤一,单击“打开搭配库文件夹”
注意:此处“搭配库文件夹”指的是上两步“搭配抽取”或“搭配过滤”中抽取或过滤后的搭配文件夹。
建议一次只处理“left”或“right”一边的文件夹,或者某一边某词性的搭配库文件夹。
稍等片刻,处理完成后得到分析结果,打开相应文件夹可以看到以下各类搭配分析结果。
四、结果展示与案例
第一,各节点词的搭配词词性总计结果
以“平淡”为例,其搭配词中d(副词)占44.44%,n(名词)占44.44%,u(助词)占11.11%。
第二,各节点词的搭配词词种数、频次、词长
以“平淡”为例,其搭配词中共有6个词种,总频次为91字词的词种数占66.67%,1字词的频次占55.56%。
第三,所有节点词的词性、词种及频率
可以具体看到所有节点词的所有搭配词的总计词性、词种和频率结果。
此外还有各节点词按正面负面评价分类各节点词的搭配词褒贬分析。
该您来试试搭配分析了
后台回复“汉语助研”,免费获取正式版软件。
3 后台发送“搭配分析”免费获取资源
后台发送“搭配分析”,免费获取批量搭配分析训练用的大规模语料压缩包。4 操作指南和研究案例分享
关注公众号推文,我们将陆续推出软件的使用操作视频以及典型案例。往期推荐