"汉语助研"操作指南与案例十：搭配分析

Original 小语语言科技 2022-12-05

收录于合集

#语料库语言学 13 个

#语料库 13 个

#汉语助研 12 个

#汉语 9 个

一、术语与方法说明

“汉语助研”的搭配模块，主要运用统计测量手段如Z值、T值和MI值测量词语搭配的概率，以判断各搭配词与节点词搭配的显著性与典型性。同时，提供了搭配过滤与统计分析功能。

1. MI 值

即互信息，互信息值体现的是节点词和搭配词之间的互相吸引关系。用来测量节点词和搭配词之间的相互关联程度和搭配强弱。

一般来讲，MI值越大，说明两个词之间的搭配强度越高。互信息值可能为正值或负值，如互信息值为负，则表明两词之间出现互相排斥的现象，即两词不倾向于在一定语境内共现。

2. Z 值

Z 值表示节点词或搭配词相互吸引或相互预见的程度，Z值达到一定的数量，搭配词即可视为显著搭配词，它与节点词组成的序列则是显著搭配。

Z 值是用来检验词语序列搭配的显著性。一般来说，Z值越大，该词语序列是搭配的可能性越大。

通常情况下，若某词项组合的 Z 值和 MI 值都达到一定程度，则该组合可视为典型且常用的搭配。

根据以往的研究经验，在进行词语搭配研究时主要采用 MI 值和 Z 值相结合的测量方法，且它们要同时满足以下条件：MI≥3，Z≥2.58（经验值）。

3. 搭配节点词、搭配词

将对语料库中所有词语进行搭配抽取，这些词语称之为搭配节点词，与其搭配的词语称为搭配词。

4. 跨距

跨距是节点词左右的语境，以词为计算单位。确定跨距即确定节点词的观察窗口。跨距的确定随着语言类型和节点词词性的变化而变化。

设定名词跨距为【-2，1】，形容词跨距为【-1，2】，动词跨距为【-3，4】，副词跨距为【-2，3】，其他词性跨距为【-2，2】。

“-2”即名词节点词的左边搭配最多统计两个词语，“1”即右边统计一个词语。

例如，“一朵红花开了”，“花”节点词的左边两个搭配词分别为“朵、红”，右边搭配词为“开”，将抽取出搭配“朵 + 花、红 + 花；花 + 开”。

二、使用指南视频

下面详细介绍使用汉语助研软件的搭配分析功能。

三、使用图文步骤

01 搭配抽取

步骤一，打开、保存文件夹
单击“搭配抽取”模块中的“打开语料库文件夹”，选择需搭配抽取的语料库文件夹。

语料库是以文本文件形式存储的语料，一篇文章保存为一个文件，可以层级文件夹形式存放。

语料一般只包含标题和正文，格式、编码不限。

如语料库已预先分词，请选中“已分词”。

单击“设置保存文件夹”，设置或输入结果保存文件夹路径。

步骤二，点击“开始自动抽取”运行程序
运行程序

可以看到系统对语料库中所有词语都进行了左右搭配的抽取，这些词语称为搭配节点词，与其搭配的词语称为搭配词。

文件夹分为“left”和“right”两个文件夹，“left”即节点词与其左边搭配词的情况，“right”即节点词与其右边搭配词的情况。

两个文件夹均已按词性分组。

以节点词“才能”左搭配为例，文本文件中从左到右应按搭配词、Z值、互信息、共现次数、词性来排列。

02 搭配过滤

步骤一，选择过滤词语条件。

条件可多选，包括过滤掉搭配频次（即共现次数）小于某数的搭配词，如3；

过滤掉Z值小于某数的搭配词，如5；过滤掉互信息M值小于某数的搭配词，如5；过滤掉某些词类的搭配词，如代词 r，拟声词 o 等。

步骤二，打开搭配库文件夹

注意：“搭配库文件夹”指的是上一步“搭配抽取”中抽取建设的搭配文件夹。

建议一次只处理“left”或“right”一边的文件夹，或者某一边的某词性的搭配库文件夹。

步骤三，点击“开始批量过滤搭配”

运行前，请先将待处理搭配文件夹进行备份，否则本次处理结果会覆盖原始语料。

03 搭配分析

步骤一，单击“打开搭配库文件夹”

注意：此处“搭配库文件夹”指的是上两步“搭配抽取”或“搭配过滤”中抽取或过滤后的搭配文件夹。

建议一次只处理“left”或“right”一边的文件夹，或者某一边某词性的搭配库文件夹。

步骤二，单击“设置保存文件夹”

步骤三，单击“开始进行搭配分析”

稍等片刻，处理完成后得到分析结果，打开相应文件夹可以看到以下各类搭配分析结果。

四、结果展示与案例

第一，各节点词的搭配词词性总计结果

以“平淡”为例，其搭配词中d（副词）占44.44%，n（名词）占44.44%，u（助词）占11.11%。

第二，各节点词的搭配词词种数、频次、词长

以“平淡”为例，其搭配词中共有6个词种，总频次为91字词的词种数占66.67%，1字词的频次占55.56%。

第三，所有节点词的词性、词种及频率

可以具体看到所有节点词的所有搭配词的总计词性、词种和频率结果。

此外还有各节点词按正面负面评价分类各节点词的搭配词褒贬分析。

该您来试试搭配分析了

1 关注“语言科技”公众号2 后台回复“汉语助研”，免费下载正式版

后台回复“汉语助研”，免费获取正式版软件。

3 后台发送“搭配分析”免费获取资源

后台发送“搭配分析”，免费获取批量搭配分析训练用的大规模语料压缩包。

4 操作指南和研究案例分享

关注公众号推文，我们将陆续推出软件的使用操作视频以及典型案例。

视频 / 陈伊彤图文 / 任德玲排版 / 陈凯艺初审 / 陈凯艺审核 / 刘华

往期推荐

操作指南与案例一：网页建库

操作指南与案例二：例句检索

操作指南与案例三：例句分析

操作指南与案例四：用字分析

操作指南与案例五：用词分析

操作指南与案例六：对比分析

操作指南与案例七：分布分析

操作指南与案例八：主题分析

操作指南与案例九：风格分析

紧急呼救！上海报恩寺普渡众生身陷困境，恳请大家伸出援手共渡难关！

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

13岁！史上最严重霸凌案宣判，如何亡羊补牢？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

"汉语助研"操作指南与案例十：搭配分析

您可能也对以下帖子感兴趣

紧急呼救！上海报恩寺普渡众生身陷困境，恳请大家伸出援手共渡难关！

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

13岁！史上最严重霸凌案宣判，如何亡羊补牢？

比佟丽娅还恋爱脑，怀孕7次流产4次，目睹丈夫背叛却选择原谅

生成图片，分享到微信朋友圈

"汉语助研"操作指南与案例十：搭配分析

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡