查看原文
其他

"汉语助研"操作指南与案例十:搭配分析

小语 语言科技 2022-12-05


一、术语与方法说明


“汉语助研”的搭配模块,主要运用统计测量手段如Z值、T值和MI值测量词语搭配的概率,以判断各搭配词与节点词搭配的显著性与典型性。同时,提供了搭配过滤与统计分析功能。


1. MI 值

互信息,互信息值体现的是节点词和搭配词之间的互相吸引关系。用来测量节点词和搭配词之间的相互关联程度和搭配强弱

一般来讲,MI值越大,说明两个词之间的搭配强度越高。互信息值可能为正值或负值,如互信息值为负,则表明两词之间出现互相排斥的现象,即两词不倾向于在一定语境内共现。


2. Z 值

Z 值表示节点词或搭配词相互吸引或相互预见的程度,Z值达到一定的数量,搭配词即可视为显著搭配词,它与节点词组成的序列则是显著搭配

Z 值是用来检验词语序列搭配的显著性。一般来说,Z值越大,该词语序列是搭配的可能性越大。

通常情况下,若某词项组合的 Z 值和 MI 值都达到一定程度,则该组合可视为典型且常用的搭配。

根据以往的研究经验,在进行词语搭配研究时主要采用 MI 值和 Z 值相结合的测量方法,且它们要同时满足以下条件:MI≥3,Z≥2.58(经验值)


3. 搭配节点词、搭配词

将对语料库中所有词语进行搭配抽取,这些词语称之为搭配节点词,与其搭配的词语称为搭配词。


4. 跨距

跨距是节点词左右的语境,以词为计算单位。确定跨距即确定节点词的观察窗口。跨距的确定随着语言类型和节点词词性的变化而变化。

设定名词跨距为【-2,1】,形容词跨距为【-1,2】,动词跨距为【-3,4】,副词跨距为【-2,3】,其他词性跨距为【-2,2】。


“-2”即名词节点词的左边搭配最多统计两个词语,“1”即右边统计一个词语。

例如,“一朵红花开了”,“花”节点词的左边两个搭配词分别为“朵、红”,右边搭配词为“开”,将抽取出搭配“朵 + 花、红 + 花;花 + 开”。


二、使用指南视频


下面详细介绍使用汉语助研软件的搭配分析功能。


三、使用图文步骤


01 搭配抽取


步骤一,打开、保存文件夹
单击“搭配抽取”模块中的“打开语料库文件夹”,选择需搭配抽取的语料库文件夹。


语料库是以文本文件形式存储的语料,一篇文章保存为一个文件,可以层级文件夹形式存放。


语料一般只包含标题和正文,格式、编码不限。


如语料库已预先分词,请选中“已分词


单击“设置保存文件夹”,设置或输入结果保存文件夹路径。


步骤二,点击“开始自动抽取”运行程序
运行程序


可以看到系统对语料库中所有词语都进行了左右搭配的抽取,这些词语称为搭配节点词,与其搭配的词语称为搭配词


文件夹分为“left”和“right”两个文件夹,“left”即节点词与其左边搭配词的情况“right”即节点词与其右边搭配词的情况。


两个文件夹已按词性分组


以节点词“才能”左搭配为例,文本文件中从左到右应按搭配词、Z值、互信息、共现次数、词性来排列。



02 搭配过滤 


步骤一,选择过滤词语条件。


条件可多选,包括过滤掉搭配频次(即共现次数)小于某数的搭配词,如3;

过滤掉Z值小于某数的搭配词,如5;过滤掉互信息M值小于某数的搭配词,如5;过滤掉某些词类的搭配词,如代词 r,拟声词 o 等。


步骤二,打开搭配库文件夹


注意:“搭配库文件夹”指的是上一步“搭配抽取”中抽取建设的搭配文件夹。

建议一次只处理“left”或“right”一边的文件夹,或者某一边的某词性的搭配库文件夹。


步骤三,点击“开始批量过滤搭配”


运行前,请先将待处理搭配文件夹进行备份,否则本次处理结果会覆盖原始语料。



03 搭配分析


步骤一,单击“打开搭配库文件夹”


注意:此处“搭配库文件夹”指的是上两步“搭配抽取”或“搭配过滤”中抽取或过滤后的搭配文件夹。

建议一次只处理“left”或“right”一边的文件夹,或者某一边某词性的搭配库文件夹。


步骤二,单击“设置保存文件夹”


步骤三,单击“开始进行搭配分析”


稍等片刻,处理完成后得到分析结果,打开相应文件夹可以看到以下各类搭配分析结果。


四、结果展示与案例


第一,各节点词的搭配词词性总计结果


以“平淡”为例,其搭配词中d(副词)占44.44%,n(名词)占44.44%,u(助词)占11.11%。



第二,各节点词的搭配词词种数、频次、词长


以“平淡”为例,其搭配词中共有6个词种,总频次为91字词的词种数占66.67%,1字词的频次占55.56%。



第三,所有节点词的词性、词种及频率


可以具体看到所有节点词的所有搭配词的总计词性、词种和频率结果。



此外还有各节点词按正面负面评价分类各节点词的搭配词褒贬分析。



  该您来试试搭配分析了  






           1 关注“语言科技”公众号2 后台回复“汉语助研”,免费下载正式版

后台回复“汉语助研”,免费获取正式版软件。


3 后台发送“搭配分析”免费获取资源

后台发送“搭配分析”,免费获取批量搭配分析训练用的大规模语料压缩包。

4 操作指南和研究案例分享

关注公众号推文,我们将陆续推出软件的使用操作视频以及典型案例。
       视频 / 陈伊彤       图文 / 任德玲     排版 / 陈凯艺      初审 / 陈凯艺      审核 / 刘华   


往期推荐

操作指南与案例一:网页建库

操作指南与案例二:例句检索

操作指南与案例三:例句分析

操作指南与案例四:用字分析

操作指南与案例五:用词分析

操作指南与案例六:对比分析

操作指南与案例七:分布分析

操作指南与案例八:主题分析

操作指南与案例九:风格分析


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存