查看原文
其他

"汉语助研"操作指南与案例三:例句分析

语言科技 语言科技 2022-12-05





“汉语助研”的例句模块,主要对自建语料库或者网络语料库的检索例句进行统计分析,包括前后搭配词语的词种及频次、词类分类和褒贬分析。


       

 1.术语与方法说明

          


词种

词种指的是所调查语料中不重复的词语种类(不区分同形词)。


词种数

词种数指的是所有调查范围内不重复的词语种类的个数。


  频次

频次指的是调查对象在调查语料中出现的次数。


搭配

在本模块中,搭配指的是最靠近检索词的左、右的词语。例如,例句“进一步[提高]成绩”中,“提高”是检索词,“进一步”是左搭配,“成绩”是右搭配。


褒贬

本系统是通过自建的褒贬(积极和消极)词表进行统计的,由于褒贬词条有限,因此统计结果中会有大量中性词语,需要研究者人工判别。



2.使用指南视频


         



下面详细介绍如何使用汉语助研软件的例句分析功能。


3.使用图文步骤


         



接下来将为大家讲解汉语助研的“例句分析”功能。“例句分析”共分为四个步骤:



01

检索语料例句


我们可以先在全球华语语料库或自建语料库或其他语料库中检索保存例句结果。


每一个检索词的例句结果保存为一个文本文件,需要将一个或多个检索结果文件保存在一个文件夹中。



02

打开、保存文件夹


点击打开“待处理例句集”,即上一步保存的检索结果的文件夹。


并点击“设置保存文件夹”,设置好保存结果文件夹地址。



03

选择例句集来源、输入前后标记


在“选择例句集的来源”右边的下拉框中选择对应的例句来源。如,从华语语料库中检索的,就选择“华语语料库”。其检索串的前后标记为“{[” “]}”


如果是从其他语料库中下载的,就选择“其他语料库”,并自行输入前后标记。前后标记是指检索关键词前后的人工标记,都可以在软件3、4步骤中自行修改。



04

单击运行程序


点击“开始检索例句分析”按钮,得到分析结果。分析结果包括词种数词次统计分析词性分布统计分析褒贬分布统计分析三个部分。


4.结果展示与案例


         


以“重视”和“绝伦”为例来呈现例句分析的结果。



以“重视”为例


词性分布方面重视的左搭配词以副词为主,词次占比为33.33%;其次为助词(14.84%)、名词(12.56%)、动词(12.10%)等。


“重视”的右搭配词以名词为主,词次占比为42.26%;其次为动词(16.22%)、助词(14.25%)、连词(7.13%)等。



褒贬义方面,左右搭配词多为中性词,其次为褒义词。



  • 重视左边搭配的名词部分,多是“重视”的施事者


  • 副词多为表示程度深的副词,以肯定为多


  • 形容词多为表示程度和限度的词

  • 常用右搭配中,名词主要是抽象并且表示具有重要性的名词


  • 动词和形容词除了否定之外,也是些表示“重大、重要”含义的词语




以“绝伦”为例


词性分布方面,绝伦的左搭配词以形容词为主,词次占比93.39%其次为名词(3.21%)、动词(1.20%)、助词(0.60%)等。


右搭配词以助词为主,词次占比92.31%;其余词类各自占比较少,词次多为1,最多为4(名词和成语)。
褒贬义方面,左搭配词多为褒义词,右搭配词多为中性词。


  • 常用左搭配中的形容词主要是褒义或表示积极情况的词语


  • 名词部分主要是一些具有抽象意义的褒义词,多为“绝伦”描述的对象



  该您来试试例句分析了  






           1 关注“语言科技”公众号2 后台回复“汉语助研”,免费下载正式版

后台回复“汉语助研”,免费获取正式版软件。


3 后台发送“例句分析”免费获取资源

后台发送“例句分析”,免费获取批量例句分析训练用的大规模语料压缩包。

4 操作指南和研究案例分享

关注公众号推文,我们将陆续推出软件的使用操作视频以及典型案例。


 视频 / 任德玲  吕展      图片 / 郭佳佳  吴贻卿 排版 / 陈伊彤  陈凯艺
初审 / 陈凯艺  吴贻卿审核 / 刘华   


往期推荐

“汉语助研”操作指南与案例一:建库

“汉语助研”操作指南与案例二:例句检索









您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存