查看原文
其他

"汉语助研"操作指南与案例四:用字分析

语言科技 语言科技 2022-12-05


“汉语助研”用字模块主要对语料库的汉字使用进行详细统计分析,包括汉字频率、使用率统计,汉字字表建设,汉字(规范汉字、繁体字、异体字、方言字等)分类使用分析,汉字与常用字表比较,汉字在各类大纲中的分布分析等。

一、术语与方法说明


汉字分类使用包括规范汉字、繁体字、异体字、方言字、韩国汉字、日本汉字、不规范简化字、旧计量用字、旧印刷字形的频次、频率、文本数、累加频率、在该类中的频率等情况。
这些非规范汉字的分类及其例字,可能并不科学,研究者也可以在“用户”模块中进行修改。
字种所调查语料中不重复的汉字(不区分同形字)。
字种数所调查语料中不重复的汉字个数。
频次调查对象在调查语料中出现的次数。
频率某一调查对象的频次与整个语料所含调查对象总频次的比值。
频序按频次从高到低降序排列的字词的顺序。如:“大”字,在华文语料按频率由高到低排列的字表中,顺序为3,则其频序即为3。
文档数调查语料中某一调查对象出现的文本或文档的个数(在一个文本中,不管是出现一次还是多次,其文本数皆记为1),也称文本数。文本数是对频次的补充,是反映字词使用范围,即文本分布的重要参数。
文档频率调查语料中某一调查对象出现的文本或文档的个数占语料库中所有文档数的比值。
累加频率调查对象按频率从高到低降序排列,依次相加所得到的值。如某字表中前三位分别为:“的”频率3%;“是”频率2.9%;“大”频率2.7%,那么,截止到“大”字的累加频率即为3%+2.9%+2.7%=8.6%。
覆盖率调查语料内指定调查对象占所有调查对象总量的百分比。如,总字表按频率从大到小降序排列,到第6位的“了”字时,前6个汉字的频率之和为10%,此时的覆盖率即为10%。
使用率某一调查对象分布率和使用频率的综合计算值。使用度越高,分布越均匀。计算公式如下:

其中,Di是i号字的分布率,ti为i号字的出现文本数,T为所有语料的文本总数;Ui为i号字的使用率,Fi 为i号字的频率。为了使得所有字的使用率总数为1,进行了归一化:

其中,Fi为i号字的频次,分母为归一化项,V表示所有字种。使用率在频率的基础上综合考虑了汉字在文本间的分布情况,能更全面地体现汉字在语料库中的价值和权重。
共用某一调查对象在全部调查范围内皆有使用。
独用某一调查对象只在某一调查范围中使用。


二、使用指南视频

下面详细介绍如何使用汉语助研软件的用字分析功能。

三、使用图文步骤

接下来将为大家讲解汉语助研的“用字统计分析”功能,“用字统计分析”共分为三个步骤。


步骤一 打开语料库文件夹 




单击“打开语料库文件夹”按钮,打开需要统计的语料库文件夹。


语料库是以文本文件形式存储的语料,一篇文章保存为一个文件,可以层级文件夹形式存放。


语料一般只包含标题和正文,格式、编码不限。


也可直接复制粘贴语料库文件夹地址到“打开”后面的文本框中。




步骤二 设置保存结果文件夹及名称



单击“设置保存文件夹”按钮,在打开的文件对话框中选择保存文件夹路径,也可直接输入保存文件夹路径(不需要先建文件夹)。




步骤三 运行统计功能




单击“开始使用情况统计”按钮,稍等,处理结束后系统会弹出一个对话框“处理结束”。程序会通过不同的选项卡(上图方框)分别展示用字统计结果。


其中,“含非规范汉字的文件”文件夹中包含所有含非规范用字的文本文件。

四、结果展示与案例

“统计结果_文本格式”文件夹里面包含所有用字统计结果的文本文件,我们可以得到如下的各种用字统计分析结果:


第一,总的汉字使用的摘要报告

摘要报告是对整体情况的描述。例如:总文档数、总字符数等等。 


第二,汉字分类使用情况

包括规范字、繁体字、异体字、方言字等各种用字情况的频次、频率、文本数、累加频率、在该类中的频率等情况,并且将这些不规范用字的上下文单独列出来。



第三,标点符号和汉字部件的使用情况

包括标点符号和汉字部件的频序、频次、频率、文本数、累加频率、文档频率等数据。


第四,汉字字表的覆盖率情况

覆盖率指的是调查语料内指定调查对象占所有调查对象总量的百分比。例如,以下的分析结果中,当覆盖率为10%时,共用到字种数为11个,分别是“的、国、中、人”等11个字。


第五,不同排序方式的字表

统计结果包含使用率排序的字表以及按频率排序的字表


例如,按使用率排序的字表包含使用率、累加使用率等数据。


按频率排序的字表包含频次、频率、累加频率等数据。 


第六,与其他字表对比的数据

例如与《汉语国际教育用音节汉字词汇等级划分》、《HSK汉字等级大纲》、《现代汉语常用字表》等进行共用独用的对比分析。


《汉语国际教育音节汉字词汇等级划分》比较结果示例:


  该您来试试用字分析了  






           1 关注“语言科技”公众号2 后台回复“汉语助研”,免费下载正式版

后台回复“汉语助研”,免费获取正式版软件。


3 后台发送“用字分析”免费获取资源

后台发送“用字分析”,免费获取批量用字分析训练用的大规模语料压缩包。

4 操作指南和研究案例分享

关注公众号推文,我们将陆续推出软件的使用操作视频以及典型案例。
        视频 / 吕展   任德玲        图文 / 陈伊彤  吕展      排版 / 陈凯艺 陈伊彤     初审 / 郭佳佳 陈凯艺核 / 刘华   


往期推荐

"汉语助研"操作指南与案例三:例句分析


“汉语助研”操作指南与案例二:例句检索

“汉语助研”操作指南与案例一:建库





您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存