"汉语助研"操作指南与案例四:用字分析
“汉语助研”用字模块主要对语料库的汉字使用进行详细统计分析,包括汉字频率、使用率统计,汉字字表建设,汉字(规范汉字、繁体字、异体字、方言字等)分类使用分析,汉字与常用字表比较,汉字在各类大纲中的分布分析等。
一、术语与方法说明
二、使用指南视频
下面详细介绍如何使用汉语助研软件的用字分析功能。
三、使用图文步骤
步骤一 打开语料库文件夹
语料库是以文本文件形式存储的语料,一篇文章保存为一个文件,可以层级文件夹形式存放。
也可直接复制粘贴语料库文件夹地址到“打开”后面的文本框中。
步骤二 设置保存结果文件夹及名称
单击“设置保存文件夹”按钮,在打开的文件对话框中选择保存文件夹路径,也可直接输入保存文件夹路径(不需要先建文件夹)。
步骤三 运行统计功能
单击“开始使用情况统计”按钮,稍等,处理结束后系统会弹出一个对话框“处理结束”。程序会通过不同的选项卡(上图方框)分别展示用字统计结果。
其中,“含非规范汉字的文件”文件夹中包含所有含非规范用字的文本文件。
四、结果展示与案例
第一,总的汉字使用的摘要报告
摘要报告是对整体情况的描述。例如:总文档数、总字符数等等。
包括规范字、繁体字、异体字、方言字等各种用字情况的频次、频率、文本数、累加频率、在该类中的频率等情况,并且将这些不规范用字的上下文单独列出来。
第三,标点符号和汉字部件的使用情况
第四,汉字字表的覆盖率情况
覆盖率指的是调查语料内指定调查对象占所有调查对象总量的百分比。例如,以下的分析结果中,当覆盖率为10%时,共用到字种数为11个,分别是“的、国、中、人”等11个字。
第五,不同排序方式的字表
例如,按使用率排序的字表包含使用率、累加使用率等数据。
按频率排序的字表包含频次、频率、累加频率等数据。
第六,与其他字表对比的数据
与《汉语国际教育音节汉字词汇等级划分》比较结果示例:
该您来试试用字分析了
后台回复“汉语助研”,免费获取正式版软件。
3 后台发送“用字分析”免费获取资源
4 操作指南和研究案例分享
往期推荐
"汉语助研"操作指南与案例三:例句分析
“汉语助研”操作指南与案例二:例句检索
“汉语助研”操作指南与案例一:建库