"汉语助研"操作指南与案例五:用词分析
一、术语与方法说明
“汉语助研”用词模块主要对语料库的词语使用进行详细统计分析,包括词语的频次频率、成语的使用、词语的覆盖率、词性的分布、词语用字、词语在大纲中的分布等。
词种
所调查语料中不重复的词(不区分同形词)。
词种数
所有调查范围内不重复的词语的个数。
频次
调查对象在调查语料中出现的次数。
频率
某一调查对象的频次与整个语料所含调查对象总频次的比值。
频序
按频次从高到低降序排列的字词的顺序。如:“大”词,在华文语料按频率由高到低排列的词表中,顺序为3,则其频序即为3。
文档数
调查语料中某一调查对象出现的文本或文档的个数(在一个文本中,不管是出现一次还是多次,其文本数皆记为1),也称文本数。文本数是对频次的补充,是反映字词使用范围,即文本分布的重要参数。
文档频率
调查语料中某一调查对象出现的文本或文档的个数占语料库中所有文档数的比值。
累加频率
调查对象按频率从高到低降序排列,依次相加所得到的值。如某词表中前三位分别为:“的”频率3%;“是”频率2.9%;“大”频率2.7%,那么,截止到“大”词的累加频率即为3%+2.9%+2.7%=8.6%。
覆盖率
调查语料内指定调查对象占所有调查对象总量的百分比。如,总词表按频率从大到小降序排列,到第6位的“了”词时,前6个词语的频率之和为10%,此时的覆盖率即为10%。
使用率
某一调查对象分布率和使用频率的综合计算值。使用度越高,分布越均匀。计算公式如下:
其中,Di是i号词语的分布率,ti为i号词语的出现文本数,T为所有语料的文本总数;Ui为i号词语的使用率,Fi 为i号词语的频率。
为了使得所有词语的使用率总数为1,进行了归一化:
其中,Fi为i号词语的频次,分母为归一化项,V表示所有字种。
使用率在频率的基础上综合考虑了词语在文本间的分布情况,能更全面地体现词语在语料库中的价值和权重。
高频词语
如未做特殊说明,当覆盖率达到90%时,按频率降序排列的词表中的所有的词语。
共用
某一调查对象在全部调查范围内皆有使用。
独用
某一调查对象只在某一调查范围中使用。
二、使用指南视频
下面详细介绍使用汉语助研软件的用词分析功能。
三、使用图文步骤
步骤一:打开语料库文件夹
单击“打开语料库文件夹”按钮,打开需要统计的语料库文件夹。
需要注意的是,用词用语统计涉及分词和词性标注。如果语料库中的文本已经分词,请选中“已经分词”的按钮。
步骤二 设置保存结果文件夹及名称
单击“设置保存文件夹”按钮。在打开的文件对话框中选择保存文件夹路径,也可直接输入保存文件夹路径(不需要先建文件夹)。
步骤三:运行统计功能
单击“开始使用情况统计”按钮,运行结束后会出现一个“处理完成”的对话框。
四、结果展示与案例
打开统计结果所在的文件夹,里面包含“不区分词性的统计”、“成语统计结果”、“覆盖率与词种数关系”等十个用词统计结果的文本文件。
1、不区分词性的统计
2、成语统计结果
3、覆盖率与词种数关系
并且列举了一些达到某个覆盖率的词语。
4、摘要报告
5、高频词语用字统计
6、在词语等级大纲中的分布情况
7、区分词性统计结果 (注意:分词的格式为“词+斜杠+词性+空格”。)
该您来试试用词分析了
后台回复“汉语助研”,免费获取正式版软件。
3 后台发送“用词分析”免费获取资源
后台发送“用词分析”,免费获取批量用词分析训练用的大规模语料压缩包。4 操作指南和研究案例分享
关注公众号推文,我们将陆续推出软件的使用操作视频以及典型案例。往期推荐
2022-10-30
2022-11-03
2022-11-08