语言科技

其他

"汉语助研"操作指南与案例十一:用户功能

一、术语与方法说明“用户”功能主要用于处理特色语料库时,增加自定义词语或者修改非规范汉字的信息,帮助您实现个性化研究。二、使用指南视频下面详细介绍汉语助研软件的用户分析功能。三、使用图文步骤步骤一,选择更新分词底表或汉字表在“选择更新分词底表还是汉字表”中进行选择。分词底表是系统分词、标注词性时使用的词语表,在处理特色语料库时,可以增加自定义词语。例如,处理东南亚华语语料库时,增加“组屋、肉骨茶”等。在非规范汉字表中,如果您觉得原有汉字的分类代码有错或需增加,可以用正确或新的非规范汉字及其分类代码进行替换或更新。步骤二,打开或输入字词及字词信息点击“打开自定义字词表文件夹”按钮,打开字词表所在文件夹路径或者复制文件夹路径到右框中。也可以在左下角的文本框中粘贴字词表中的字词及字词信息。打开和输入这两种方式可以同时使用。注意:粘贴的词表格式为词语+制表符(Tab键)+词性代码,如“组屋
2022年11月24日
其他

"汉语助研"操作指南与案例十:搭配分析

步骤一,选择过滤词语条件。条件可多选,包括过滤掉搭配频次(即共现次数)小于某数的搭配词,如3;过滤掉Z值小于某数的搭配词,如5;过滤掉互信息M值小于某数的搭配词,如5;过滤掉某些词类的搭配词,如代词
2022年11月22日
其他

"汉语助研"操作指南与案例九:风格分析

一、术语与方法说明“汉语助研”的风格模块,主要通过词、句式、中心意象、主题等数量特征来描写文学作品风格,包括字、词、句子、段落等语篇结构信息。1.
2022年11月19日
其他

"汉语助研"操作指南与案例八:主题分析

往期推荐操作指南与案例一:网页建库操作指南与案例二:例句检索操作指南与案例三:例句分析操作指南与案例四:用字分析操作指南与案例五:用词分析操作指南与案例六:对比分析操作指南与案例七:分布分析
2022年11月18日
其他

"汉语助研"操作指南与案例七:分布分析

往期推荐操作指南与案例一:网页建库操作指南与案例二:例句检索操作指南与案例三:例句分析操作指南与案例四:用字分析操作指南与案例五:用词分析操作指南与案例六:对比分析
2022年11月16日
其他

"汉语助研"操作指南与案例六:对比分析

一、术语与方法说明“汉语助研”的对比模块主要对两个字词表的用字用词的共性和差异进行对比分析,包括共用独用、频率差、频序比等。频序比:对比两个字词表中同一字词的频率排序的比值。例如,“坡”字在华文语料中按频率由高到低排列的字表中,顺序为223,其频序即为223;在监测语料中,“坡”字频序为1416。因此,“坡”的频序比值即为223/1416=0.16。在进行华文语料和监测语料的对比研究时,对考察范围内的汉字的频序比从低到高排列,可以得到华文语料中出现频序相对于监测语料相差较大的汉字,在一定程度上反映了华文语料用字的特点。频率差:对比两个字词表中同一字词频率的差值。共独用:对比两个字词表中共同使用的字词、各自独有的字词。共用显示了二者使用的共性,独用则显示了字词使用的特色。二、使用指南视频下面详细介绍使用汉语助研软件的对比分析功能。三、使用图文步骤接下来将为大家讲解汉语助研的“对比”功能。“对比”功能主要用于比较字表和字表或词表和词表之间用字用词的共性和差异。步骤一,选择需要统计的“对比项目”包括:频率差、频序比、共独用,可多选。步骤二,输入对比字词数在“输入对比字词数”后面的文本框中输入对比的字词数,如1000,则对比两字词表排序前1000的字词,输入为空时则对比所有字词。步骤三,打开字词表单击“打开第一个字词表”和“打开第二个字词表”将打开两个待对比的字词表文本文件,两个打开的文件必须同时是字表或者同时为词表。字词表文件必须为文本文件,如,在华语语料库中用本软件“用字”或“用词”功能统计出来的字词表,也可以是别的字词表。需同时确保各字词表的首列皆为字或词,第一行无列标题行。如多列,用制表符Tab键隔开。步骤四,单击“设置保存文件夹”选择或输入保存结果至本地的文件夹路径(不需要先建文件夹)。
2022年11月15日
其他

"汉语助研"操作指南与案例五:用词分析

一、术语与方法说明“汉语助研”用词模块主要对语料库的词语使用进行详细统计分析,包括词语的频次频率、成语的使用、词语的覆盖率、词性的分布、词语用字、词语在大纲中的分布等。词种所调查语料中不重复的词(不区分同形词)。词种数所有调查范围内不重复的词语的个数。频次调查对象在调查语料中出现的次数。频率某一调查对象的频次与整个语料所含调查对象总频次的比值。频序按频次从高到低降序排列的字词的顺序。如:“大”词,在华文语料按频率由高到低排列的词表中,顺序为3,则其频序即为3。文档数调查语料中某一调查对象出现的文本或文档的个数(在一个文本中,不管是出现一次还是多次,其文本数皆记为1),也称文本数。文本数是对频次的补充,是反映字词使用范围,即文本分布的重要参数。文档频率调查语料中某一调查对象出现的文本或文档的个数占语料库中所有文档数的比值。累加频率调查对象按频率从高到低降序排列,依次相加所得到的值。如某词表中前三位分别为:“的”频率3%;“是”频率2.9%;“大”频率2.7%,那么,截止到“大”词的累加频率即为3%+2.9%+2.7%=8.6%。覆盖率调查语料内指定调查对象占所有调查对象总量的百分比。如,总词表按频率从大到小降序排列,到第6位的“了”词时,前6个词语的频率之和为10%,此时的覆盖率即为10%。使用率某一调查对象分布率和使用频率的综合计算值。使用度越高,分布越均匀。计算公式如下:其中,Di是i号词语的分布率,ti为i号词语的出现文本数,T为所有语料的文本总数;Ui为i号词语的使用率,Fi
2022年11月14日
其他

"汉语助研"操作指南与案例四:用字分析

“汉语助研”用字模块主要对语料库的汉字使用进行详细统计分析,包括汉字频率、使用率统计,汉字字表建设,汉字(规范汉字、繁体字、异体字、方言字等)分类使用分析,汉字与常用字表比较,汉字在各类大纲中的分布分析等。一、术语与方法说明汉字分类使用包括规范汉字、繁体字、异体字、方言字、韩国汉字、日本汉字、不规范简化字、旧计量用字、旧印刷字形的频次、频率、文本数、累加频率、在该类中的频率等情况。这些非规范汉字的分类及其例字,可能并不科学,研究者也可以在“用户”模块中进行修改。字种所调查语料中不重复的汉字(不区分同形字)。字种数所调查语料中不重复的汉字个数。频次调查对象在调查语料中出现的次数。频率某一调查对象的频次与整个语料所含调查对象总频次的比值。频序按频次从高到低降序排列的字词的顺序。如:“大”字,在华文语料按频率由高到低排列的字表中,顺序为3,则其频序即为3。文档数调查语料中某一调查对象出现的文本或文档的个数(在一个文本中,不管是出现一次还是多次,其文本数皆记为1),也称文本数。文本数是对频次的补充,是反映字词使用范围,即文本分布的重要参数。文档频率调查语料中某一调查对象出现的文本或文档的个数占语料库中所有文档数的比值。累加频率调查对象按频率从高到低降序排列,依次相加所得到的值。如某字表中前三位分别为:“的”频率3%;“是”频率2.9%;“大”频率2.7%,那么,截止到“大”字的累加频率即为3%+2.9%+2.7%=8.6%。覆盖率调查语料内指定调查对象占所有调查对象总量的百分比。如,总字表按频率从大到小降序排列,到第6位的“了”字时,前6个汉字的频率之和为10%,此时的覆盖率即为10%。使用率某一调查对象分布率和使用频率的综合计算值。使用度越高,分布越均匀。计算公式如下:其中,Di是i号字的分布率,ti为i号字的出现文本数,T为所有语料的文本总数;Ui为i号字的使用率,Fi
2022年11月10日
其他

"汉语助研"操作指南与案例三:例句分析

“汉语助研”的例句模块,主要对自建语料库或者网络语料库的检索例句进行统计分析,包括前后搭配词语的词种及频次、词类分类和褒贬分析。
2022年11月8日
其他

“汉语助研”操作指南与案例二:例句检索

PART.1例句检索功能在自建语料库或其他大型语料库中,想要进行单个词或多个词的具体例句检索,就需要借助到例句检索功能。汉语助研的例句检索功能,可以对任意语料库进行“单个词检索”或“多词组合检索”,并将检索结果清晰地展示出来,以辅助汉语研究与汉语教学。PART.2例句检索功能的使用下面详细介绍如何使用汉语助研软件的例句检索功能。PART.3例句检索功能的步骤步骤一:打开语料库文件夹在“检索”模块下,点击“打开”按钮,打开语料库所在的文件夹。(E://金庸小说)也可以直接将语料库文件夹路径复制粘贴到后面的文本框中语料库是以文本文件形式(txt格式)存储的自建语料,一篇文章保存为一个文件,可以层级文件夹存放,语料一般只包含标题和正文,格式、编码不限。注意:软件打开语料库时,会按照“。?!…”对语料进行分句。因此,所有检索都应限定在句内进行。步骤二:设置保存路径点击“保存”按钮,设置好例句检索结果保存的文件夹路径,也可直接输入保存文件夹路径(不需要先建文件夹)。检索结果将保存在该文件夹中。步骤三:选择检索模式1.单个词检索
2022年11月3日
其他

《语料库语言学——理论、工具与案例》

后台发送“语料库语言学”,免费获取《语料库语言学》书籍完整目录,进一步了解书的精彩内容。
2022年11月1日
其他

“汉语助研”操作指南与案例一:建库

01网页信息抽取原理超大规模网页是语料建库的主要来源,语料库通常需要标记标题、正文、作者等语料信息,但网页含有繁复的html标记,语料信息湮没在芜杂的网页标记之中,较难直接提取。如:你想要的语料文件现实中的网页文件常见有基于统计、视觉、树结构和模板的抽取方法。基于模板的方法直接、高效、精准、易操作。其原理为:一个网站往往具有统一的网页模板,不会轻易更换,可以根据网页起止标记来抽取特定语料信息。如某网站语料信息抽取的起止标记如下:表名:语料信息抽取起止标记针对网页信息的自动抽取和建库,“汉语助研”设计了一个半智能的个性化网页信息抽取及建库模块。该模块自动抽取网页中的定向信息,如标题、正文等,自动进行数据清洗,清除html标记和广告内容,精确干净。
2022年10月30日
其他

汉语助研——语料库建库统计一体化工具

欢迎在后台回复“汉语助研”,分享您的使用心得和案例“汉语助研”面向汉语及汉语教学研究,综合了语料库建设、检索和统计,特别是基于语料库方法的汉语字、词、句、篇研究的各项辅助功能,如:建库,例句检索分析,用字用词用语统计分析,字词对比、分布分析,词语搭配抽取及分析,语料库风格计算,词语智能聚类。软件界面简洁,一键式、步骤式操作,简单易用,特别适合文科小白学习使用。NO.1语料库批量建设智能分析网页html标记,自动抽取网页中的定向信息:标题、正文等;自动进行数据清洗,清除html标记和广告内容,精确干净。NO.2语料库例句检索利用本软件的“检索”功能,在自建语料库中进行各种例句检索的方法。对于任意语料库,可进行“单个词检索”或“多词组合检索”(可选择与、或、间距)。NO.3语料库例句分析利用例句分析功能,对自建语料库中的检索例句或者已有的著名语料库(BCC、CCL)的检索例句,进行自动统计分析,包括词类、频次、搭配、褒贬统计分析。
2022年10月29日