查看原文
其他

汉语助研——语料库建库统计一体化工具

语言科技 语言科技 2022-12-05




欢迎在后台回复“汉语助研”,分享您的使用心得和案例



“汉语助研”面向汉语及汉语教学研究,综合了语料库建设、检索和统计,特别是基于语料库方法的汉语字、词、句、篇研究的各项辅助功能,如:建库,例句检索分析,用字用词用语统计分析,字词对比、分布分析,词语搭配抽取及分析,语料库风格计算,词语智能聚类。软件界面简洁,一键式、步骤式操作,简单易用,特别适合文科小白学习使用。






NO.1


语料库批量建设

智能分析网页html标记,自动抽取网页中的定向信息:标题、正文等;自动进行数据清洗,清除html标记和广告内容,精确干净。






NO.2


语料库例句检索

利用本软件的“检索”功能,在自建语料库中进行各种例句检索的方法。对于任意语料库,可进行“单个词检索”或“多词组合检索”(可选择与、或、间距)。







NO.3


语料库例句分析

利用例句分析功能,对自建语料库中的检索例句或者已有的著名语料库(BCC、CCL)的检索例句,进行自动统计分析,包括词类、频次、搭配、褒贬统计分析。



 






NO.4


语料库用字统计分析


对语料库进行汉字使用的详细统计分析:基本字频、使用率、汉字分类(规范汉字、繁体字、异体字、方言字等),汉字字表比较等。









NO.5


用词用语统计分析

对语料库进行词语使用的详细统计分析:词语的频次频率、成语使用、词语覆盖率、词性分布、高频词语的用字情况等。









NO.6


字词表对比分析

进行任意两个字表或词表的共用独用、频率差、频序比的统计分析等。







NO.7


字词表分布分析

分析任意教材或语料的汉字或词语在汉字或词汇等级大纲(支持所有大纲和自定义大纲)中的分布情况,以探讨教材或语料的难易度。





NO.8


词语搭配抽取及分析

在大规模语料库中,运用Z值测量、MI值测量,以判断各搭配词与节点词搭配的显著性与典型性,抽取词语左右搭配(词性分类显示),分析类连接和语义韵。






NO.9


语料库风格计算

在大规模语料库中,利用可计算特征:语音、字、词、句子、段落、难易度、特定字词等语篇结果,进行作品的计算风格学研究。





NO.10


语料库主题分析

词语按主题自动聚类,在某一个主题语料库中将类似的能表达出该主题中心思想或主要内容的词语聚集在一起,例如,在“体育_篮球_美职篮”语料库中,将聚集出“篮球、美职篮、乔丹、詹姆斯、篮板、进球……”这些词语。
体育

生活出行_订票





NO.11


用户自定义

用户可自定义增加修改字词表,例如增加东南亚特色词语“组屋、拿督、接获”等等,也可自定义非规范汉字表,例如修改方言字、异体字等。




免费资源获取方式



1 关注“语言科技”公众号

2 操作指南和研究案例分享

我们将陆续推出“汉语助研”的使用指南和操作视频,以及利用该软件进行语言及语言教学研究的典型案例,供大家参考。也欢迎大家分享自己的使用心得和案例。


后台回复“汉语助研”免费下载正式版

http://www.languagetech.cn/corpus/tools.aspx





文字 / 刘华 郭佳佳 图片 / 刘华 排版 / 陈伊彤 陈凯艺初审 / 陈凯艺 吴贻卿审核 / 刘华


一 END 一


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存