查看原文
其他

“词频”分析研究现状、方法、工具与资源

期刊哥 期刊投稿指南 2022-06-09


词频分析研究现状、方法、工具与资源


今天这篇文章主要介绍词频分析研究现状、方法及工具,并整理和汇总相关软件和资源供大家学习与研究之用。其实,该文章在很久以前已经推过一遍,今天再次推送,主要是为了大家使用词频分析工具来分析历年国家社科基金立项分类汇总资源(近期整理完毕将推送)。对历年国家社科基金立项进行词频统计可以分析出自己学科领域立项项目特点,更有针对性拟出选题,从标题出发打好国家社科基金申请的第一站。(注:本文所提及软件请加入群340086900,在群共享中下载)


词频分析是什么?


词频分析(Word Frequency Analysis)是对文献正文中重要词汇出现的次数进行统计与分析,是文本挖掘的重要手段。它是文献计量学中传统的和具有代表性的一种内容分析方法,基本原理是通过词出现频次多少的变化,来确定热点及其变化趋势。


词频分析使用现状如何?


以中国知网全文数据库(期刊)为检索对象,以“篇名”为检索条件,在334篇论文题目中出现“词频”二字,其中40篇核心期刊;如果以“主题”为检索条件,则有2343条文献以“词频”为主题开展了研究,其中1200多篇在核心期刊发表。

由上图可知,以“词频”为主题的研究呈现增长趋势,未来极有可能保持增长势头,至少应该会维持一定热度。


由上图可知,以“词频”为主题的研究涉及多个学科,其中图书情报与数字图书馆、计算机软件及计算机应用这两个学科方向对“词频”主题的研究较为关注;中国语言文学、外国语言文学、心理学、新闻与传媒、互联网技术、高等教育、教育理论与教育管理等学科方向次之;职业教育、管理学、中医学等其他学科零星涉及“词频”相关研究主题。


从目前现状来看,未来如果以词频分析技术为支撑,探索某个学科领域的研究热点和趋势,尚存在一定的发掘空间。感兴趣的小伙伴们,可以结合自己的研究领域,尝试以词频分析方法去探索自己研究方向的热点与趋势。


词频统计方法有哪些?


1TF-IDF

TF-IDF(term frequency–inverse document frequency)词频--反转文件频率,是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重要程度。


感兴趣的小伙伴可以通过百度百科了解该方式的原理及优缺点。http://baike.baidu.com/view/920592.htm


目前,有很多分词软件默认使用TF-IDF技术,后文介绍的几款软件在一定程度上应用了该技术。


2SCWS

SCWS是Hightman开发的一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。采用的是采集的词频词典,并辅以一定的专有名称、人名、地名、数字年代等规则识别来达到基本分词,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用,目前,该技术主要用于网站全文索引领域。


3ICTCLAS

ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),是中国科学院计算技术研究所在多年研究工作积累的基础上,研制出的汉语词法分析系统。该系统主要功能包括中文分词、词性标注、命名实体识别、新词识别,同时还支持用户词典。


从2009年开始,为了和以前工作进行大的区隔,并推广NLPIR自然语言处理与信息检索共享平台,ICTCLAS调整命名为NLPIR分词系统。张华平博士先后倾力打造十余年,内核升级十余次,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名。


有点遗憾是,我从官方下载该词频分析系统之后,打开提示初始化失败!检查日志文件之后,发现这么一句话:Not valid license or your license expired! Please feel free tocontact pipy_zhang@msn.com,字面翻译应该是授权已过期,可通过邮件联系软件开发者。所以,本文就暂时不介绍这个牛掰的软件,等拿到了授权之后再说。


词频分析常用工具有哪些?



MyZiCiFreq字词频率统计工具


该软件可以把文章中出现的每个字或者出现的所有的词的次数和百分比都统计出来,支持导出。语文教师和汉语言文学类研究者,可以使用该工具对学生作文或某些专著进行分析。


MyZiCiFreq字词频率统计工具不需要注册,不需要安装,使用起来非常方便,但具体的分词算法在网络上没有搜到相关介绍,不建议在学术论文的写作过程中使用该软件。


ROST WordParser


该软件是由武汉大学沈阳博士开发,比较容易上手。首先,打开待分析的文档;然后,选择分词按钮,会自动对文档进行分词;之后,再打开词频分析窗口;最后,点词频分析就可以统计词频啦。但是这最后一步会报一个错误,这个错误主要由于写入文件引起的,程序在设计的时候保存路径有问题,少了一个“\”,导致生成的词频统计数据文件没有办法保存,不过这个并不影响使用。点击OK按钮之后,可以直接复制词频统计的数据,然后粘贴到Excel中直接使用。


该软件是内测版本,后期被整合到ROST CM6中。目前,不论ROST WordParser,还是ROST CM6都已经停止更新。虽然这两款软件在分词的准确性方面受到学术界的质疑。但在一些研究论文中却依然可以看到这两款软件的身影。


关于这款软件能否在学术论文中使用,个人认为要看研究的领域,如果在计算机研究领域或者在图书情报研究领域使用这两款软件来写论文,可能会受到质疑,但是在教育类、语言类、文学类等对分词准确性要求不高,或者对发现新词没有过高要求的情况下,还是可以尝试使用这两款软件,特别是ROST CM6在不少学术论文中被引用。


ROST CM6


利用ROST CM6 进行词频分词之前,首先,要对文本文档(txt文档)进行分词,然后,再进行词频分析。


ROST CM 6软件功能比较丰富,可以实现微博分析、聊天分析、全网分析、网站分析、浏览分析、分词、词频统计、英文词频统计、流量分析、聚类分析等一系列文本分析。目前由于该软件平台已经停止更新,所以部分需要联机操作的功能已经失效。但是分词与词频统计功能尚能使用,此外,还有部分单机功能依然可以使用。

选择分词菜单之后,会弹出以上对话框。

第一个选项用来选择需要分词的文本文件,点击右侧按钮浏览找到待分词的文件。

第二个选项用来设置分词文件保存位置,这里系统会默认保存在软件目录下。

第三个选项是用来选择自定义词表的,这个自定义词表需要自己建立,可以将一些分词系统无法识别的专业词汇以文本文件形式保存,然后通过点击右侧按钮将自定义词表加入分词系统中。如果不需要指定自定义词表,可以默认使用ROSTCM6\user\目录下的user.txt文件中的词作为自定义词表。有时候为了省事,可以直接在这个文件之后,追加我们需要添加的新词,每次添加完新词,记得重启一下该软件。


以上三个选项设置完成之后,单击确定按钮就可以进行分词啦,分词成功之后会弹出一个文件,可以将这个文件直接关闭,或者另存。不论怎样,关键确认记住分词后的文件保存位置。


成功分词之后,我们开始词频统计,打开词频统计的菜单之后,跳出以下对话框。

根据图上提示,进行操作即可。(注意:需要过滤的词表与自定义词表类似,系统均有默认,可以在系统文件基础上添加自己的过滤词。可在工具/自定义文件 中找到过滤词表与自定义词表。)


如果不出什么意外,点击确定之后,分词结果会保存到默认位置,然后弹出一个文本文件,这个文件可以另存,也可以直接关闭。


拿到词频统计数据之后,我们就可以围绕自己研究领域展开想象,开始探索发现之旅。更多关于ROST CM6的使用说明,请参见ROST CM6 使用说明(该文档已经归并在本期资源包中)。


词频分析工具@Excel大全


这个工具主要是利用SCWS分词引擎所开发的一个Excel版的轻量级的在线词频统计分析工具,可以对文本文档中的中英文文字内容进行快速语义分词,统计词汇的出现频次,进行TF-IDF排名,并可显示词语的词性。


它还有一个优点,就是生成的词频数据,直接存在excel当中,非常便于统计与分析。但缺点是,此工具需要联网,而且还需要启用宏。

有关启用宏的方法参考:http://excel365.net/237.html。 


其他相关工具


除此之外,Bibexcel、CiteSpace和SATI等其他共词分析工具,都是以词频分析为基础,所以,这些软件本身也可以进行词频分析,关于这三个工具,将在推送下一篇文章时进行介绍。想提前了解这三个软件的小伙伴,可参考《词频分析及常用工具比较研究》一文(已附在资源包中)。


英文分词工具


最后,可能有部分小伙伴需要对英文词频进行分析,这里推荐几个网站。经测试,目前都可以打开,需要的抓紧戳开吧。 

http://www.writewords.org.uk/word_count.asp

http://darylkinsman.ca/tools/wordfreq.shtml

http://www.wordcounter.com/


词频分析相关论文资源


为了让小伙伴们充分了解词频分析的魅力,以及其在论文写作过程中具体使用情景,我们专门准备了与词频分析高度相关,发表在核心期刊上的10几篇文献(仅作研究之用),对这些文献和前文介绍的词频分析工具感兴趣的小伙伴,可添加期刊哥微信获取。也可以加入群340086900,在群共享中下载。





词频分析使用注意事项事项


高频词选取问题

首先,高频词选取多少比较合适,一般作者都是根据研究需要,主观确定高频词个数,至于选取多少较为合适,目前尚未有严格界定。但在《高频词与低频词的界分及词频估算法》一文中,作者孙清兰教授给出了一个具体的估算方法,感兴趣的可以从知网下载这篇文章看一看。这篇文章的最后结论是,高频词的临界点可以通过一篇文档中出现词的个数开方得到,也就说如果对一篇文档进行词频统计时,一共统计出有900词,那么开方之后得到30,这个数就是高频词临界值。如此,我们在选择分析高频词时,就可以选择前30个作为重点分析对象。——这是我个人的一个理解,可能并不正确,欢迎大家批评指正。

软件选择问题

其次,就是具体选择哪款软件,作为自己研究工具也值得注意,因为软件实现算法不同,得出来的结果可能并不一样,即便有时候词频相同,但是词的重要性也会有所差异。大家在使用不同词频分析工具时,会遇到此类问题,至于怎么处理,根据论文需要灵活把握即可。

数据可视化问题

最后,就是词频结果可视化问题,一般,我们可以直接利用Exce绘制直方图以及折线图来展现研究热点分布,以及研究趋势演变。此外,还有一些可视化工具,可以生成高端大气上档次的云图。

例如这样的




或者这样的



当然还有这样的

不过,我个人认为这种图放在PPT等演示文稿中装点一下门面还可以,在学术论文写作中还是少用为妙,当然,不排除一些期刊会喜欢这样方式的图片。

 

其中,地图图片是通过这个http://www.picdata.cn/ 网站生成的(此网站还支持定制图形)。在这个网上,你可以直接把长文本复制进去生成这类图,它同时还支持将词频统计数据输出成excel文件,该网站平台分析结果的科学性上需有待于进一步验证。我个人目前尚未看到有人在学术论文写作中提及这个网站,当然,不排除有人使用这个网站做词频数据分析和展示。

 

此外,前面两个图片是通过http://www.blueview.cc/网站生成,该平台的不足之处是需要注册才能使用,而且只支持四种图形。但是,在配色方面个人感觉相对不错。除此之外,这个网站还允许自定义筛选关键词。与前一个网站类似,该网站分词及词频统计的科学性也有待检验。关于这个网站的使用教程可参见这篇文章http://jingyan.baidu.com/article/6b97984dce48981ca2b0bf9d.html。




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存