WordStat—Stata的文本分析小助手
本文作者:钱梦璇
文字编辑:张馨月
导读
WordStat for Stata是可用于stata统计软件中的一个文本分析软件,它结合了自然语言处理、内容分析和统计技术,可以快速地提取大量文本中的主题、模式和关系等内容。它甚至可以在几秒钟内处理数百万个单词,任何需要快速提取和分析Stata文本变量中存储信息的需求它都可以搞定。
WordStat for Stata可以实现以下主要功能:探索性文本挖掘,比如经常用的聚类、邻近图等,使用统计和图形工具探索非结构化文本与结构化数据之间的关系,使用可视化工具来探索复杂的数据现象,比如条形图、折线图等等。
WordStat的功能十分强大,但简单易用。不过,它不是一个命令,而是一个软件,我们可以在http://provalisresearch.com/products/content-analysis-software/wordstat-for-stata/上下载,本文部分内容也以此网站为参考。下载完成之后,它以插件的形式作为stata中的一个选项,打开stata即可使用。
打开stata软件,同时打开要进行文本分析的数据文件,此处以auto.dta为例。点击工具栏中的“用户”按钮,会发现WordStat选项出现在下拉菜单框中,然后选择“Content Analysis”。
单击“Content Analysis”后,将会提示我们选择要分析的字符串变量。此处以make和foreign变量为例:
点击确定之后,将会打开WordStat软件,出现以下界面:
我们可以根据第一行的每个选项来选择自己想要输出的文本分析结果,此处以“Frequencies”选项为例,根据每个词语出现的频次排序,输出make变量的词频统计表。
由上图可以看出每个词语的词频,各项占比以及TF-IDF值。其中TF-IDF是一种用于信息检索与数据挖掘的常用加权技术,TF的意思是词频,IDF的意思是逆文本频率指数,它用来评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。
那么可以清晰地看出,BUICK和OLDS在make变量中出现的频率最大且最重要。
如果我们选中所有出现频次大于等于3的词语,然后点击如下图所示的“Chart selected rows”选项可以绘制出这些词语的条形图。
如上图所示,每个词语的词频由不同颜色的矩形展示,同时横纵坐标以及标题都将自动生成,无需更改格式。点击如下所示的横向柱状图选项,同样出现每个词语的统计数据。
同样的,我们可以选择饼图、词云图以及不同的纵坐标变量获取各种统计分析图表。
本文只展示了“Frequencies”选项中的一部分功能,此外还有交叉表、关键词以及分类处理等各种各样的功能,对于不同的项目,我们可以根据需求来获取各式各样的文本分析处理结果。
上文我们可以看出,WordStat不需要我们编写复杂的代码,直接通过选择设定就可以得到结果。今天所展示的仅仅是它的冰山一角,还有很多实用且强大的处理方法,对文本分析感兴趣的小伙伴们赶快来试试吧!
关于我们
微信公众号“Stata and Python数据分析”分享实用的stata、python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。