WordStat—Stata的文本分析小助手

Original 爬虫俱乐部 Stata and Python数据分析 2022-03-15

本文作者：钱梦璇

文字编辑：张馨月

技术总编：张计宝

导读

WordStat for Stata是可用于stata统计软件中的一个文本分析软件，它结合了自然语言处理、内容分析和统计技术，可以快速地提取大量文本中的主题、模式和关系等内容。它甚至可以在几秒钟内处理数百万个单词，任何需要快速提取和分析Stata文本变量中存储信息的需求它都可以搞定。

WordStat for Stata可以实现以下主要功能：探索性文本挖掘，比如经常用的聚类、邻近图等，使用统计和图形工具探索非结构化文本与结构化数据之间的关系，使用可视化工具来探索复杂的数据现象，比如条形图、折线图等等。

WordStat的功能十分强大，但简单易用。不过，它不是一个命令，而是一个软件，我们可以在http://provalisresearch.com/products/content-analysis-software/wordstat-for-stata/上下载，本文部分内容也以此网站为参考。下载完成之后，它以插件的形式作为stata中的一个选项，打开stata即可使用。

打开stata软件，同时打开要进行文本分析的数据文件，此处以auto.dta为例。点击工具栏中的“用户”按钮，会发现WordStat选项出现在下拉菜单框中，然后选择“Content Analysis”。

单击“Content Analysis”后，将会提示我们选择要分析的字符串变量。此处以make和foreign变量为例：

点击确定之后，将会打开WordStat软件，出现以下界面:

我们可以根据第一行的每个选项来选择自己想要输出的文本分析结果，此处以“Frequencies”选项为例，根据每个词语出现的频次排序，输出make变量的词频统计表。

由上图可以看出每个词语的词频，各项占比以及TF-IDF值。其中TF-IDF是一种用于信息检索与数据挖掘的常用加权技术，TF的意思是词频，IDF的意思是逆文本频率指数，它用来评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。

那么可以清晰地看出，BUICK和OLDS在make变量中出现的频率最大且最重要。

如果我们选中所有出现频次大于等于3的词语，然后点击如下图所示的“Chart selected rows”选项可以绘制出这些词语的条形图。

如上图所示，每个词语的词频由不同颜色的矩形展示，同时横纵坐标以及标题都将自动生成，无需更改格式。点击如下所示的横向柱状图选项，同样出现每个词语的统计数据。

同样的，我们可以选择饼图、词云图以及不同的纵坐标变量获取各种统计分析图表。

本文只展示了“Frequencies”选项中的一部分功能，此外还有交叉表、关键词以及分类处理等各种各样的功能，对于不同的项目，我们可以根据需求来获取各式各样的文本分析处理结果。

上文我们可以看出，WordStat不需要我们编写复杂的代码，直接通过选择设定就可以得到结果。今天所展示的仅仅是它的冰山一角，还有很多实用且强大的处理方法，对文本分析感兴趣的小伙伴们赶快来试试吧！

对我们的推文累计打赏超过1000元，我们即可给您开具发票，发票类别为“咨询费”。用心做事，不负您的支持！

往期推文推荐

数据筛选理还乱，datacheck能诊断

如何用简单的手法绘制出不一样的海外疫情趋势图

提升效率的利器——如何用labvarch批量修改变量标签

二进制序列类型——bytes()、bytearray()

今日头条海外疫情数据爬取

anythingtodate带你轻松处理日期

关于我们

微信公众号“Stata and Python数据分析”分享实用的stata、python等软件的数据处理知识，欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。

此外，欢迎大家踊跃投稿，介绍一些关于stata和python的数据处理和分析技巧。

投稿邮箱：statatraining@163.com

投稿要求：
1）必须原创，禁止抄袭；
2）必须准确，详细，有例子，有截图；
注意事项：
1）所有投稿都会经过本公众号运营团队成员的审核，审核通过才可录用，一经录用，会在该推文里为作者署名，并有赏金分成。
2）邮件请注明投稿，邮件名称为“投稿+推文名称”。
3）应广大读者要求，现开通有偿问答服务，如果大家遇到有关数据处理、分析等问题，可以在公众号中提出，只需支付少量赏金，我们会在后期的推文里给予解答。

血压不降、麻药不睡？上海三甲主任质疑集采药质量引热议

全球消费遇冷！法国原瓶进口AOP红酒，只卖几十块！赠电动开瓶器！

带鱼中的爱*仕，肉厚脂纯，透骨的鲜美！

逃出缅甸红莲宾馆

江苏淮安女子整理档风被的时候意外摔倒后不幸身亡！监控画面曝光

WordStat—Stata的文本分析小助手

您可能也对以下帖子感兴趣

血压不降、麻药不睡？上海三甲主任质疑集采药质量引热议

全球消费遇冷！法国原瓶进口AOP红酒，只卖几十块！赠电动开瓶器！

带鱼中的爱*仕，肉厚脂纯，透骨的鲜美！

逃出缅甸红莲宾馆

江苏淮安女子整理档风被的时候意外摔倒后不幸身亡！监控画面曝光

生成图片，分享到微信朋友圈

WordStat—Stata的文本分析小助手

您可能也对以下帖子感兴趣