查看原文
其他

用WordStat看中国日报新闻

爬虫俱乐部 Stata and Python数据分析 2022-03-15

本文作者:王碧琪

文字编辑:李婷婷 

技术总编:张计宝



Python云端培训课程火热招生中~

     爬虫俱乐部将于2020年7月25日至28日线上举行Python编程技术训练营,本次培训采用理论与案例相结合的方式,帮助大家在掌握Python基本思想的基础上,学习科学计算技术与网络数据抓取技术,详情可点击《Python云端培训课程开始报名~》,或点击文末阅读原文直接提交报名信息呦~

在《WordStat—Stata的文本分析小助手》一文中,简要介绍了WordStat的词频统计功能。其实这个插件的功能远不止于此,本文研究关键词提取功能。关键词提取也是文本分析中常见的一个步骤,使用WordStat,可以免除写代码到头秃、debug到崩溃的烦恼,只需鼠标点点点,就可以出结果了。一起来看看吧~

一、数据描述

小编从http://www.chinadaily.com.cn/网站上选取了2020年6月14日的top views的5篇英文新闻“Beijing-Brussels cooperation vital to build inclusive post-virus world”、“Multilateralism will revive world economy faster”、“Sina Weibo answerable to its huge family”、“Raising the bar to plug entry of 'fake' foreign students in colleges”、“The COVID-19 Pandemic Magnifies the Crisis of "U.S.-Style Human Rights"”,整理出以下数据。

其中包含4个变量,title表示新闻标题,tiid表示新闻标识,content表示新闻内容(按每句话分割),sennum表示每篇新闻中的句子标识。共有67行观测值。

我们文本分析的目的是,提取这5篇新闻content的关键词。

二、软件操作

将数据软件读入Stata数据面板中,点击“用户-Wordstat-Content Analysis”进入软件。
(一)查看词频统计表
在上篇推文中介绍了Frequencies这一选项卡的基础使用,首先通过它来一览数据全貌。部分结果如下:

结果显示,频率最高的词是pandemic,接下来分别包括united、states、covid、China等,可以大致猜测,新闻内容与新冠病毒流行病相关。
(二)关键词提取
在工具栏中Frequencies右侧是Extraction选项,“Extraction”页面对可用于从文本集合中提取有用功能的工具进行分组。“Topics”(主题建模工具)将使用因子分析自动从文本集中提取最重要的主题。结果可以保存为内容分析字典,也可以使用共现分析或交叉列表进行进一步检查。“Phrases”(短语提取)功能将识别惯用语和常用短语,并将其添加到内容分析词典中,并对这些短语进行共现分析和比较分析。“Named Entities”(命名实体提取)功能可以识别专有名词,人物名称,位置或组织以及首字母缩写词。然后可以选择相关项目并将其移到分类字典中。“Misspelling & Unknowns”(拼写错误和未知数提取)功能提供了一种工具,可通过将整个文本集中遇到的单词形式列表与常用单词列表进行比较来识别拼写错误和某些技术术语。提取的单词可以添加到当前分类词典或替换过程中,也可以在原始文档中用正确的拼写替换它们。
本文介绍“Topics”选项。主题提取是通过自然语言处理和统计分析相结合的方法来解释文本集合中隐藏的主体结构,是文本内容分析的重要步骤之一。依次设置Segmentation、No.topics、loading选项设置主题提取相关要求,再点击Run即可得到结果。这些选项所对应的功能如下:

Segmentation

设置用于主题建模的数据是基于同一文档(document),还是基于段落(paragraph)或者句子(sentence)中单词的出现

No.topics

设置要提取的主题数量

loading

设置一个单词在引资方案中保留的最小因子加载值。默认为0.4 。增加截止值会减少单词的数量,保留更具有代表性的单词。

本文设置按照句子进行主题提取,主题数为10,加载值为0.4,处理结果如下:

表头的含义如下:

No

因子编号

NAME

提取主题的标签

KEYWORDS

按因子加载的降序顺序列出关键字

EIIGENVA

已解释的方差百分比。选择的部分越小,百分比越低

%VAR

关键词列中列出的所有case的总频率

FREQ

包含关键词列中列出的所有项目的频率

CASES

关键词列中列出的至少一项的case数量

%CASES

关键词列中列出的至少一项的case的百分比

可以看出,因子值第一的关键词是york、times、website、reported、april,这应该是记载了新闻报道的时间、载体等,出现在新闻报道中的频率较高,无实际含义;因子值第二的关键词是people、homeless、elderly、lives,可以猜测文本内容和老年人、无家可归的人的生活相关;因子值第三的关键词是americans、african、percent、deaths、covid,表明文本主题与美国人、非洲人、新冠病毒、死亡人数相关;因子值第四的关键词是discrimination、racial、pointed,说明新闻内容可能包含种族歧视有关内容;因子值第五的关键词是human、rights、nations,说明文章内容和人权相关。

从以上结果我们不必一字一句去读新闻,就可得出文章主题,这几篇新闻的主题与新冠病毒、人权相关。点击右侧的“save table”按钮即可将结果导出。至此本文实现了文本分析的关键词提取功能。

三、结语

本文使用WordStat实现了新闻内容的关键词提取,实现过程简单迅速。如果有相关文本分析的需求又不想写代码,这个插件值得一试。下篇内容中我们将继续介绍短语提取功能,用于补充本文的主题提取。敬请期待~~~






对我们的推文累计打赏超过1000元,我们即可给您开具发票,发票类别为“咨询费”。用心做事,不负您的支持!
往期推文推荐
       数据集的划分——交叉验证法
大数据视角下的大学录取分数排行
集成学习介绍之二——Boosting算法

PDF文本信息提取(二)

取长补短、互通有无 ——集成学习介绍之Bagging &随机森林
PDF表格信息提取
神经网络——brain
marktouse标记使用变量
换种视角看问题——支持向量机(SVM)
提取PDF文本信息:入门
毕业季|b站《入海》评论爬取
Stata云端课程来啦
利用广义线性模型实现的分类——Logistic回归
Requests get爬虫之设置headers
数据分析薪资待遇如何?——跟我来,带你看
Vardistinct一键去重计数
从statsmodels到线性回归

关于我们



微信公众号“Stata and Python数据分析”分享实用的stata、python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。

此外,欢迎大家踊跃投稿,介绍一些关于stata和python的数据处理和分析技巧。
投稿邮箱:statatraining@163.com
投稿要求:
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存