其他
Python词频词云分析:今年的政府工作报告有哪些关键词?
点击蓝字 关注我们
import matplotlib.pyplot as plt#绘图库
import jieba
from wordcloud import WordCloud
# 读入文本数据
fp = open(r'D:\爬虫下载\2020年政府工作报告.txt','r',encoding='utf-8')
content = fp.read()
# print(content)
#分词
words = jieba.lcut(content)
# 词频分析操作
data = {}
for word in words:
if len(word)>1:
if word in data:
data[word]+=1
else:
data[word]=1
# print(data)
#排序
hist = list(data.items())#转成列表
hist.sort(key=lambda x:x[1],reverse=True)
# print(hist)
#调试输出
for i in range(20):
# print(hist[i])
print('{:<10}{:>5}'.format(hist[i][0],hist[i][1]))#左对齐10,右对齐5个长度
下表统计了今年的政府工作报告中出现次数最多的几个关键词。我们可以看到,今年的政府工作报告中提到“发展”的次数最多,一共出现了69次,“发展”一直都是政府工作报告中的重要关键词;其次是“就业”,出现了39次,足以显示新冠疫情之下就业问题的严峻性,以及党中央、国务院对就业问题的高度重视,政府工作报告中没有提出全年经济增速的具体目标,但仍然提出了就业目标——城镇新增就业900万人以上、城镇调查失业率6%左右、城镇登记失业率5.5%左右;第三多的就是“疫情”,报告中多次提到疫情防控工作,并指出这次新冠肺炎疫情,是新中国成立以来我国遭遇的传播速度最快、感染范围最广、防控难度最大的公共卫生事件。
根据关键词的出现次数,我们可以使用Python绘制出政府工作报告词云图。Python的词云功能相当强大,你可以自己设定形状、字体、大小!
result = ' '.join(words)
# print(result)
#生成词云
wc = WordCloud(
font_path=r'D:\PPT\ppt字体\思源宋体SC-Regular.otf',
background_color = 'white',#背景颜色
width=500,#图片的宽
height=300,
max_font_size=50,
min_font_size=12
)
wc.generate(result)
wc.to_file(r'.\wordcloud.png')#保存图片
#显示图片
plt.figure('政府工作报告')
plt.imshow(wc)
plt.axis('off')#关闭坐标轴
plt.show()
点击阅读原文即可留言
学好计量功夫,练就一身绝技!
功夫计量 | Kungfu_econometrics