其他
用词云图看Sustainability期刊热门题目
本文作者:方 言,中南财经政法大学金融学院
文字编辑:戴 雯
技术总编:张馨月
爬虫俱乐部云端课程
在之前的推文《用词云图看2020社科基金课题~》中,我们已经介绍了词云图的相关用法,并结合jieba分词来绘制词云图,由于jieba只针对中文进行分词操作,本期当中,我们要在上周发布的推文《在Sustainability上发文最多的原来是这些高校》基础上,利用nltk库对论文题目进行分词操作,并用词云图直观地了解Sustainability上发表论文的热门课题,同时对词云图的一些具体用法进行介绍。
1.利用nltk对论文题目进行分词
import nltk
from nltk import word_tokenize
from wordcloud import WordCloud, STOPWORDS
from nltk import FreqDist
import re
with open (r'C:\Users\PC\Desktop\论文题目.txt','r',encoding = 'utf-8') as f:
title=[i.strip() for i in f.readlines()]
print(title)
stopwords=set(STOPWORDS)
with open(r'C:\Users\PC\Desktop\停用词表.txt',encoding='UTF-8') as f:
stop_words=[i.strip() for i in f.readlines()]
for word in stop_words:
stopwords.add(word)
title = nltk.sent_tokenize(str(title))
filter_text = re.sub(r'[^a-zA-Z0-9\s]','',string= str(title))
filter_text = [word for word in filter_text.split(' ') if word not in stopwords ]
print(filter_text)
fdist=FreqDist(filter_text)
print(fdist)
for a,b in fdist.items():
print(str(a)+":"+str(b))
2.词云图的制作
import matplotlib.pyplot as plt
from PIL import Image
import numpy as np
images = Image.open("picture.jpg") #导入背景图
maskImages = np.array(images)
w=WordCloud(
background_color='white', # 设置背景颜色
font_path="msyh.ttc", #设置输出词云的字体为微软雅黑
width=800, height=400, #设置词云图的宽度,高度
max_words=1000, #设置词云显示最大单词数量
min_font_size=1,
stopwords=stopwords, #设置停用词使用我们设置的stopwords
mask=maskImages, #设置词云形状
scale=25 #设置词云清晰度,scale的值越大,词云图越清晰
)
wordcloud=w.generate_from_frequencies(fdist) #加载词云文本
#展示图片
plt.figure(figsize = (20,10))
plt.imshow(wordcloud,interpolation='bilinear')
plt.axis("off") #设置显示的词云图中无坐标轴
plt.show()
w.to_file('title.png')
import nltk
from nltk import word_tokenize
from wordcloud import WordCloud, STOPWORDS
from nltk import FreqDist
import re
import matplotlib.pyplot as plt
from PIL import Image
import numpy as np
with open (r'C:\Users\lenovo\Desktop\论文题目.txt','r',encoding = 'utf-8') as f:
title=[i.strip() for i in f.readlines()] #strip()去除换行符,不去除则会在分词中显示
stopwords=set(STOPWORDS)
with open(r'C:\Users\lenovo\Desktop\停用词表.txt',encoding='UTF-8') as f:
stop_words=[i.strip() for i in f.readlines()]
for word in stop_words:
stopwords.add(word)
title = nltk.sent_tokenize(str(title))
filter_text = re.sub(r'[^a-zA-Z0-9\s]','',string= str(title))
filter_text = [word for word in filter_text.split(' ') if word not in stopwords ]
fdist=FreqDist(filter_text)
images = Image.open("picture.jpg")
maskImages = np.array(images)
w=WordCloud(
background_color='white', # 设置背景颜色
font_path="msyh.ttc", #设置输出词云的字体为微软雅黑
width=800, height=400, #设置词云图的宽度,高度
max_words=1000,
min_font_size=1,
stopwords=stopwords,
mask=maskImages,
scale=25 #设置词云形状
)
wordcloud=w.generate_from_frequencies(fdist) #加载词云文本
#展示图片
plt.figure(figsize = (20,10))
plt.imshow(wordcloud,interpolation='bilinear')
plt.axis("off") #设置显示的词云图中无坐标轴
plt.show()
w.to_file('title.png')
震惊!知名数据分析软件竟被某度翻译“亲切称呼”为“斯塔塔”
喜临涛门,月满人圆
字符串函数总动员
微信公众号“Stata and Python数据分析”分享实用的stata、python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。