这十年,《金融研究》的编委和读者偏爱哪些研究话题和文章?
本文作者:陈丹慧,中南财经政法大学金融学院
本文编辑:王玉洁
技术总编:戴 雯
Stata&Python云端课程来啦!
为了感谢大家长久以来的支持和信任,爬虫俱乐部为大家送福利啦!!!Stata&Python特惠课程双双上线腾讯课堂~原价2400元的Python编程培训课程,现在仅需100元,详情请查看推文《Python云端课程福利大放送!0基础也能学~》。关于Stata,爬虫俱乐部推出了系列课程,内容包括字符串函数、正则表达式、爬虫专题和文本分析,可以随心搭配,价格美丽,物超所值,更多信息可查看Stata系列推文《与春天有个约会,爬虫俱乐部重磅推出正则表达式网络课程!》、《与春天有个约会,爬虫俱乐部重磅推出基本字符串函数网络课程》等。变的是价格,不变的是课程质量和答疑服务。对报名有任何疑问欢迎在公众号后台和腾讯课堂留言哦
《金融研究》是由中国人民银行主管、中国金融学会主办的、关注经济金融领域重要理论、政策和实践问题的期刊。自1979年创刊以来,《金融研究》已经成为引领国内学术前沿的权威学术期刊之一,许多科研工作者都冀望能在《金融研究》上发表佳作。要想在期刊上发表论文,不仅论文本身质量要过硬,而且要符合投稿期刊的宗旨和征文要求。而一个期刊的宗旨和征文要求,不仅可以从官网的硬性指标看出,更体现在经历无数考验而最终成功见刊的历年文章中。为了给有志于投稿《金融研究》的科研工作者提供一点参考,本文在中国知网爬取了2011年至2020年在《金融研究》上发表的所有文章的关键词、摘要、作者单位、被引量等信息,汇总了历年文章关键词制作了词云图,并在最后展示了这十年被引量排名前100的文章信息以及作者单位。为了实现更好词云图效果,本文利用Stata和Python的交互功能(Stata16和Stata17均适用),使用Python的jieba库进行分词。
因此,为了更加细致和准确地分词,我们可以先将历年文章中的高频关键词收集起来,自定义一个专业名词词典。虽然不能达到完全有效,但是在保证效率的前提下是一个不错的选择。
在制作词典之前,首先要介绍一下fs命令。fs命令可以列示指定路径下符合条件的文件名称,并将其放在返回值r(files)
中(详见推文《fs命令——我们的小帮手 》)。如下图所示,列示出当前路径下所有名称符合“keywords_*"(*表示通配符)的txt文件。
*编制专业名词词典
capture mkdir E:\stata
capture mkdir E:\stata\金融研究词云图
capture mkdir E:\stata\金融研究词云图\历年关键词
cd E:\stata\金融研究词云图\历年关键词
*建立一个空词典,用于后续存放关键词
clear all
gen var=""
save 词典,replace
fs keywords_*.txt //将文件夹下的所有txt文件名放入局部宏
foreach i in `r(files)'{
import delimited using `i', clear encoding("utf-8") //导入文件
*将所有关键词放在同一列
stack v*,into(var) clear
drop if var==""
drop _stack
*统计词频
bysort var:gen frequency = _N
gsort -frequency
duplicates drop
drop if frequency==1
append using 词典
save 词典,replace
}
*导出
use 词典,clear
duplicates drop //删除重复值
drop frequency //去掉词频变量
save 专业名词词典
export delimited using 专业名词词典.txt,novarnames replace
*调用Python分词
python
import os
path='E:\stata\金融研究词云图\历年关键词'
os.chdir(path)
files=os.listdir(path) #将历年关键词文件名放在列表files中
import jieba
for i in range(2011,2021):
word=[]
j=i-2011
file=files[j]
print(file)
#读入关键词文件
with open(file,encoding="utf8") as f:
for k in f.readlines():
str=k
word.append(str)
jieba.load_userdict(r"专业名词词典.txt") #添加自定义词典
with open("分词_%s.txt"%i,"w",encoding="utf8") as f2:
for unit in word:
seg_list = jieba.lcut(unit,cut_all=False)
seg_list=filter(lambda word:len(word)>2,seg_list)
for word in seg_list:
print(word)
f2.write(word+"\n")
end
*批量制作词云图
fs 分词_*.txt
foreach i in `r(files)'{
import delimited using `i', clear encoding("utf-8")
*统计词频
bysort v1:gen frequency = _N
gsort -frequency
duplicates drop
drop if frequency==1
wordcloud v1 frequency using `i'.html, replace size(15 80) range(3480 2160)
shellout `i'.html
}
2011
2013
2014
2015
2016
2017
2018
2019
2020
根据分词结果整理的历年研究话题top10
最后,我们为大家揭秘雪球网(https://xueqiu.com/)最新所展示的沪深证券和港股关注人数增长Top10。
对我们的推文累计打赏超过1000元,我们即可给您开具发票,发票类别为“咨询费”。用心做事,不负您的支持!
往期推文推荐
【案例展示】Python与数据库交互
学好这一手,英语词典常在手玩转Stata中的数学函数
用spmap看中国空气质量戳穿围城面具:安利&劝退一个专业
走进图文并茂的攻略世界
玩转word文档“大变身”——wordconvert
简述递归
OpenCV库——轻松更换证件照背景色800万年薪!还有谁?!
千古伤心词人,词伤几何?
去哪儿网攻略爬取——跟我一起去大理吧
"有你才有团"——Stata爬取王者荣耀英雄海报
如何获取衡量股民情绪的指标?|东方财富股吧标题爬虫
利用Python构建马科维茨有效边界
rangestat,让统计量灵活滚动起来!
听说这样做立项成功率更高哦
如何处理缺失值?这一篇搞定!
善用dataex命令,高效沟通你我他
大数据下的大学分数线排行榜,快来围观!
《觉醒年代》—带你回到百年前
用Stata画的三维图很奇怪怎么办?
如何随机生成满足特定数据特征的新变量?
爬取无法翻页网页——自然科学基金项目及可视化
爬取京东评论数据进行情感分类
Stata与音乐之间的酷炫连接
这些年,爬虫俱乐部走出的博士们!看这里,近五年各校高被引论文上榜名单!
高校经管类核心期刊发文排行榜
关于我们
微信公众号“Stata and Python数据分析”分享实用的Stata、Python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。
此外,欢迎大家踊跃投稿,介绍一些关于Stata和Python的数据处理和分析技巧。
投稿邮箱:statatraining@163.com投稿要求:
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为
作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。