论文检索与翻译神器——songbl
本文作者:王思雨,中南财经政法大学金融学院
本文编辑:智淼
技术总编:方一卓
Stata and Python 数据分析
由李春涛教授和团队成员司海涛、薛原编写的《Stata正则表达式及其在财务数据中的应用》终于和大家见面啦!爬虫俱乐部特此为大家准备了100本,即日起购买爬虫俱乐部课程,可赠送本书一本,先到先得!
购书链接:
songbl简介
随着信息技术的发展以及生活节奏的加快,越来越多的人希望通过方便快捷的方式获取所需的信息。songbl命令可以在Stata中快速地获取与浏览Stata推文、Stata命令、论坛帖子以及学术论文等众多资源。然而如何快速精准地获取所需的论文链接以及将获得的英文论文翻译为中文,这就用到了今天要给大家介绍的命令——songbl paper和songbl fy。
安装
songbl是Stata的外部命令,因此需要我们在使用之前进行安装,直接通过ssc install songbl命令安装程序, 得到如图所示结果即表示命令安装成功:
在成功安装songbl命令之后,可以使用help songbl查看该命令的相关内容。
论文检索与翻译
1
分类查看所有论文
songbl paper命令能够用于论文检索,并且输出论文超链接。首先,我们先了解一下songbl paper论文查询命令的基本格式:
songbl paper [keywords, journal(string) gap cls mlink wlink nocat save replace clip]
它的命令语法的选项介绍如下:
journal(string):在指定的期刊来源中查找论文,如AER,QJE,JDE等
gap:在输出的论文结果之间进行空格一行
mlink:输出Markdown格式的论文链接
wlink:输出Weixin分享形式的论文链接
clip:点击超链接可以剪切分享论文,与Wlink搭配使用
nocat:不输出论文期刊来源信息
save(string):将搜集到的内容用txt/md/docx等格式的文档打开
replace:生成搜集到内容的Stata数据集
接下来,我们利用songbl paper命令分类查看资源库内所有的论文,得到以下结果:
通过观察以上数据,我们发现论文主要来自《中国工业经济》、《The Stata Journal》、《世界经济》、《金融研究》、《财经研究》等学术期刊。接下来,我们以《The Stata Journal》期刊为例,搜集2021年第一季度发表在《The Stata Journal》中的全部论文,并且将搜集到的结果以Markdown格式输出论文链接,具体命令如下:
songbl paper SJ-21-1,j(sj)//查找21年第一季度发表在《The Stata Journal》中的全部论文
songbl paper SJ-21-1,m replace j(sj)//"m"表示将结果以Markdown格式输出
运行结果如下:
最后,我们通过命令
songbl paper sj-21-1,j(sj) m save(txt)//利用txt格式文档打开输出的Markdown格式结果
利用txt格式文档打开输出的Markdown格式结果,选择另存为,将所得结果保存下来。这样,我们就得到了2021年第一季度发表在《The Stata Journal》中的全部论文的具体内容以及超链接。
2
论文内容翻译
songbl fy命令的具体格式如下:
songbl fy [keywords, command pdf]
command:将Stata命令的帮助文档由.sthlp或.hlp格式转化为.html网页格式
pdf:将当前路径下全部pdf文档转为.html网页格式,网页格式文字可以使用谷歌翻译转译
通过该命令能够实现翻译单词、句子、stata命令帮助文档以及pdf英文文档的目的,需要注意的是songbl fy命令翻译单词与词语时,是利用有道翻译与微软翻译进行转译,因此该功能需要有网络环境才能进行。以上述程序中搜集到的《The Stata Journal》中的论文“segregsmall: A command to estimate segregation in the presence of small units”为例,利用songbl fy命令可以将论文的标题翻译为中文。
songbl fy "segregsmall: A command to estimate segregation in the presence of small units"//将引号内句子翻译为中
我们得到如下结果:
接下来,我们进一步利用songbl fy命令将论文内容也翻译为中文。首先,通过点击该论文的超链接获得该论文的pdf文档,并将它保存在当前工作路径下。其次,我们将保存的pdf文档转为.html网页格式,具体命令如下:
songbl fy ,pdf//将当前路径下所保存的论文的pdf文档转换为.html格式
通过该命令,我们将当前路径下所保存的论文的pdf文档转换为.html网页格式。需要注意的是,在转换过程中,我们使用了爬虫俱乐部开发的wordconvert命令(想详细了解该命令的读者请查看往期推文《玩转word文档“大变身”——wordconvert》),因此在使用之前需要下载该外部命令。得到的部分内容如下图所示:
最后我们借助chrome浏览器中的谷歌网页翻译将该页面翻译为中文,翻译结果如下:
最后,我们为大家揭秘雪球网(https://xueqiu.com/)最新所展示的沪深证券和港股关注人数增长Top10。
对我们的推文累计打赏超过1000元,我们即可给您开具发票,发票类别为“咨询费”。用心做事,不负您的支持!
往期推文推荐 一文搞清楚Python函数的参数 Stata爬豆瓣和烂番茄——国内外的观影口味果然大不同 邮箱附件太多?Python帮你批量下载! 正则表达式之多次匹配
爬虫君为你的数据自由操碎了心!cnborder重磅推出!
基于Python的假设检验实现 Stata与MySQL交互--基础操作 Jupyter Notebook中的魔术命令 《Stata正则表达式》由中国金融出版社出版发行 匿名函数lambda到底怎么用?Stata绘图系列—NBER Working paper仿图
Camelot:从PDF中提取表格数据 Stata之计算财务指标——融资约束Stata绘图系列——玩转绘图通用选项之坐标轴玩转地图的好帮手--pyecharts
爬虫俱乐部又又又输送了一位研究助理!!! 【数据分析】一文教你玩转DataFrame【数据分析-入门】一看就会!Numpy的创建、索引、切片与更新
关于我们微信公众号“Stata and Python数据分析”分享实用的Stata、Python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。
武汉字符串数据科技有限公司一直为广大用户提供数据采集和分析的服务工作,如果您有这方面的需求,请发邮件到statatraining@163.com,或者直接联系我们的数据中台总工程司海涛先生,电话:18203668525,wechat: super4ht。海涛先生曾长期在香港大学从事研究工作,现为知名985大学的博士生,爬虫俱乐部网络爬虫技术和正则表达式的课程负责人。
此外,欢迎大家踊跃投稿,介绍一些关于Stata和Python的数据处理和分析技巧。
投稿邮箱:statatraining@163.com投稿要求:
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可
以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。