查看原文
其他

论文检索与翻译神器——songbl

爬虫俱乐部 Stata and Python数据分析 2023-10-24

本文作者:王思雨,中南财经政法大学金融学院

本文编辑:智淼

技术总编:方一卓

Stata and Python 数据分析

     由李春涛教授团队成员司海涛薛原编写的《Stata正则表达式及其在财务数据中的应用》终于和大家见面啦!爬虫俱乐部特此为大家准备了100本,即日起购买爬虫俱乐部课程,可赠送本书一本,先到先得!


购书链接:


爬虫俱乐部Stata基础课程Stata进阶课程Python课程可在小鹅通平台查看,欢迎大家多多支持订阅!如需了解详情,可以通过课程链接(https://appbqiqpzi66527.h5.xiaoeknow.com/homepage/10)或课程二维码进行访问哦~

songbl简介 

随着信息技术的发展以及生活节奏的加快,越来越多的人希望通过方便快捷的方式获取所需的信息。songbl命令可以在Stata中快速地获取与浏览Stata推文、Stata命令、论坛帖子以及学术论文等众多资源。然而如何快速精准地获取所需的论文链接以及将获得的英文论文翻译为中文,这就用到了今天要给大家介绍的命令——songbl papersongbl fy

安装

songbl是Stata的外部命令,因此需要我们在使用之前进行安装,直接通过ssc install songbl命令安装程序, 得到如图所示结果即表示命令安装成功:

在成功安装songbl命令之后,可以使用help songbl查看该命令的相关内容。


论文检索与翻译

1

分类查看所有论文

songbl paper命令能够用于论文检索,并且输出论文超链接。首先,我们先了解一下songbl paper论文查询命令的基本格式:

songbl paper [keywords, journal(string) gap cls mlink wlink nocat save replace clip]

它的命令语法的选项介绍如下:

  • journal(string):在指定的期刊来源中查找论文,如AER,QJE,JDE等

  • gap:在输出的论文结果之间进行空格一行

  • mlink:输出Markdown格式的论文链接

  • wlink:输出Weixin分享形式的论文链接

  • clip:点击超链接可以剪切分享论文,与Wlink搭配使用

  • nocat:不输出论文期刊来源信息

  • save(string):将搜集到的内容用txt/md/docx等格式的文档打开

  • replace:生成搜集到内容的Stata数据集

接下来,我们利用songbl paper命令分类查看资源库内所有的论文,得到以下结果:

通过观察以上数据,我们发现论文主要来自《中国工业经济》、《The Stata Journal》、《世界经济》、《金融研究》、《财经研究》等学术期刊。接下来,我们以《The Stata Journal》期刊为例,搜集2021年第一季度发表在《The Stata Journal》中的全部论文,并且将搜集到的结果以Markdown格式输出论文链接,具体命令如下:

songbl paper SJ-21-1,j(sj)//查找21年第一季度发表在《The Stata Journal》中的全部论文songbl paper SJ-21-1,m replace j(sj)//"m"表示将结果以Markdown格式输出

运行结果如下:

最后,我们通过命令

songbl paper sj-21-1,j(sj) m save(txt)//利用txt格式文档打开输出的Markdown格式结果

利用txt格式文档打开输出的Markdown格式结果,选择另存为,将所得结果保存下来。这样,我们就得到了2021年第一季度发表在《The Stata Journal》中的全部论文的具体内容以及超链接。

2

论文内容翻译

songbl fy命令的具体格式如下:

songbl fy [keywords, command pdf]
  • command:将Stata命令的帮助文档由.sthlp或.hlp格式转化为.html网页格式

  • pdf:将当前路径下全部pdf文档转为.html网页格式,网页格式文字可以使用谷歌翻译转译

通过该命令能够实现翻译单词、句子、stata命令帮助文档以及pdf英文文档的目的,需要注意的是songbl fy命令翻译单词与词语时,是利用有道翻译与微软翻译进行转译,因此该功能需要有网络环境才能进行。以上述程序中搜集到的《The Stata Journal》中的论文“segregsmall: A command to estimate segregation in the presence of small units”为例,利用songbl fy命令可以将论文的标题翻译为中文。

songbl fy "segregsmall: A command to estimate segregation in the presence of small units"//将引号内句子翻译为中

我们得到如下结果:

接下来,我们进一步利用songbl fy命令将论文内容也翻译为中文。首先,通过点击该论文的超链接获得该论文的pdf文档,并将它保存在当前工作路径下。其次,我们将保存的pdf文档转为.html网页格式,具体命令如下:

songbl fy ,pdf//将当前路径下所保存的论文的pdf文档转换为.html格式

通过该命令,我们将当前路径下所保存的论文的pdf文档转换为.html网页格式。需要注意的是,在转换过程中,我们使用了爬虫俱乐部开发的wordconvert命令(想详细了解该命令的读者请查看往期推文《玩转word文档“大变身”——wordconvert》),因此在使用之前需要下载该外部命令。得到的部分内容如下图所示:

最后我们借助chrome浏览器中的谷歌网页翻译将该页面翻译为中文,翻译结果如下:


重磅福利!为了更好地服务各位同学的研究,爬虫俱乐部将在小鹅通平台上持续提供金融研究所需要的各类指标,包括上市公司十大股东、股价崩盘、投资效率、融资约束、企业避税、分析师跟踪、净资产收益率、资产回报率、国际四大审计、托宾Q值、第一大股东持股比例、账面市值比、沪深A股上市公司研究常用控制变量等一系列深加工数据,基于各交易所信息披露的数据利用Stata在实现数据实时更新的同时还将不断上线更多的数据指标。我们以最前沿的数据处理技术、最好的服务质量、最大的诚意望能助力大家的研究工作!相关数据链接,请大家访问:(https://appbqiqpzi66527.h5.xiaoeknow.com/homepage/10)或扫描二维码:

最后,我们为大家揭秘雪球网(https://xueqiu.com/)最新所展示的沪深证券和港股关注人数增长Top10。


对我们的推文累计打赏超过1000元,我们即可给您开具发票,发票类别为“咨询费”。用心做事,不负您的支持!







往期推文推荐       一文搞清楚Python函数的参数       Stata爬豆瓣和烂番茄——国内外的观影口味果然大不同       邮箱附件太多?Python帮你批量下载!      正则表达式之多次匹配

        爬虫君为你的数据自由操碎了心!cnborder重磅推出!

      基于Python的假设检验实现      Stata与MySQL交互--基础操作           Jupyter Notebook中的魔术命令     《Stata正则表达式》由中国金融出版社出版发行          匿名函数lambda到底怎么用?

Stata绘图系列—NBER Working paper仿图

       Camelot:从PDF中提取表格数据      Stata之计算财务指标——融资约束

      列表生成式|让你的代码更简洁

Stata绘图系列——玩转绘图通用选项之坐标轴

       玩转地图的好帮手--pyecharts

       爬虫俱乐部又又又输送了一位研究助理!!!      【数据分析】一文教你玩转DataFrame

 震惊,爬虫俱乐部竟是这样运营答疑群的?!

【数据分析-入门】一看就会!Numpy的创建、索引、切片与更新

     关于我们 

   微信公众号“Stata and Python数据分析”分享实用的Stata、Python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。

   武汉字符串数据科技有限公司一直为广大用户提供数据采集和分析的服务工作,如果您有这方面的需求,请发邮件到statatraining@163.com,或者直接联系我们的数据中台总工程司海涛先生,电话:18203668525,wechat: super4ht。海涛先生曾长期在香港大学从事研究工作,现为知名985大学的博士生,爬虫俱乐部网络爬虫技术和正则表达式的课程负责人。



此外,欢迎大家踊跃投稿,介绍一些关于Stata和Python的数据处理和分析技巧。

投稿邮箱:statatraining@163.com投稿要求:
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里
为作者署名,并有赏金分成。

2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可

以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存