查看原文
其他

疯狂的科研创新加速器——Stata!

爬虫俱乐部 Stata and Python数据分析 2022-03-15

本文作者:熊保维,中南财经政法大学经济学院

本文编辑:陈梦华

技术总编:戴   雯

Stata&Python云端课程来啦!

好雨知时节,当春乃发生。为了感谢大家长久以来的支持和信任,爬虫俱乐部为大家送福利啦!!!Stata&Python特惠课程双双上线腾讯课堂~原价2400元的Python编程培训课程,现在仅需100元,详情请查看推文《Python云端课程福利大放送!0基础也能学~》。关于Stata,爬虫俱乐部推出了系列课程,内容包括字符串函数、正则表达式、爬虫专题和文本分析,可以随心搭配,价格美丽,物超所值,更多信息可查看Stata系列推文《与春天有个约会,爬虫俱乐部重磅推出正则表达式网络课程!》《与春天有个约会,爬虫俱乐部重磅推出基本字符串函数网络课程》等。变的是价格,不变的是课程质量和答疑服务。对报名有任何疑问欢迎在公众号后台和腾讯课堂留言哦!

重磅消息:公元2021年4月20日,Stata17正式面向全球发布!
对于此,学术界的每一个计量人无不拍手称赞!Stata到底有什么魔力,让这么多知识届翘楚学术打工人心心念念、甚至疯魔呢?基于理性人假设,小编断言,学习Stata必是一件边际收益远超边际成本的选择!为了证明这个论断,小编不等生活动手,开始自己下手......

【摘要】本文利用2019年Stata and Python数据分析公众号后台粉丝的地域数据与2019年全国所有地级市商科类C刊发文总量,采用ols线性回归与工具变量法,在考虑了多种控制变量的基础上,检验了实证工具科研创新水平的影响。研究结果表明:实证工具的运用显著提升了地区的科研创新产出数量与产出质量。基于此,强烈建议各路才俊关注Stata and Python数据分析,一起走上实证研究的康庄大道!



假设的提出


基于Stata让无数理性人疯魔的事实,我们建立下面两个的假设:

(一)Stata是一个莫得感情的科研创新加速器——越关注Stata的地方高校优质论文产出数量越高!

(二)实证分析已成大势所趋,Stata的运用提高了地方高校论文产出的质量!



数据搜集与处理


  • Step 1

首先,小编从Stata and Python数据分析公众号(本文公众号)后台爬得一份描述粉丝地域属性的数据。整理后第一份数据样式如下:

上表为本公众号关注度排名前十的地级市

  • Step 2

我们在中华人民共和国中央人民政府网上获得了一份全国高等院校的名单。数据显示,截至2020年6月30日,中国高等院校共计3005所。数据信息包括学校名称、所在地、办学层次和主管部门。第二份数据的样式如下:

  • Step 3

我们通过Stata爬虫获得了全国所有C刊在2019年间刊出的商科类文章。数据包括论文题目、作者、作者单位、发表时间、引用量等。保留原始数据中所有一作单位是中国高等院校的文章数据。再通过多次merge将每一篇论文定位到一作单位所在地级市。统计出每一个地级市2019年的总发文量与引用量。最终,一份能够粗略反映地方Stata关注度与该地区高校创新产出的粗略数据摆在了案上!“原始证据”样式如下:

为了证明小编的猜想,我们拿着“原始证据”进入研究下一阶段:



研究设计


1、计量模型的设定

为了验证前文提到的两个假设,我们提出以下两个回归模型:Papers=A+B*X+C*Z+E          (1)Citations=a+b*X+c*z+e        (2)模型(1)中,Papers为地级市辖区范围内所有高校论文产出的数量;模型(2)中,Citations为地方高校论文的总引用量,代表论文的质量。考虑到本公众号的粉丝大多为商科背景,代理变量均选取C刊商科类文章发表的相关数据。X为Stata的地方关注度,代理变量为2019年年末该地区关注Stata and Python数据分析公众号的粉丝数。Z为控制变量集合,e与E为随机干扰项。根据本文假设,需要验证B≥0b≥0

2、变量的选取及说明

(1)因变量。本文旨在度量城市科研创新的水平,因此,度量指标的选取十分重要。在大量借鉴既有研究的基础上,本文选取一城市C刊商科类文章发表的总数量Papers与总引用量Citations,从数量和质量两个层面刻画科研创新的水平。数据来源于中国知网。回归时取值的自然对数。(2)自变量。采用2019年年末该地区关注Stata and Python数据分析公众号的粉丝数fans作为代理变量。数据来自于微信公众平台。回归时取值的自然对数。(3)控制变量。考虑到不同城市的经济发展水平、高校发展水平、产业结构、政府政策等方面的不同,本文的控制变量包括:pGDP——2019年城市的人均GDP(取自然对数)、keyUniversity——985、211大学数量、SecondaryInd——第二产业增加值占GDP比重、TertiaryInd——第三产业增加值占GDP比重、CostalCity——是否为沿海城市、CentralCity——是否为中部城市。3、内生性与工具变量从逻辑上讲,论文产出和Stata等实证计量软件的关注度可能存在一定的内生性问题。本文主要存在的问题一是遗漏变量,二是数据测量及统计误差,三是反向因果。因此,本文将training——爬虫俱乐部是否去过该城市进行培训作为研究的工具变量,来缓解可能存在的内生性问题造成的估计偏误。

实证检验


根据回归模型(1),得到的基本回归结果如下图所示:

没有采用工具变量的ols回归结果让小编没有忍住笑出声来。
下面进行工具变量下的2sls回归:

小编两眼放光,表示大事已成!回归结果显示,无论是否采用工具变量,关注实证软件都显著的提高了城市论文产出的数量。且我们的工具变量通过了弱工具变量检验(F>10)~
根据回归模型(2),得到的基本回归结果如下图所示:

世界上真的存在比0.000更美的字符串吗......
嘿...嘿嘿...嘿嘿嘿...工具变量下的2sls回归结果如下:

可以看见,无论是否采用工具变量,关注实证软件都显著的提高了城市论文产出的质量。且此次我们的工具变量同样通过了弱工具变量检验。以上结果为假设1和假设2提供了支持。

稳健性检验


考虑到本公众号的粉丝主要来自湖北河南两省份,因此剔除两省份所有城市的数据,再次进行上述回归,以此进行稳健性检验。计量结果如下,可以看见:所有回归结果不变,依然在1%的水平上存在显著的正向影响!剔除湖北河南省分后,对论文数量的ols及2sls回归:

剔除湖北河南省分后,对论文质量的ols及2sls回归:



结论与启示


本文利用2019年全国所有地级市C刊商科类文章发表的总数量、总引用量与Stata and Python数据分析公众号后台粉丝的地域数据,从实证上检验了关注我们对您科研创新产生的显著正向作用。Stata是一个莫得感情的科研创新机器,而我们,是您忠实的科研伴侣,在此,我们再次向您发出邀请~关注Stata and Python数据分析,我们一起走花路吧!~

最后,我们为大家揭秘雪球网(https://xueqiu.com/)最新所展示的沪深证券和港股关注人数增长Top10。


对我们的推文累计打赏超过1000元,我们即可给您开具发票,发票类别为“咨询费”。用心做事,不负您的支持!

往期推文推荐 

  可盐可甜,“粽”有所爱,快来pick你最爱的粽子吧!

  好玩有趣的手绘图形库——cutecharts

  爬虫实战|摩尔庄园微博话题讨论

  一季度财报出炉,哪些公司最烧钱?

  一季度财报出炉,哪些公司最赚钱?

  技能篇 | 图片合并大法

  批量空气质量数据文件合并分析

  Stata17之日期时间新功能

  Stata17之Lasso新功能

        爱奇艺视频弹幕爬取之《小舍得》         数据可视化利器——Matplotlib

  从第七次人口普查看中国人口变化|Stata与Python交互绘图

  200万投资者关注!!哪家公司这么牛?

  
带你领略一天天气之变化

  利用pyecharts看微博粉丝地区分布

  零值太多怎么办?解锁Stata17新命令ziologit

  Stata17新功能之Python API  小罗肥归升级啦|解锁Stata17之新命令xtmlogit  
速度大比拼之Stata17有多快?

初识PyStata

辞旧迎新——Stata17之Do-file编辑器优化

Stata17新亮点——解放表格输出生产力

 【爬虫+可视化】链家网北京租房信息

  手把手教你如何获取股票数据和可视化

  Countvalues——数数的超级小帮手

          frame框架进阶篇

  下拉选择框如何变成“小猫咪” | selenium小技巧

  Python中的运算符知多少?

关于我们 


微信公众号“Stata and Python数据分析”分享实用的Stata、Python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。



此外,欢迎大家踊跃投稿,介绍一些关于Stata和Python的数据处理和分析技巧。

投稿邮箱:statatraining@163.com投稿要求:
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存