考研之后,文科生需以“do”躬“do”!
本文作者:赵 磊、何 疆
本文编辑:王思雨
技术总编:李婷婷
灵魂发问:文科生,如何度过这漫长等待的后考研时代?
说起此题目,不由想起南宋老陆说的一句话,
纸上得来终觉浅,觉知此事要躬行。
老陆说的没错,纸上得来终觉浅,我们一起do,do,do
注:do,do,do分别表示:do(干、做、学),do(执行、运行),do(do-file)
用Stata执行如下的命令可以得到下图:
clear all
input year 人数
2023 474
2022 457
2021 377
2020 341
2019 290
2018 238
2017 201
2016 177
2015 164.9
2014 172
2013 176
2012 165.6
2011 151.1
2010 140.6
end
twoway bar 人数 year,barwidth(.8) base(100) || ///
scatter 人数 year,ms(none) mla(人数) mlabpos(13) legend(off) ///
bcolor(yellow) color(white) fcolor(blue) ///
title(2010-2023年全国硕士研究生报考人数) xmtick(2010(1)2023) xlabel(2011(2)2023)
2023年的春天,比2022年更冷一些
考研报名474万,这个程度那叫个惨烈
初试加复试,如同千军万马过独木桥
成功上岸的终究是少数
有竞争就会有淘汰,考得不好的同学
不要灰心,不要怀疑自己
面包总会有的,工作总会有的
那么被录取的同学,应当做些什么呢?
且听过来人给你唠唠嗑:第三个也是最最重要的技能就是你的数据收集和整理的技能。这里我需要强调的是,什么是数据,数据并非仅仅包含我们看到的那些阿拉伯数字字符,而是信息的另一个名字,我们的科学研究用到的数据,不仅包括企业的财务数据、价格数据、通胀率失业率等数字构成的数据,还包括很多定性变量和基于文本的数据,比如人的性别、民族、宗教、语言;国家的法律渊源、殖民历史、气候;上市公司信息披露中的年报可读性、信息披露的语气,经济学中常常用到一些制度指标,比如法律保护的程度、官员的肚皮大小、脸的长宽比例,基金经理的颜值等指标。好的实证研究都离不开数据,特别是特色数据,所谓特色数据,往往不是现成的数据,需要我们自己去寻找,自己去编码,这里面常常用到的一项技术叫做网络数据收集(俗称爬虫),你要学会网络爬虫技术,爬到你需要的一个特色数据,并与你已经获得的(比如买来的)数据合并,得到实证结果。
实证研究中的回归分析是最简单的问题,你花费的90%的时间在整理数据,9%的时间在绘制表格报告结果,回归分析用的时间只有一杯咖啡的时间而已。当然,如果数据都是买来的,清洗数据花的时间也不多,可是你的研究很可能和别人撞车,因为你能买到的数据别人也买得到。关键是那个特殊的数据,往往是你需要手工整理的数据。为了一项研究,我们手工整理了判案文书网上的每一件杀人案和每一件抢劫案,为了研究基金经理的颜值,我们整理了7万个基金从业人员的照片,并通过一个APP给他们的颜值打分,整理上市公司公告,年报中的MD&A并分析其可读性、语气,几乎是我们的日常工作。为了研究高校的学术诚信,我们把知网100多万篇论文的摘要拿来,两两进行余弦相似度的计算。为了找到上市公司附近税务局的地址,我们开发了cnmapsearch命令,通过百度地图找税务局,为了计算上市公司与税务局之间的驾车距离和交通时间,我们开发了cntraveltime,可以给出从每个上市公司到附近税务局(购物中心、飞机场、任何你需要的位置)之间的驾车距离和交通时间。为了做好事件研究,我们发布了命令cnevent,为了发送一批电子邮件,我们开发了psemail命令。为了绘制股票K线图,我们开发了cnkchart命令,我们的cntrade还有获取年末上市公司数量的隐藏功能。还有我们的hk系列命令,hktrade能获取港交所上市股票历史交易信息,支持日度、周度、月度交易数据的可选项,hkar可以获取港交所上市股票历史财报数据,hkstock可以获取港交所上市的证券、权证的名称及代码。还有cnborder命令,可以判断中文地址是否处于省、市、县边界处。为了使用户能够在Stata中与ChatGPT对话,我们还推出了chatgpt这一功能强大的命令。
购书链接:
但是公众号难以系统学习,也没有小姐姐答疑解惑,强烈推荐我们在小鹅通上的网课,包括Stata和Python课程。可以通过课程链接https://appbqiqpzi66527.h5.xiaoeknow.com/homepage/10。或课程二维码进行访问哦~
END
重磅福利!为了更好地服务各位同学的研究,爬虫俱乐部将在小鹅通平台上持续提供金融研究所需要的各类指标,包括上市公司十大股东、股价崩盘、投资效率、融资约束、企业避税、分析师跟踪、净资产收益率、资产回报率、国际四大审计、托宾Q值、第一大股东持股比例、账面市值比、沪深A股上市公司研究常用控制变量等一系列深加工数据,基于各交易所信息披露的数据利用Stata在实现数据实时更新的同时还将不断上线更多的数据指标。我们以最前沿的数据处理技术、最好的服务质量、最大的诚意望能助力大家的研究工作!相关数据链接,请大家访问:(https://appbqiqpzi66527.h5.xiaoeknow.com/homepage/10)或扫描二维码:
最后,我们为大家揭秘雪球网(https://xueqiu.com/)最新所展示的沪深证券和港股关注人数增长Top10。
对我们的推文累计打赏超过1000元,我们即可给您开具发票,发票类别为“咨询费”。用心做事,不负您的支持!
往期推文推荐【爬虫实战】Python爬取知网文献信息
焕新升级!轻松获取港股、权证的历史交易数据
爬虫俱乐部的精彩答疑---cntraveltime
【爬虫俱乐部新命令速递】在Stata中与ChatGPT对话
用`fs`命令批量获取文件夹和不同文件夹下的excel文件
自然语言处理之实例应用JSON帮手,FeHelper
最新、最热门的命令这里都有!
Python实现微信自动回复告诉python,我想“狂飙”了——线程池与异步协程为爬虫提速高级函数——map()和reduce()Stata绘制条形图的进阶用法
快来看看武汉的房价是不是又双叒叕涨了!Python 常见内置函数(二)Stata绘制饼形图的进阶用法
Python标准库--logging模块盲区探索——Stata的读写极限Camelot提取PDF表格:一页多表、多页一表Stata绘图系列——条形图绘制
关于我们
微信公众号“Stata and Python数据分析”分享实用的Stata、Python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。
武汉字符串数据科技有限公司一直为广大用户提供数据采集和分析的服务工作,如果您有这方面的需求,请发邮件到statatraining@163.com,或者直接联系我们的数据中台总工程司海涛先生,电话:18203668525,wechat: super4ht。海涛先生曾长期在香港大学从事研究工作,现为知名985大学的博士生,爬虫俱乐部网络爬虫技术和正则表达式的课程负责人。
此外,欢迎大家踊跃投稿,介绍一些关于Stata和Python的数据处理和分析技巧。
投稿邮箱:statatraining@163.com投稿要求:1)必须原创,禁止抄袭;2)必须准确,详细,有例子,有截图;注意事项:1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。2)邮件请注明投稿,邮件名称为“投稿+推文名称”。3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。