查看原文
其他

考研之后,文科生需以“do”躬“do”!

爬虫俱乐部 Stata and Python数据分析 2023-10-24

本文作者:赵 磊、何 疆

本文编辑:王思雨

技术总编:李婷婷


灵魂发问:文科生,如何度过这漫长等待的后考研时代?




说起此题目,不由想起南宋老陆说的一句话,

纸上得来终觉浅,觉知此事要躬行。

老陆说的没错,纸上得来终觉浅,我们一起do,do,do

注:do,do,do分别表示:do(干、做、学),do(执行、运行),do(do-file)

考研复考研,人数何其多
若问多几何,Stata跟您说

 用Stata执行如下的命令可以得到下图:

clear allinput year 人数2023 4742022 4572021 3772020 3412019 2902018 2382017 2012016 1772015 164.92014 1722013 1762012 165.62011 151.12010 140.6end
twoway bar 人数 year,barwidth(.8) base(100) || /// scatter 人数 year,ms(none) mla(人数) mlabpos(13) legend(off) /// bcolor(yellow) color(white) fcolor(blue) /// title(2010-2023年全国硕士研究生报考人数) xmtick(2010(1)2023) xlabel(2011(2)2023)










2023年的春天,比2022年更冷一些

考研报名474万,这个程度那叫个惨烈

初试加复试,如同千军万马过独木桥

成功上岸的终究是少数

有竞争就会有淘汰,考得不好的同学

不要灰心,不要怀疑自己

面包总会有的,工作总会有的

那么被录取的同学,应当做些什么呢?

且听过来人给你唠唠嗑:










导师对于学生的认可程度,不仅限于考试成绩,其实是有很多导师不认可考试的。学过一点概率统计的同学不难理解,考试是对你过去学过的知识点的一个小样本抽样,你学过的专业知识很多很多,可是考卷上能考的知识点就那么十几个,所以是小样本;既然是小样本,就难免存在偏差,比如你的优势是宏观经济学,但是考的微观知识太多,因此考卷难以反映你的实际能力;最后还少不了测量误差,原因是多方面的,比如试卷太多,阅卷老师难以诸字逐句认真阅读,比如书写清晰程度,卷面美感等都会影响到阅卷老师的评分。所以想要得到导师的认可,只有成绩高是不够滴,所以无论成绩好坏,都已成为过去式。
昌黎先生说,“师者,所以传道授业解惑也”,所以你将来是跟着老师学习,遇到不懂的问题就可以咨询老师,而愚以为,此话适用于中小学,以及部分本科阶段的学习,但不适用于研究生。小学问老师,中学问同学,大学问度娘,硕博问&%¥@#,呃……看缘分吧。事实上,到了硕博阶段,老师和学生之间的关系从老师教学生转变为师生共同创造知识,是探究为主,此为研究,所以是研究生。作为研究生,纵然你学富五车,才高八斗,能在竞猜问答中脱颖而出获得冠军,但也未必能证明你有研究的能力,研究就是创造知识的能力,有一定的研究范式,在文献的基础上,按照科学的研究范式去研究,方能有所建树。因此,某位哲人新说:师者,所以传道授业接活儿也!老话说得好:师傅领进门,修行在个人,老师就是要带领研究生,承接研究项目,创造知识,在创造知识的过程中培育学生,至于最终结果,要看个人修为了。
科学的研究范式是什么呢?对社会科学的研究来说,无非是数理模型、实验(包括田野实验)和实证分析,那些动辄“我认为”的语言,不是科学的研究,是学富五车满腹经纶的知名专家才能写出的大作,不适合研究生。所以,如果你想证明你的能力,一定要从数理模型、实验方法和实证分析三个方面下功夫,但是并非每个人都会拥有所有的技能,以经济学为例,大部分专家也并非Jack of all trades,他们或许是数理经济学家,或许是实验经济学家,或许是实证研究的专家,但很少有人啥球都会(就是羽毛球、篮球、足球、排球、乒乓球、铅球、曲棍球、橄榄球、冰球、门球、热气球啥球都会,懂河南话的更能理解其深意),你作为即将进入这个领域的小白,也不需要在这短短几个月中博览群书精通三种技能,主要看看你的专长,充分发挥你的长处。
以实验经济学(或社会学)为例,这个领域是烧钱的行业,你可以懂一些理论,但是却很难进行试验,原因是太费钱,准备复试的时候,可以忽略这个领域。
数理模型则需要较好的数学功底,而且也难以在短期内构建起来,对大部分社会科学和文科的考生来说,这一部分属于硬骨头,很多人自己会放弃的,不是北清复交为代表的一众985名校的,找个导师都难,不放弃也得放弃。
剩下的就是走实证路线了。实证就是用数据来证明,主要需要三个领域的知识结构,其一是你的专业基础比如文献,当然这一块无论是走数理路线还是走实验路线都免不了的,所有理论的产出都离不开专业知识和大量文献的支撑,站在巨人的肩膀上你才能看得更远,飞得更高。
其二是计量理论,特别是近年来越来越火的微观计量理论,如果你读文献能力还不足,可以看看大神李井奎教授的那本《大侦探经济学》,他把微观计量的应用文献用很通俗的语言娓娓道来,读了这本书可能你还不知道究竟如何做因果识别,但是吹牛讲道还是可以展示你的才艺的。将来有机会读研究生了,无论是经济学、金融学、会计学、社会学、法学,我都强烈推荐安格里斯特(Joshua D. Angris)等人写的那本Most Harmless Econometrics,其中文版《基本无害的计量经济学》也是大神李井奎翻译的。我无意给安格里斯特和李井奎教授做植入式广告,但这两本书确实值得你深入阅读。

当然你如果想快速学点计量模型,推荐中大玉君(连玉君)、人大艇爷(江艇)和浙大川神(张川川)、人大非哥(王菲)、南开群勇(王群勇)、山大强哥(陈强)的计量方法快餐课程,不过要备好大几千的银子,他们的课很贵,但是你值得拥有。这时候我忽然想起来,好像是酱菜的王胖子、还是社科院的人口学家吴大神、亦或是武大的罗女神说过,一个学校必须得有两个出色的计量老师,否则都不好意思说他们的经济学是一流的。当然诸神可以否认,毕竟打击面比较大,我也是记不清楚了,说错了纯属瞎扯淡。当然学什么计量都行,都离不开我们的数据课程,我们的课也曾经很贵,但是现在不足一折价格回馈社会了。

第三个也是最最重要的技能就是你的数据收集和整理的技能。这里我需要强调的是,什么是数据,数据并非仅仅包含我们看到的那些阿拉伯数字字符,而是信息的另一个名字,我们的科学研究用到的数据,不仅包括企业的财务数据、价格数据、通胀率失业率等数字构成的数据,还包括很多定性变量和基于文本的数据,比如人的性别、民族、宗教、语言;国家的法律渊源、殖民历史、气候;上市公司信息披露中的年报可读性、信息披露的语气,经济学中常常用到一些制度指标,比如法律保护的程度、官员的肚皮大小、脸的长宽比例,基金经理的颜值等指标。好的实证研究都离不开数据,特别是特色数据,所谓特色数据,往往不是现成的数据,需要我们自己去寻找,自己去编码,这里面常常用到的一项技术叫做网络数据收集(俗称爬虫),你要学会网络爬虫技术,爬到你需要的一个特色数据,并与你已经获得的(比如买来的)数据合并,得到实证结果。

实证研究中的回归分析是最简单的问题,你花费的90%的时间在整理数据,9%的时间在绘制表格报告结果,回归分析用的时间只有一杯咖啡的时间而已。当然,如果数据都是买来的,清洗数据花的时间也不多,可是你的研究很可能和别人撞车,因为你能买到的数据别人也买得到。关键是那个特殊的数据,往往是你需要手工整理的数据。为了一项研究,我们手工整理了判案文书网上的每一件杀人案和每一件抢劫案,为了研究基金经理的颜值,我们整理了7万个基金从业人员的照片,并通过一个APP给他们的颜值打分,整理上市公司公告,年报中的MD&A并分析其可读性、语气,几乎是我们的日常工作。为了研究高校的学术诚信,我们把知网100多万篇论文的摘要拿来,两两进行余弦相似度的计算。为了找到上市公司附近税务局的地址,我们开发了cnmapsearch命令,通过百度地图找税务局,为了计算上市公司与税务局之间的驾车距离和交通时间,我们开发了cntraveltime,可以给出从每个上市公司到附近税务局(购物中心、飞机场、任何你需要的位置)之间的驾车距离和交通时间。为了做好事件研究,我们发布了命令cnevent,为了发送一批电子邮件,我们开发了psemail命令。为了绘制股票K线图,我们开发了cnkchart命令,我们的cntrade还有获取年末上市公司数量的隐藏功能。还有我们的hk系列命令,hktrade能获取港交所上市股票历史交易信息,支持日度、周度、月度交易数据的可选项,hkar可以获取港交所上市股票历史财报数据,hkstock可以获取港交所上市的证券、权证的名称及代码。还有cnborder命令,可以判断中文地址是否处于省、市、县边界处。为了使用户能够在Stata中与ChatGPT对话,我们还推出了chatgpt这一功能强大的命令。

不是说好了,还有9%的时间花在结果输出的制表上吗?我们开发了reg2docxsum2docxt2docxcorr2docx,你所有的研究结果输出问题都可以分分钟就能完成。以前修改论文后要花费大量的时间更新的表格,现在一套程序下来就跃然于纸上。
学会这些技能,勤奋的学生需要一周,懒散一点的需要一个月,智商够用的都可以学会。
既然是“师者所以传道授业接活儿也”,你一定要能够学会上述技能,才能有机会做老师的好帮手,协助老师做科学研究,从而提高自己的科研能力。只要你有机会证明你的能力,导师会礼贤下士对你说,娃儿,跟我读吧,我给你每个月800块生活费(一颗棒棒糖)!Anyway, 不是你求导师招你,而是导师主动招你,想想如果招了你,相当于有一个免费的研究助理,想想心里美,复试给高分!顺便说一句,爬虫俱乐部派往海外的研究助理,每个月工资大约20000元。说到这里我就很疑惑了,最近很多教授求助我们的团队整理数据,比如武大会计的陈女神找我们整理了专利的数据、东财的韩大牛交给我们10万+公司地址让我们找经纬度,岭南大学的青年才俊孙博士丢给我们13本书,让我们把13本书的表格转化成Excel。To name a few, 其实我们还承接过剑桥大学、清华大学、国某科技大学的数据分析项目,不便都写出来,不过,我都奇怪了,为嘛你们不让自己的学生学学我们的课程练练手呢?当然,我们张开双臂,欢迎各种数据外包,不过回到我们今天的正题,准研究生要做什么,学会数据分析采集的方法,导师会向你伸出干篮子(橄榄枝)的。
眼前,数据分析技术就是你可以在一个月可以拿下的一项高附加值的技能。我们的学生有很多到清华、中欧以及香港、澳门和新加坡的高校从事研究助理工作,我们也有很多学生到知名的大学攻读博士学位,这些学校包括清华大学五道口学院、北京大学光华管理学院、上海交通大学安泰管理学院、武汉大学经济管理学院、华中科技大学管理学院、西安交通大学经济管理学院和上海财经大学等,这些学生都拥有数据采集、数据分析的高超技艺,学术路线因此而被打开。
如果你拥有这些技术,你也可以在研究生复试中脱颖而出,因为你的能力正是很多导师所需要的,你们在创造知识的过程中会效率更高、成果卓著。
可是,如何拥有这样一门技术?(如下是植入广告,但是你一定要看到最后,因为里面有彩蛋,大大的福利,包括真金白银和小姐姐的在线答疑!)
其一,关注我们的公众号“Stata and Python数据分析”,我们的公众号二维码如下:

我们的公众号每周会有几篇数据技术的文章供大家学习,跟着公众号你可以学会绘制各种图形的进阶版,以及轻松获取股市信息,还可以实现与其他软件的交互等等。
《焕新升级!轻松获取港股、权证的历史交易数据》
《【爬虫俱乐部新命令速递】在Stata中与ChatGPT对话》
《爬虫俱乐部新命令:cnkchart帮你绘制股票K线图!》
《快来看看武汉的房价是不是又双叒叕涨了!》
《论文检索与翻译神器——songbl》
由李春涛教授和团队成员司海涛、薛原编写的《Stata正则表达式及其在在财务数据中的应用》是国内第一本系统性介绍Stata正则表达式的书籍,能帮助读者快速掌握正则表达式并应用于实际研究中!

购书链接:

但是公众号难以系统学习,也没有小姐姐答疑解惑,强烈推荐我们在小鹅通上的网课,包括Stata和Python课程。可以通过课程链接https://appbqiqpzi66527.h5.xiaoeknow.com/homepage/10。或课程二维码进行访问哦~



END

重磅福利!为了更好地服务各位同学的研究,爬虫俱乐部将在小鹅通平台上持续提供金融研究所需要的各类指标,包括上市公司十大股东、股价崩盘、投资效率、融资约束、企业避税、分析师跟踪、净资产收益率、资产回报率、国际四大审计、托宾Q值、第一大股东持股比例、账面市值比、沪深A股上市公司研究常用控制变量等一系列深加工数据,基于各交易所信息披露的数据利用Stata在实现数据实时更新的同时还将不断上线更多的数据指标。我们以最前沿的数据处理技术、最好的服务质量、最大的诚意望能助力大家的研究工作!相关数据链接,请大家访问:(https://appbqiqpzi66527.h5.xiaoeknow.com/homepage/10)或扫描二维码:

最后,我们为大家揭秘雪球网(https://xueqiu.com/)最新所展示的沪深证券和港股关注人数增长Top10。



对我们的推文累计打赏超过1000元,我们即可给您开具发票,发票类别为“咨询费”。用心做事,不负您的支持!







往期推文推荐【爬虫实战】Python爬取知网文献信息
焕新升级!轻松获取港股、权证的历史交易数据
爬虫俱乐部的精彩答疑---cntraveltime
【爬虫俱乐部新命令速递】在Stata中与ChatGPT对话

用`fs`命令批量获取文件夹和不同文件夹下的excel文件

自然语言处理之实例应用

JSON帮手,FeHelper

最新、最热门的命令这里都有!

Python实现微信自动回复告诉python,我想“狂飙”了——线程池与异步协程为爬虫提速高级函数——map()和reduce()

Stata绘制条形图的进阶用法

快来看看武汉的房价是不是又双叒叕涨了!Python 常见内置函数(二)

Stata绘制饼形图的进阶用法

Python标准库--logging模块盲区探索——Stata的读写极限Camelot提取PDF表格:一页多表、多页一表

Stata绘图系列——条形图绘制


     关于我们 

   微信公众号“Stata and Python数据分析”分享实用的Stata、Python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。

   武汉字符串数据科技有限公司一直为广大用户提供数据采集和分析的服务工作,如果您有这方面的需求,请发邮件到statatraining@163.com,或者直接联系我们的数据中台总工程司海涛先生,电话:18203668525,wechat: super4ht。海涛先生曾长期在香港大学从事研究工作,现为知名985大学的博士生,爬虫俱乐部网络爬虫技术和正则表达式的课程负责人。



此外,欢迎大家踊跃投稿,介绍一些关于Stata和Python的数据处理和分析技巧。

投稿邮箱:statatraining@163.com投稿要求:1)必须原创,禁止抄袭;2)必须准确,详细,有例子,有截图;注意事项:1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。2)邮件请注明投稿,邮件名称为“投稿+推文名称”。3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存