计量经济学相关问题
【原创】计量经济学常见问题汇总(持续更新)
来源| 本文由计量经济学服务中心原创推荐
转载请联系授权
计量经济学服务中心,微信上最好的计量经济学微信公众号。中心多位编辑根据实证分析经验,为大家整理出如下常见问题,希望对大家论文写作能有帮助。
计量经济学的主要用途或目的主要有两个方面:
1、理论检验。
2、预测应用。
研究对象:
计量经济学的两大研究对象:横截面数据(Cross-sectional Data)和时间序列数据(Time-series Data)。前者旨在归纳不同经济行为者是否具有相似的行为关联性,以模型参数估计结果显现相关性;后者重点在分析同一经济行为者不同时间的资料,以展现研究对象的动态行为。
新兴计量经济学研究开始切入同时具有横截面及时间序列的资料,换言之,每个横截面都同时具有时间序列的观测值,这种资料称为追踪资料 (Panel data,或称面板资料分析)。追踪资料研究多个不同经济体动态行为之差异,可以获得较单纯横截面或时间序列分析更丰富的实证结论。
涉及到的相关学科:
计量经济学是结合经济理论与数理统计,并以实际经济数据作定量分析的一门学科。计量经济学以古典回归分析方法为出发点。依据数据形态分为:横截面数据回归分析、时间序列分析、面板数据分析等。依据模型假设的强弱分为:参量计量经济学、非参量计量经济学、半参量计量经济学等。常运用的软件:EViews、Gretl、MATLAB 、Stata、R、SAS、SPSS等……
若是所建立的回归模型在经济意义上没有因果关系,那么这个就是伪回归,例如路边小树年增长率和国民经济年增长率之间存在很大的相关系数,但是建立的模型却是伪回归。如果你直接用数据回归,那肯定存在正相关,而其实这个是没有意义的回归。
为避免伪回归,消除异方差,在不改变时间序列的性质及相关性的前提下,为获得平稳数据,通常会对时间序列取自然对数。对数据进行平稳性检验是研究中不可或缺的步骤,因为时间序列分析法只适用于平稳的数据。那么什么情况下会对数据取对数呢?
第一,关于对数的问题,若是自己选取的变量数据,里面有部分小于0,或者负数,需要重新考量下,看是否数据或者其他问题,此时肯定是没法取对数;
第二,针对CD 等生产函数等类型的数据分析,由于建模需要,一般需要取对数,此类情况一般会在柯布道格拉斯函数基础上,引入新的变量,包括但不局限于资本和劳动等变量;
第三,平时在一些数据处理中,经常会把原始数据取对数后进一步处理。之所以这样做是基于对数函数在其定义域内是单调增函数,取对数后不会改变数据的相对关系
第四,取对数作用主要有:缩小数据的绝对数值,方便计算。例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了,例如TF-IDF计算时,由于在大规模语料库中,很多词的频率是非常大的数字。取对数后,可以将乘法计算转换称加法计算。某些情况下,在数据的整个值域中的在不同区间的差异带来的影响不同。也就是说,对数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高。这取对数之后不会改变数据的性质和相关关系,但压缩了变量的尺度,数据更加平稳,也消弱了模型的共线性、异方差性等。例如在会计或者金融等变量的实证研究中,引入变量资产规模等变量,一般会取对数,因为不同行业或者国有、民营等公司的资产规模差距很大,取对数,会缩小差距,使得实证研究更具有针对性。
另外,山大大学陈强老师在计量经济学及stata应用公众号中汇总出如下五种情况:
第一,如果理论模型中的变量为对数形式,则应取对数。比如,在劳动经济学中研究教育投资回报率的决定因素,通常以工资对数为被解释变量,因为这是从Mincer模型推导出来的。
第二,如果变量有指数增长趋势(exponential growth),比如 GDP,则一般取对数,使得 lnGDP 变为线性增长趋势(linear growth)。
第三,如果取对数可改进回归模型的拟合优度(比如 R2 或显著性),可考虑取对数。
第四,如果希望将回归系数解释为弹性或半弹性(即百分比变化),可将变量取对数。
第五,如果无法确定是否该取对数,可对两种情形都进行估计,作为稳健性检验(robustnesscheck)。若二者的回归结果类似,则说明结果是稳健的。
在经济学中,常取自然对数再做回归,这时回归方程为 lnY=a lnX+b ,两边同对X求导,1/Y*(DY/DX)=a*1/X,b=(DY/DX)*(X/Y)=(DY*X)/(DX*Y)=(DY/Y)/(DX/X) 这正好是弹性的定义。
告诉你如何取对数quick\ generate series\ 输入新变量,比如 r=log( ),r就是取完对数后的序列。
很多同学在做实证文章的时候常常问,我的R平方只有0.08到0.09,也就是说我的模型只能解释数据的8%到9%。在实证文章里,特别对于横截面数据来说,有时R平方只有0.05。R平方是什么意思?就是说,我们的模型能解释数据的variance的多少,可能对于绝大部分的variance的解释,经济学家是不知道的。
另外,R平方表示模型拟合优度,也就是模型解释力度,此值介于0-1之间,数值越大,说明模型解释力度越大,该值越大越好,在实际研究中,辞职表的意义相对较小,即使该值小于0.4或者更小,也关系不是很大。
R平方与所选取变量多少以及回归有很大关系,经常在会计领域多变量进行回归,此值会很小,所以不必太在乎这个统计量。另外调整R2可以为负数,当调整R2可以为负数时,说明此时R2会很小,几乎为0,此时模型几乎没有意义。
就Panel Data的处理而言,建议先进行平稳性校验。一般完整的实证经济学论文,针对面板数据,会前期进行数据处理,包括描述性分析和平稳性检验的,这个根据期刊的要求或版面要求而定,另外,根据相关要求,一般情况下,由于面板数据主要核心在于回归,包括固定或者随机效应的回归结果,所以有些文章,并没有进行平稳性检验,而为了将面板数据做的高大上,分析更具有针对性,可以进行分类分行业分阶段进行回归,更能说明问题。
而在公司财务领域,研究都是资产负债率等,它们不可能包含单位根,所以我们基本上都不做这个检验。然而,在宏观经济领域,单位根过程很普遍,如果前期学者也证实了单位根过程的存在,一般也都做。所以具体情况,根据相关要求来定。
问卷主要分为两大类:即量表问卷和非量表问题。
量表问卷通常更多使用于学术研究,主要针对人群态度看法使用意愿等方面的研究,量表题是指类似答项为“非常不同意”,“比较不同意”,“中立”,“比较同意”和“非常同意”之类的问题,这个在前期stata培训会议中以微信使用意愿以及影视旅游动机专题介绍过。主要软件为SPSS,主要分析方法比如因子、信效度、相关、回归模型等。
而非量表类来讲,其最大的特点为大部分为单选题、多选题或者排序填空题等,但很少有出现量表题(是)。
本文以stata培训会议中,影视旅游动机为例,为大家总结如下思路框架。
建议阅读中心推文Stata学习资源汇总一文,该文将stata学习最常见的命令以及书籍都有汇总。
更多精彩问题,敬请期待。
·
·
·
END
l 计量经济学服务中心 l
更懂计量,更懂你
回复关键词:微信群,进入中心科研社群
学术QQ群:593977756(500人大群)
品牌网站:www.aiwanning.com