查看原文
其他

工具&方法 | 计量软件大搜罗,哪款是你的Mr.Right?

威武哥 数据Seminar 2021-06-03

在经济学圈,处理数据、计量分析都少不了要用到计量软件,不同的软件会有不同的特点,也会有各自擅长及欠缺的地方。下文我们就常用的7个计量软件进行梳理介绍,是好是坏事实说话。




STATA


软件概述

Stata是用于数据科学的统计软件,可用于数据分析、数据管理以及绘制专业图表,是目前高校师生学习的主流软件之一。目前存在三个版本,分别为MP、SE、IC,IC和SE的区别在于变量数目且IC比较少,IC、SE与MP的核心区别在于前面两个无法利用多核处理器,因此运算速度存在差异。


优势

1)功能强大且简单易懂。使用时可以每次只输入一个命令,也可以通过新建.do文件一次输入多个命令。在Stata中,即使发生错误,也能容易找出并加以修改。
2)能够进行大多数统计分析(回归分析,logistic回归,生存分析,方差分析,因子分析,以及一些多变量分析),其最大的优势可能在于回归分析。
3)Stata在调查数据分析领域有着明显优势,能提供回归分析,logistic回归,泊松回归,概率回归等调查数据分析。
4)Stata能提供一些命令或鼠标点击的交互界面来绘图,输出图形质量也很好,可以达到出版的要求。


劣势

1)数据管理能力较弱,无法处理大数据,当一个数据文件超越计算机内存所允许的范围时,就无法进行数据处理及分析。
2)软件运行速度较慢。有些情况下,一个程序经常需要花费几十分钟 (比如,做面板门槛模型,或需要 Bootstrap),甚至几十个小时才能完成。


教材推荐

陈强:《高级计量经济学及Stata应用(第2版)》
[美] 汉密尔顿著、郭志刚等译:《应用STATA做统计分析》


视频资料

https://www.bilibili.com/video/av44352722?from=search&seid=16221908378015685569




Eviews


软件概述

Eviews是Econometrics Views的缩写,通常称为计量经济学软件包,是美国QMS公司推出的,其具有操作简便、界面友好、功能强大等特点。Eviews能为我们提供复杂的数据分析、回归及预测工具,通过Eviews能够快速从数据中得到统计关系,并根据这些统计关系进行预测。Eviews在系统数据分析和评价、金融分析、宏观经济预测、模拟、销售预测及成本分析等领域有着广泛的应用。


优势

1)入手简单,对数学要求不高。
2)允许用户以简便的可视化的方式从键盘或磁盘文件中输入数据。
3)处理时间序列、回归方程是它最大的长处,能处理一般的回归包括多元回归问题。还擅长单位根检验和granger因果关系检验、协整模型、ARIMA模型等。


劣势

1)处理过程是个黑箱,出来的结果可能会不够精确。
2)如果要大量编程的话,Eviews扩展性较差。
3)学习资料较少,且目前学界使用该软件的比例在不断降低。


教材推荐

张晓峒:《Eviews 使用指南与案例》、《应用数量经济学》
易丹辉:《数据分析与Eviews应用》


视频资料

https://www.bilibili.com/video/av16111836?from=search&seid=4115858236067332204




SPSS


软件概述

SPSS,全称为 Statistical Product and Service Solutions,为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称。最初由美国斯坦福大学的三位研究生Norman H. Nie、C. Hadlai (Tex) Hull 和 Dale H. Bent于1968年研究开发成功。


优势

1)交互简便。有一个可以点击的交互界面,可以使用下拉菜单来选择所需要执行的命令,也有一个通过拷贝和粘贴的方法来学习其“句法”语言,软件汉化程度高,无论是操作界面还是结果界面都以中文呈现。
2)有一个类似于Excel的界面友好的数据编辑器,可以用来输入和定义数据(缺失值,数值标签等等)。
3)SPSS能够进行大多数统计分析(回归分析,logistic回归,生存分析,方差分析,因子分析,多变量分析)。它的优势在于方差分析(SPSS能完成多种特殊效应的检验)和多变量分析(多元方差分析,因子分析,判别分析等)。


劣势

1)数据管理工具功能不强。主要用于对一个文件进行操作,难以胜任同时处理多个文件,也无法处理大数据。
2)无法完成稳健回归或得到稳健标准误差。


教材推荐

薛薇:《基于SPSS的数据分析》
张文彤:《SPSS统计分析基础教程》


视频资料

https://www.bilibili.com/video/av25302655?from=search&seid=15659690192286305220



SAS


软件概述

SAS,全称为 STATISTICAL ANALYSIS SYSTEM,是全球最大的私营软件公司之一,是由美国北卡罗来纳州立大学 1966 年开发的统计分析软件。


优势

1)在数据管理方面,SAS非常强大,可以处理任意类型和格式的数据,还包含SQL(结构化查询语言)过程,可以在SAS数据集中使用SQL查询。
2)可以同时处理多个数据文件 。
3)SAS能够进行大多数统计分析(回归分析、因子分析、多变量分析等),其最优之处可能在于它的方差分析,混合模型分析和多变量分析。
4)SAS 的软件及算法都是经过检验的,SAS 有技术支持去快速解决用户的需求。如果需要的话,SAS 会尝试在已存在的步骤中嵌入新的方法,例如增加一个选项或者新增一个语句(statement),因此用户不需要学习另外一个过程步。SAS也会发布通讯来详细说明软件的更新。


劣势

1)学习难度较大,需要编写 SAS 程序来处理数据,进行分析。如果在一个程序中出现错误,找到并改正这个错误具有一定的难度。
2)劣势主要是有序和多元logistic回归(因为这些命令很难),以及它难以完成稳健回归和其他稳健方法。


教材推荐

小小SAS翻译组:《The Little SAS book中文版》(作者:Lora D.Delwiche、Susan J.Slaughter)


视频资料

https://www.bilibili.com/video/av10656427?from=search&seid=4310319528108273527




Matlab


软件概述

MATLAB 是美国 MathWorks 公司出品的商业数学软件,用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境,主要包括 MATLAB 和 Simulink 两大部分。MATLAB 可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等,主要应用于工程计算、控制设计、信号处理与通讯、图像处理、信号检测、金融建模设计与分析等领域。
MATLAB的基本数据单位是矩阵,它的指令表达式与数学、工程中常用的形式十分相似,故用 MATLAB 来解算问题要比用C、FORTRAN等语言完成相同的事情简捷得多,并且 MATLAB 也吸收了像 Maple 等软件的优点,使MATLAB成为一个强大的数学软件。在新的版本中也加入了对C,FORTRAN,C++,JAVA的支持。


优势

1) 高效方便的矩阵和数组运算,能使用户从繁杂的数学运算分析中解脱出来。
2) 具有完备的图形处理功能,实现计算结果和编程的可视化。
3) 友好的用户界面及接近数学表达式的自然化语言,使学者易于学习和掌握。
4) 功能丰富的应用工具箱(如信号处理工具箱、通信工具箱等) ,为用户提供了大量方便实用的处理工具。


劣势

1)循环预算效率低:MATLAB中所有的变量均为向量形式,这样一方面在对向量进行整体的计算时,表现出其他语言难以表现出的高效率,但是对于向量中的单个元素,或是将向量作为单个的循环变量来处理时,其处理过程相当的复杂。
2)封装性较差:一方面,所有的变量均保存在公共工作区中,任何语句都可以调用。另一方面,作为一个完备的软件,而不是实现算法的程序,编程人员在使用 MATLAB 时需要花相当多的时间考虑如何设计用户界面。虽然,MATLAB提供了一定量的交互界面制作途径,但最终的代码仍然将不可避免的移植到较为“低级”的语言中,如C语言,C++。
3)安装包很大。


教材推荐

胡晓冬、董辰辉:《Matlab从入门到精通》
《MATLAB官方手册》


视频资料

https://www.bilibili.com/video/av53289206?from=search&seid=8280944970807302304




R


软件概述

R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。


优势

1)开源免费。作为开源软件,R语言的优势主要体现在其软件包生态系统上,可以在它的网站及其镜像中下载任何有关的安装程序、源代码、程序包及其源代码、文档资料。标准的安装文件身自身就带有许多模块和内嵌统计函数,安装好后可以直接实现许多常用的统计功能。
2)R具有很强的互动性。除了图形输出是在另外的窗口处,它的输入输出窗口都是在同一个窗口进行的,输入语法中如果出现错误会马上在窗口口中得到提示,对以前输入过的命令有记忆功能,可以随时再现、编辑修改以满足用户的需要。输出的图形可以直接保存为 JPG ,BMP,PNG 等图片格式,还可以直接保存为PDF文件。另外,和其他编程语言和数据库之间有很好的接口。
3)R在统计方面非常强大,其在最初就被认为是更加适合大数据的。它对于矩阵的操作和排序的设计是非常高效的。R 也可以很好的进行各种基于分析的数据模拟。


劣势

1)短板在于安全性和内存管理。内存管理、速度与效率可能是 R 语言面临的几大最为严峻的挑战。开源软件对于大公司来讲都会有安全方面的担忧。
2)对大文本(text data)处理较差,数据管理也不是R的强项。


教材推荐

薛毅、陈立萍:《R语言实用教程》
Robert I.Kabacoff:《R in action》


视频资料

https://www.bilibili.com/video/av57591384?from=search&seid=8047617141026533020




Python


软件概述

Python 是一种面向对象的,解释型的计算机语言,由著名的“龟叔”Guido van Rossum在1989年圣诞节期间编写而成的一个编程语言。Python可以应用于众多领域,如:数据分析、网络服务、图像处理、数值计算和机器学习等众多领域。目前业内几乎所有大中型互联网企业都在使用Python。


优势

1)Python的定位是“优雅”、“明确”、“简单”,所以Python程序看上去像阅读英文一样简单易懂,入门非常简单。
2)开发效率非常高,Python有非常强大的第三方库(如Statsmodels是统计建模和计量经济学工具包,包括一些描述统计、统计模型估计和推断),基本上你想通过计算机实现任何功能,Python官方库里都有相应的模块进行支持,直接下载调用后,在基础库的基础上再进行开发,可以大大降低开发周期,避免重复造轮子。
3)可移植、可扩展、可嵌入。Python程序无需修改就几乎可以在市场上所有的系统平台上运行,倘若你需要你的一段关键代码运行得更快或者希望某些算法不公开,你可以把你的部分程序用C或C++编写,然后在你的Python程序中使用它们,也可以把Python嵌入你的C/C++程序,从而向你的程序用户提供脚本功能。
4)可以处理大数据。


劣势

1)运行速度慢。由于 Python 是解释型语言,代码在执行时会一行一行地翻译成CPU能理解的机器码,这个翻译过程非常耗时,所以很慢。
2)代码不能加密。如果要发布你的Python程序,实际上就是发布源代码,与C语言不同,C语言不用发布源代码,只需要把编译后的机器码(也就是你在Windows上常见的xxx.exe文件)发布出去。要从机器码反推出C代码是不可能的,所以,凡是编译型的语言,都没有这个问题,而解释型的语言,则必须把源码发布出去。
3)线程不能利用多CPU问题。


教材推荐

Eric Matthes:《Python编程:从入门到实践》
Wes McKinney:《Python for Data Analysis》


视频资料

https://www.bilibili.com/video/av4050443?from=search&seid=5565394064268278349(新版视频逐渐更新中)



每个软件都有自己独特的风格,有自己的优点,也有不少缺点。但不管怎样,我们手中都应该至少有一个利器,那么,你找到适合你自己的 Mr.Right 了吗?


注:文中部分表述为网络搜集而来,尽最大努力保证准确性,不过部分软件由于版本更迭,可能会出现功能的改进而与文中表述不同,阅读时请结合实际情况判断。










►往期推荐

回复【Python】👉简单有用易上手

回复【学术前沿】👉机器学习丨大数据

回复【数据资源】👉公开数据

回复【可视化】👉你心心念念的数据呈现

回复【老姚专栏】👉老姚趣谈值得一看


►一周热文

数据呈现 | 八图献礼祖国70华诞,我爱我的祖国

特别推荐丨老姚专栏:教科书没有讲的矩估计性质

数据呈现 | R绘制树图,透视长三角一体化层次关系

学术前沿 | DMSP-OLS夜间城市灯光数据文献综述

工具&方法 | “名牌包”:面板、时间序列模型常用R语言包





数据Seminar

这里是大数据、分析技术与学术研究的三叉路口


作者:威武哥(叶武威)
审阅:杨奇明编辑:青酱






    欢迎扫描👇二维码添加关注    



    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存