查看原文
其他

全面比较和概述运用机器学习模型进行时间序列预测的方法优劣!

计量经济圈 计量经济圈 2022-05-11


凡是搞计量经济的,都关注这个号了

箱:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

背景知识:1.机器学习之KNN分类算法介绍: Stata和R同步实现(附数据和代码),2.机器学习对经济学研究的影响研究进展综述,3.陈硕: 回顾与展望经济学研究中的机器学习,4.最新: 运用机器学习和合成控制法研究武汉封城对空气污染和健康的影响! 5.Top, 机器学习是一种应用的计量经济学方法, 不懂将来面临淘汰危险!6.Top前沿: 农业和应用经济学中的机器学习, 其与计量经济学的比较, 不读不懂你就out了!7.前沿: 机器学习在金融和能源经济领域的应用分类总结,8.机器学习方法出现在AER, JPE, QJE等顶刊上了!9.机器学习第一书, 数据挖掘, 推理和预测,10.从线性回归到机器学习, 一张图帮你文献综述,11.11种与机器学习相关的多元变量分析方法汇总,12.机器学习和大数据计量经济学, 你必须阅读一下这篇,13.机器学习与Econometrics的书籍推荐, 值得拥有的经典,14.机器学习在微观计量的应用最新趋势: 大数据和因果推断,15.R语言函数最全总结, 机器学习从这里出发,16.机器学习在微观计量的应用最新趋势: 回归模型,17.机器学习对计量经济学的影响, AEA年会独家报道,18.回归、分类与聚类:三大方向剖解机器学习算法的优缺点(附Python和R实现),19.关于机器学习的领悟与反思,20.机器学习,可异于数理统计21.前沿: 比特币, 多少罪恶假汝之手? 机器学习测算加密货币资助的非法活动金额! 22.利用机器学习进行实证资产定价, 金融投资的前沿科学技术! 
正文

关于下方文字内容,作者:王雨舟,美国威斯康星大学麦迪逊分校计量经济学,通信邮箱wang2555@wisc.edu

*读完这个之后再看看原文,内容非常丰富

作者之前的文章,1.社会网络计量经济学是什么?测度社会关系网中的同伴效应!2.拐点回归设计RKD概览, 及其开展实证研究的经典示例,3.2021年实证计量方法重点选题首次公开, 这可不可行?

Nesreen K. Ahmed, Amir F. Atiya, Neamat El Gayar & Hisham El-Shishiny (2010) An Empirical Comparison of Machine Learning Models for Time Series Forecasting, Econometric Reviews, 29:5-6, 594-621, DOI: 10.1080/07474938.2010.481556
In this work we present a large scale comparison study for the major machine learning models for time series forecasting. Specifically, we apply the models on the monthly M3 time series competition data (around a thousand time series). There have been very few, if any, large scale comparison studies for machine learning models for the regression or the time series forecasting problems, so we hope this study would fill this gap. The models considered are multilayer perceptron, Bayesian neural networks, radial basis functions, generalized regression neural networks (also called kernel regression), K-nearest neighbor regression, CART regression trees, support vector regression, and Gaussian processes. The study reveals significant differences between the different methods. The best two methods turned out to be the multilayer perceptron and the Gaussian process regression. In addition to model comparisons, we have tested different preprocessing methods and have shown that they have different impacts on the performance.
简介
自从1950年艾伦·图灵(Alan Turing)撰写的一篇名为《计算机械与智能》的纯理论文章问世以来,人们便踏上了尝试让计算机模仿人脑操作模式的探索旅程。在过去的几十年中,机器学习模型(尤其是神经网络)在预测领域展现出了巨大的潜力,在一定程度上动摇了经典统计模型的地位。
尽管先前的研究在分类领域和综合性的模型比较方面投入了大量精力,很少有人关注神经网络。此外,现有研究大多限于基本神经网络模型,而未曾对新兴的机器学习模型做全面的科学论述。由Makridakis and Hibon (2000)组织的M3竞赛包括3003个年度,季度和月度的时间序列商业数据。Ahmed et. al (2010) 通过对应用于M3竞赛数据(M3 Competition, 2008)的一组机器学习模型进行大规模比较研究填补了这一空白。这组模型包含了多层感知器(MLP),贝叶斯神经网络(BNN),径向基函数神经网络(RBF),广义回归神经网络(GRNN),K邻近算法回归(KNN),分类和回归树(CART),支持向量回归(SVR),高斯进程(GP)。
依据结果,研究者由好至坏对预测模型进行了最终排序:首先最优的模型是多层感知器(MLP),其次是高斯过程(GP),贝叶斯神经网络(BNN)和支持向量回归(SVR)几乎相同,然后广义回归神经网络(GRNN)和K近邻回归(KNN)也相近,随后是分类和回归树(CART) ,最后是径向基函数神经网络(RBF)。以上排名具有一般性,不会随类别的不同或功能的变化而改变,例如预处理方法上的差异。
模型比较与研究方法概述
Ahmed et. al (2010) 的研究过程可分成以下几部分:时间序列数据的预处理、模型参数的设定、模拟器设定和预测结果对比。首先,该研究只考虑各模型的基本版本,换言之,作者并未对后续研究者在原始模型基础上提出的增补和修改建议予以讨论。以下图表列示了各模型的基本特征:

在正式运用上述模型进行预测前,先要对选取的时间序列数据进行一定预处理。数据的预处理方式,也可以说是模型拟合过程中的输入值选择,可能会对随后的预测性能测试结果产生重大影响。本篇文章的作者对比了三种预处理方式:滞后值(LAGGED-VAL)、时间序列差异(DIFF)和移动平均(MOV-AVG)。第一种方式无需特殊处理,输入值即滞后的时间序列值,如 ,...,,要预测的值是下一期的数值。第二种方法是连续取时间间隔为n的两期数值的差,并对差值组成的序列进行预测。第三种方法要求对相邻几期的数据取平均并进行预测,通过这种方法可以消除干扰值的影响以此使预测模型可以专注于时间序列的全局特征。除此以外,作者还对数据进行了如下处理:1)取对数 Log transformation;2)消除季节性变动影响Deseasonalization;3)按比例缩放Scaling。
接下来,如何进行最优模型的选择呢?K折验证方法(K-fold Validation)在机器学习文献中一直占主导地位,在实证中展现出比Hold-out, Leave-one-out和bootstrap方法更高的准确性(Kohavi,1995)。在了解K-fold Validation前,我们首先需要了解机器学习的主要原理。在机器学习过程中,研究者一般会将数据集分为训练集和测试集,训练集用于拟合模型,测试集用来测试模型的效果,计算机通过不断修改模型参数重复“学习”过程从而完成优化。K-fold Validation的具体操作步骤如下:首先训练集被分为K个相等的部分,从中选取一个部分用于验证,其余K-1个部分用于学习,随后我们选取另一个部分替换原有的验证集,并再次以相同的步骤重复。以此类推,在进行K次训练和验证后将获得K个误差值(validation error),研究者将通过比较误差值来选取最优的模型或者最优的模型参数。
Ahmed et. al (2010) 选用symmetric mean absolute percentage error(SMAPE)来衡量模型误差,选择基于方法表现排名的multiple comparisons with the best (MCB)来进行显著性检验,还有另一个基于排名的度量方法是“fraction-best”(或简称为FRACBEST)。SMAPE作为M3数据的主流误差衡量方式,定义如下:

其中,为预测对象,的估计值,M为观测值数量。SMAPE越小,说明模型的拟合度越高。为了尽量减少随机初始权重以及参数估算的差异带来的干扰,研究者将每个模型重复运行十次。十次实验误差的均值记为overall SMAPE(SMAPE-TOT),也是文中模型排名的主要依据。

预测效果分析
以下图一至图三分别列示了八个预测模型在预测滞后值(LAGGED-VAL)、时间序列差异值(DIFF)和移动平均值(MOV-AVG)三类数据时的表现。

图一 滞后值(LAGGED-VAL)预测

图二 时间序列差异值(DIFF)预测
图三 移动平均值(MOV-AVG)预测
从图中可以分析得出,八个模型在LAGGEDVAL和MOV-AVG两种数据的预测中表现出相似的预测能力排序:MLP>GP>BNN,SVR>KNN,GRNN>CART>RBF。唯一的区别是BNN在LAGGED-VAL中排名第四,而在MOV-AVG中排名第二(以SMAPE大小为衡量标准)。相对而言,八个模型DIFF预处理数据的预测表现要差得多,效果排序也大不相同:CART≈GRNN>GP>KNN>SVR>BNN>MLP>RBF。由于DIFF的预测表现不甚理想,可重点关注具有一致性的LAGGEDVAL和MOV-AVG排名结果。

图四 基于数据类别的滞后值(LAGGED-VAL)预测

图五 基于其他分类方法的滞后值(LAGGED-VAL)预测
为了进一步了解比较结果,研究者对M3时间序列的数据进行了不同的分类后进行预测效果对比。图四展示了宏观,微观,行业,金融和人口统计分类下的预测效果。图五展示了趋势是否存在、季节性是否存在以及是否选择零隐藏节点(即线性回归)下的预测效果。
根据以上结果不难看出,不同的机器学习模型之间具有很大差异,且他们在预测效果上的排名是很明确的。与此同时,他们在Ahmed et. al (2010)所设定的不同情境和不同数据分类基础上表现出了较为明显的一致性,由此可以说他们在预测效果上的排序(基于M3数据和SMAPE)是独立于大部分数据特征而具有普遍性的。

结论
综合对比结果发现,MLP和GP模型是最好的两种模型,他们在不同的数据预测中均表现出较低的平均误差。有趣的是,GP在八个模型中表现出较好的稳健性,它在DIFF数据组中也有较好的预测效果。GP虽然很早就出现在了学术界,但直到最近才收到较为广泛的关注。MLP模型表现出较为优秀的预测结果一部分是因为它具有将变量间的关系简化为线性的能力。很多研究结果包括M3的结论之一都提出了简单模型往往胜过更复杂的模型。
机器学习方法的理论探索和预测表现的对比研究在当下和未来一段时间内都将是十分有意义的。在机器学习的实际操作中,许多人为设定比如神经网络层数选择和激活模型选择依旧在很大程度上依赖于经验法则。除此之外,更加系统和全面的对比研究也不可或缺。在大数据和人工智能时代,拥有众多分析工具和模型的情况下,如何依据个体的目标和预测需求选择合适的模型将是数据分析师和研究人员今后重点关注的问题之一。


关于一些计量方法的合辑,参看实证研究中用到的200篇文章, 社科学者常备toolkit”、实证文章写作常用到的50篇名家经验帖, 学者必读系列过去10年AER上关于中国主题的Articles专辑AEA公布2017-19年度最受关注的十大研究话题, 给你的选题方向2020年中文Top期刊重点选题方向, 写论文就写这些。后面,咱们又引荐了使用CFPS, CHFS, CHNS数据实证研究的精选文章专辑!这40个微观数据库够你博士毕业了, 反正凭着这些库成了教授Python, Stata, R软件史上最全快捷键合辑!关于(模糊)断点回归设计的100篇精选Articles专辑!关于双重差分法DID的32篇精选Articles专辑!关于合成控制法SCM的33篇精选Articles专辑!最近80篇关于中国国际贸易领域papers合辑!最近70篇关于中国环境生态的经济学papers合辑!使用CEPS, CHARLS, CGSS, CLHLS数据库实证研究的精选文章专辑!最近50篇使用系统GMM开展实证研究的papers合辑!
下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存