查看原文
其他

前沿: 机器学习在金融和能源经济领域的应用分类总结

计量经济圈 计量经济圈 2021-10-23

凡是搞计量经济的,都关注这个号了

稿件:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

关于机器学习在计量分析中的应用,各位学者可以参阅如下文章:1.Python中的计量回归模块及所有模块概览2.空间计量软件代码资源集锦(Matlab/R/Python/SAS/Stata), 不再因空间效应而感到孤独3.回归、分类与聚类:三大方向剖解机器学习算法的优缺点(附Python和R实现)4.机器学习第一书, 数据挖掘, 推理和预测5.从线性回归到机器学习, 一张图帮你文献综述6.11种与机器学习相关的多元变量分析方法汇总7.机器学习和大数据计量经济学, 你必须阅读一下这篇8.机器学习与Econometrics的书籍推荐, 值得拥有的经典9.机器学习在微观计量的应用最新趋势: 大数据和因果推断10.机器学习在微观计量的应用最新趋势: 回归模型11.机器学习对计量经济学的影响, AEA年会独家报道12.机器学习,可异于数理统计13.Python, Stata, R软件史上最全快捷键合辑!,14.Python与Stata, R, SAS, SQL在数据处理上的比较, 含code及细致讲解15.Python做因果推断的方法示例, 解读与code16.文本分析的步骤, 工具, 途径和可视化如何做?17.文本大数据分析在经济学和金融学中的应用, 最全文献综述18.文本函数和正则表达式, 文本分析事无巨细

前几日,我们引荐了“机器学习方法出现在AER, JPE, QJE等顶刊上了!,在学术同行间引起巨大反响。机器学习方法逐渐在经济管理等社科类顶刊,如AER,JPE,QJE,JOF等期刊上出现了。为了进一步了解机器学习在国外最新应用动向,我们为各位学者奉上“机器学习在能源经济和金融领域的应用”。对机器学习方法感兴趣的学者,建议认真研读该篇文章及其附上的参考文献。
必看: 计量经济圈公众号搜索功能及操作流程演示 (戳前面)

正文

关于下方文字内容,作者:张芷宁,东北财经大学金融学,通信邮箱:zhangzhining510@163.com
作者之前刊发的作品:气候经济学能发Nature,Science的三大热点问题!
该文献(见文后reference)通过对2005年-2018年间发表的130多篇论文进行梳理分析表明,支持向量机(SVM)、人工神经网络(ANN)和遗传算法(GAs)是能源经济学论文中最常用的方法。同时,文章还对机器学习的方法、应用、优缺点以及未来可以拓展的领域进行了细致的总结。主要聚焦于以下几个问题:1、哪些方法在能源经济学中被频繁的使用,哪些方法未被充分利用,为什么?2、在能源经济和金融领域,哪些具体应用比较受欢迎,但还没有得到充分开发?3、能源经济和金融领域可以从其他领域借鉴什么?4、这些领域未来的研究机会是什么?

简介

机器学习(ML)是指一类能够从数据中学习并随着时间的推移不断提高其性能的数据科学模型,它在处理一些无法由解析解(analytic solution)明确说明的任务上很有用,这使其在能源工业的一些研究中很受欢迎,包括石油天然气的开采、风力电力系统的一些故障、负荷预测等等。同时,它也被广泛地运用于能源市场中的一些经济金融分析,例如价格预测和风险管理。和传统的统计或计量模型相比,由于ML没有对方程的函数形式、变量之间的相互作用和参数的统计分布做出任何预先指定的假设,所以可以处理大量结构化和非结构化的数据并快速的做出决策或预测。
通过对文献的整理,作者发现对原油和电力价格预测是目前为止ML在能源经济和金融领域最受欢迎的应用。而就方法而言,人工神经网络是一种广泛使用的技术,近些年支持向量机的研究也得到了广泛关注,而与二者相比,深度学习(DL)在这个领域还不太常见。
同时,作者明确了以下问题:
1、本文主要是对能源经济与金融市场的ML应用进行深入的发掘与分析,因此不提供关于能源工程中ML应用的深入探究。
2、Weron(2014)回顾了电价预测的方法,虽然没有特别关注ML技术,但也可以作为本文的补充。
3、经济学界主要关注ML在理论检验和因果推断方面的能力和限制,而能源领域则对实际的应用更感兴趣

研究方法

首先再次框定本文研究范围—能源经济和金融领域与能源工程领域的边界并不明晰,而本文的主要研究对象是广义的能源经济学/金融学应用。所谓“广义”即定义为涉及有关类型的市场变量(如价格、投资和消费者最佳行为以及公共政策)的问题。
然后说明用来识别文献双重检索办法(double checking)的方法:
1、识别期刊:找到可能发表ML技术在能源领域应用的刊物,具体方法是在一些文献索引【SCImago Journal Rank (SJR), Science Citation Index Expanded (SCIE), Social Sciences Citation Index (SSCI), and Arts & Humanities Citation Index (A&HCI)】中寻找能源相关和经济相关的期刊。
2、找关键词:利用下表中的关键词库进行搜索

指出没有包括的文献及理由:本研究不包含三种专门的电器工程期刊【IEEE Transactions on Power Systems, Electric Power Systems Research, and International Journal of Electrical Power & Energy Systems】,因为其他关于电力市场预测的调查对这类论文提供了更深入、专业的分析。
指出可能遗漏的问题及原因:
1、可能忽略了在主流经济学期刊之外刊物上发表的论文,所以统计出的结果可能偏低。但是由于本文的目标是对相关论文的内容和方法进行深入的阐述和总结,而非单纯的统计分析,因此这一问题并不严重。
2、还可能会漏掉一些ML在能源行业的应用进展,例如一些专有技术,因为这些都是不可公开获取的,这也导致了对该领域前沿水平一定程度上的低估。

调查结果统计

ML应用领域如下图所示,其中价格预测占比最大

2005年-2018年文献的总体数量和累计数量如下图所示

具体总结:应用领域

一、能源价格预测
能源商品价格序列具有典型的非线性、滞后依赖、非平稳性、波动聚类等复杂特征,由于ML在处理复杂的内部动态时有较高的灵活性,因此可以更好的处理这类问题。目前的绝大多数论文要么预测原油价格,要么预测电力价格,预测天然气价格的很少。而且,在当今以煤炭作为主要能源的情况下,还没有任何使用ML技术来预测煤炭价格的论文。
1、原油价格预测,有关文献整理如下:
 作者    研究内容  
 Moshiri  and Foroutan (2006)           早期成功案例之一,运用非线性的人工神经算法模型来预测未来石油价格日序列  
 Yu  et al. (2008)    首次尝试使用不同ML模型的集成,使用基于经验模态分解(EMD)的神经网络集成学习(NNEL)  
 Ding  (2018)    把上述(Yu et al.)方法扩展到预测油价的最后一个集成步骤  
 Jammazi  and Aloui (2012)    将多层次的神经网络与小波分解相结合,优化了对油价的预测  
 Yu  et al. (2017b)    提出了将稀疏表示(SR)和前馈神经网络(FNN)相结合的一种集成预测方法,结果表明该方法优于其他流行的预测模型和分解模型  
 Godarzietal.(2014)    建立了一个带有外生输入变量的动态非线性自回归模型(NARX)  
 Zhang  et al. (2015)    采用集合模态分解(EEMD)将国际原油价格分解为一系列独立的内在模函数(IMFs)和残差项。 还分别结合粒子群算法(PSO)和GARCH模型,发展了支持向量机最小二乘法,分别用于预测原油价格的非线性和时变部分  
 Chai  et al.,(2018)    早期的模型通常使用自回归结构,然而最近的一些论文使用了一种混合方法,可以处理输入的大量变量,如供求、股价水平和金融市场指标等  
 Dogah  and Premaratne (2018)    将VAR模型与随机森林技术相结合,研究了金砖国家石油风险因素变化对行业股票回报率的影响,克服了VAR建模中的一些缺点  
 Yu  et al. (2014)    将压缩感知的去噪(CSD)和人工智能方法(AI)相结合,提出了一种基于压缩感知(CSD-AI)的学习范式。结果表明CSD-AI学习模式明显优于其他模型,包括不适用CSD过程的单一模型和使用其他去噪技术的混合模型  
 Wang  and Wang (2016)    提出一种结合多层感知机和Elman型反馈神经网络(ERNNs)的神经网络结构,这是一种具有随机时间有效函数(stochastic time  effective function)的时变预测系统。他们发展出的这种ERNN具有记忆近期事件来预测价格的能力  
 Zhao  et al. (2017)    使用DL算法进行原油价格预测,将多层去噪自编码器(SDAE)和自举汇聚法(bagging)相结合。 
 Tang  et al. (2015a)    提出了一个集成学习耦合的补充总体经验模态分解(CEEMD)和扩展极限学习机(EELM)来提高原油价格预测的准确性。结果表明,该模型可以作为预测高波动性、高不规则性的复杂时间序列数据的有效工具  
 Zhu  et al. (2016)    利用EEMD、PSO和最小二乘支持向量机(LSSVM)以及核函数原型,开发了一种自适应多尺度集成学习范式  
 Cheng  et al. (2018a)    利用对数周期幂律和多种群遗传算法预测油价拐点  
 Safari  and Davallou (2018)    将指数平滑模型(ESM)、ARIMA和NARNN结合在一个状态空间模型框架中  
 Cheng  et al. (2018b)    结合向量误差修正模型和NARNN模型,提出一种混合模型(VECNARNN)来预测未来的原油价格。结果表明,与GARCH、VAR、VEC、NARNN等传统模型相比,它具有更好的预测精度  
 Yu  et al. (2016b)  
 Huang  and Wang (2018)    将小波神经网络与随机事件有效函数相结合  
 Zhao  et al. (2018)    将向量趋势预测方法(VTFM)应用于油价预测  
Sun  et al. (2018)    基于区间分解集成学习(IDE)的方法来预测原油价格,这一方法在预测精度和假设检验方面明显优于其他的一些基准模型,表明“分而治之”的策略的确可以有效地提高原油价格的预测性能  
2、电力价格预测
由于系统运营商运行的可行性要求,电力市场是日前市场。而且电力价格预测是一个复杂的过程,因为价格会受到发电和输电的物理约束,以及市场力量的潜在作用。这类预测与原油价格预测的差别包括电价模型要使用很多物理变量如温度、风速、产量和输电能力等来提高预测的准确性。因此,ML的运用是很恰当有效的,它甚至可以不用经过复杂的预处理和清洗过程,直接处理大量的输入变量。同时,因为电价模型通常是由精通CI方法的电力,一般来说在技术上更为先进。

类型作者研究内容
allConejoetal.(2005)预测了电力日前市场24个市场出清价格,比较了时间序列分析、神经网络分析和小波分析的性能
Lin et al. (2010)结合径向基函数网络(RBFN)和正交实验设计(OED),提出了一种强化的RBFN(ERBFN)求解过程
Khosravi et al. (2013)利用delta和脱靴法构建了用于量化不确定性的电价预测区间(PIs),结果表明预测区间的性能由于人工神经网络
Papadimitriou et al. (2014)基于支持向量机预测未来一天电价定向变化的效率。结果表明,这是一种有效的方法,200天的预测精度为76.12%
He et al. (2015)结合径向基函数网络(RBFN)和正交实验设计(OED),提出了一种强化的RBFN(ERBFN)求解过程
集成方法Mirakyanet al.(2017)将集成方法运用于电力市场
Ghasemi et al. (2016)提出一种包含了一个灵活的小波变换(FWPT)、非线性最小二乘支持向量机(NLSSVM)、ARIMA和基于时变系数的人工蜂群算法,即TV-SABC的混合算法,来优化学习过程中NLSSVM在学习过程中的参数
多层神经网络Dudek (2016)基于前馈神经网络(FFNN)的电价预测方法,优点是它不需要任何特殊的数据预处理
PanapakidisandDagoumas(2016)研究了基于人工神经网络的日前价格预测模型
Wang et al. (2017)提出了一种两层分解技术,开发了基于快速集成经验模态分解(FEEMD)、变分模态分解(VMD)和BP神经网络的混合模型,并用基于群智能的算法对其进行优化
Singh et al. (2017)运用广义神经元模型预测澳大利亚电力市场短期电价,克服了传统ANN模型的局限
Yang et al. (2017)提出了一种结合小波变换、基于自适应粒子群算法(SAPSO)的核极限学习机模型(KELM)和ARMA混合方法
Bento et al. (2018)基于蝙蝠算法(BA)、小波变换和神经网络的短期电价预测方法
深度学习Lago et al. (2018a)通过四种不同的深度学习模型实现了高精度
Lago et al. (2018b)以深度神经网络(DNNs)为基础模型,将市场整合纳入电价预测
Pengetal. (2018)将长短时记忆(LSTM)与差分进化(DE)算法应用于电价预测
代理模型(ABM)注:主要优点是能在不需要完全解决博弈论最佳相应的基础上对现实电网中的行为策略进行建模Chen (2012)回顾了ABM研究领域的内容和起源
Weidlich and Veit (2008)将ABM应用于电力市场
Guerci et al. (2010)将ABM应用于电力市场
Young et al. (2014)能否使用改进的Roth和Erev算法构建和校准代理模型预测现实电力市场中的短期价格
Dehghanpour et al. (2018)运用代理模型研究了有空调负荷需求响应的零售电能日前市场行为

3、其他能源商品价格预测
包括柴火 (Koutroumanidis et al., 2009), 天然气(Nguyen and Nabney, 2010; ˇCeperi´c et al., 2017)和碳价(Fan et al., 2015; Zhu et al., 2017; Sun et al., 2016; Zhu et al., 2018)。
二、预测建模能源的消耗或供求
为了进行短期和长期的规划,了解未来的能源需求和消耗水平是至关重要的。能源消耗预测通常使用滞后的消耗值和一组外生的社会经济和技术变量,如人均GDP、人口和技术趋势等。和之前的价格预测相比,消耗预测的一个关键特点是不受市场效率动态的影响。
1、长期预测
ML模型目前已经被应用于对总能源需求和各部门能源需求的长期预测。但是挑战在于,此类应用中的观测值往往较少,削弱了ML方法的固有优势。
一些文献运用神经网络模型预测国家层面能源的消耗:
  • Sözen and Arcaklioglu (2007) and Sözen et al. (2007)使用人工神经网络预测土耳其的各部门能源消耗和温室气体排放

  • Geem and Roper (2009)用人工神经网络估计韩国的能源需求

  • Liu et al. (2016)将灰色预测方法与BP神经网络模型相结合,对西班牙经济部门的能源消耗进行预测

此外,该领域还有如下研究:
  • Tang等(2012)提出了EEMD和最小二乘支持向量回归(LSSVR)相结合的混合集成学习(EL)范式,用于核能消费预测

  • Tang等(2014)提出了一种由数据特征驱动的建模方法来用于核能消费预测

  • Li等(2018)预测了能源消费的非线性变化,运用AdaBoost来提高单一非线性预测模型的预测精度

  • Wang等(2018g)通过构建自适应多节优化器(AMVO)来优化SVM参数,并应用滚动交叉验证来提高其性能,从而预测中国的能源消耗

  • Wang等(2011)采用季节分解(SD)的LSSVR集成学习模型进行中国水电消费预测

  • Tang等(2015b)通过将萤火虫算法(FA)整合到LSSVR中来预测中国的水电消耗

2、电力需求预测
电力需求预测是能源经济学中的传统研究领域之一,该研究方向有关论文的整体结构和组成大部分比较相近,即使用传统的时间序列模型,SVM,人工神经网络,以及最近的前馈和反馈多层模型,GAs和PSO也经常被使用.
3、智能电网负荷预测
与国家层面的预测相比,ML更适合这种短期电力的需求预测,因为它设计对大量潜在输入变量的高频观测,ML能够充分发挥它的优势.
有一些利用ML来研究电力负荷预测的文献,例如Liu et al. (2014), Coelho et al. (2016), Bassamzadeh和 Ghanem (2017), Mohan et al. (2018), Anderson et al. (2011) and Li et al. (2018b).还有一个相关的研究方向是对电网故障概率的预测,Rudin等人(2012)提出了一种基于电网组件故障可能性的排序算法.
4、天然气需求预测
作者列举了一些预测天然需求的论文:Azadeh et al. (2010), Szoplik (2015), 和Panapakidis和 Dagoumas (2017),
并详细讲解了一些论文的研究内容:
  • Ozmen等(2018)将多元自适应回归样条法(MARS)和二次MARS(CMARS)应用于天然气消费预测

  • Collado和Creamer(2016)使用近似动态规划方法将时间序列方法(ARIMA)和两种机器学习算法(支持向量机和随机森林)相结合,来预测天然气价格

5、交通运输能源需求预测
  • Murat和Ceylan(2006)提出了一种基于监督神经网络的方法,通过社会经济和交通相关指标对交通能源需求进行预测

  • Limanond等(2011)运用了对数线性回归(LLR)结合ANN模型来预测泰国的交通能源消耗

  • Geem(2011)开发了ANN模型来预测韩国的交通能源要求

  • Forouzanfar等(2012)提出了一种多层次的遗传规划(MLGP)方法来预测伊朗的交通能源需求

6、煤炭需求预测
利用ML技术进行煤炭消耗量预测的文献较少,如Yun-cai (2003), Xuemian and Guohao (2008), and Yang et al. (2014).Jia等(2007)采用多输入单输出支持向量机模型对1980-2002年中国煤炭需求进行预测.
三、其他应用
1、模型校准
  • Sun等(2011)利用神经网络对能源供需系统的参数进行了识别

  • Amjady和Keynia(2010)提出了一种新的学习算法运用于放松管制的电力市场

  • Genc(2017)使用SVM模型对2009年危机前后的数据进行了分割,并对原油市场进行了计量分析

2、交易策略
这一研究方向属于ML和优化模型相结合的一个小子集
  • Moreno(2009)提出了一个基于模糊逻辑和ML的模型来模拟哥伦比亚电力市场中的交易代理人策略

  • Wang等(2016)运用GAs对原油期货市场的交易规则进行了筛选

  • Pinto等(2016)将支持向量机运用于电力市场的投标策略

3、能源系统结构
  • Fang等(2013)使用人工神经网络来识别实际系统中的定量系数

  • Farajzadeh和Nematollahi(2018)使用WNNs检验回归模型预测能源强度的能力和其组成部分

  • Ermis等(2007)通过神经网络对世界绿色能源消耗进行了分析

  • Ju等(2016a)利用支持向量机,对19个主要是由相关国家/地区因油价意外变化而产生的宏观经济效应进行了补充解释

  • Ju等(2016b)利用人工智能预测中国宏观经济于油价冲击之间的联动

  • Skiba等(2017)利用ANN模型估计了潜在的能源节约

  • Sozen(2009)使用ANN方法,根据基本能源指标和部门能源消耗来估计土耳其的能源依赖

  • Wang和Tian(2015)利用前馈神经网络(FFNN)构建能源价格-能源供给-经济增长动态系统

  • Zhang等(2016)提出了电力供应-消费-价格的动态系统模型,应用神经网络来识别系统的参数.

4、政策分析
  • Azadeh等人(2007)运用ML来测量效率,作为以往效率研究方法的补充.

  • Cinar等人(2010)将GAs运用于未来能源发展的设想和土耳其能源的战略研究

  • Granell等(2014)将几种ML方法应用于评估企业转换电价的收益或损失

  • Dagoumas等(2017)利用日前电价预测的ANN模型研究电力商的风险管理

  • Skiba等(2017)利用ANN模型估计了潜在的能源节约

  • Mashhadi和Behdad(2018)使用最小绝对收缩和选择算子(LASSO)回归分析住宅单元的能耗

  • Mahmoud和Alajmi(2010)使用人工神经网络对节能进行定量评估

  • Wang等(2018a)提出了一种混合ML方法对中国煤炭产能过剩问题进行了定量分析和预测

5、数据处理
在许多应用程序中,数据的完整性和质量在整个过程中很重要,数据缺失会带来各种各样的问题.而ML是一个识别离群值、推测缺失数据的强大工具,并可以缓解与不完整数据相关的潜在问题(Abdella and Marwala, 2005; Nelwamondo et al., 2007).Li等(2017)在大数据驱动的模型中采用人工智能算法对油价趋势进行了预测.Zhang等(2018)应用支持向量机、AdaBoost等机器学习方法对数据进行挖掘和分析,结论表明机器学习方法能够有效的解决能耗数据缺失的问题.
四、不同的机器学习技术比较
1、支持向量机:
优势:总体上的准确性、分类速度、对不相关特征的容忍度、对冗余特征的容忍度、对高度相互依存特征的容忍度、可以建立线性与非线性模型、可处理二分类和连续的特征
局限性:学习的速度、对缺失值的容忍度、对白噪声的容忍度、处理过度拟合时的风险、对于增量学习的尝试(可能是说SVM目前尝试不出来增量学习)、解释能力差、模型参数处理
代表性应用:分类、回归、时间序列预测
2、决策树:
优势:学习速度、分类速度、对缺失值的容忍度、对高度相互依存特征的容忍度、解释能力、模型参数处理、可处理过度拟合问题、可处理二分类和连续特征、可以用不同的代价(损失)函数处理特征
局限性:总体上的准确性差、对冗余特征的容忍度、对高度相互依存特征的容忍度、对白噪声的容忍度、对于增量学习的尝试、误差的上限
代表性应用:分类、回归、信用风险模型、市场细分、时间序列预测
3、随机森林:
优势:无过拟合问题、对若干个树结果的集成、误差的上限、白噪声具有稳健性、是基于树的算法里最快的、对变量的分割节点不是很敏感(比如老人是多少岁以上的?这种)
局限性:运行的时候是在黑箱里的、解释能力差
代表性应用:分类、回归、时间序列预测
4、AdaBoost:
优势:无过度拟合问题、具有特征选择能力、使误差项的偏差最小、树的更新(交替决策树)可以促进对结果的解释、误差的上限
局限性:增加了响应的差异(响应简单地说也叫伪残差..直接叫响应也行)、表现依赖于数据的质量和数量以及弱分类器、对白噪声的容忍度
代表性应用:分类、排序
5、人工神经网络:
优势:分类速度快、可处理二分类或连续特征、对于增量学习的尝试
局限性:对缺失值的容忍度、对不相关变量的容忍度、对冗余变量的容忍度、对白噪声的容忍度、处理不好过拟合问题、解释能力差、模型参数处理能力差、黑箱子
代表性应用:时间序列预测
6、深度学习:
优势:和人工神经网络类似
局限性:黑箱子、需要极其大量数据
代表性应用:视觉和声音的处理、时间序列预测

优缺点评价

一、预测精度上的优势
有关文献通过计算一些绩效评估指标和进行统计检验来验证机器学习在预测精度上的优势.
1、绩效评估指标
在对连续变量进行回归或预测的文献中,主要运用均方根误差(RMSE),平均绝对误差(MAE),平均绝对百分比误差(MAPE),方向精度(DA).运用ML进行分类的文献中则通常使用Matthews相关系数、测试误差或准确率来评估ML方法于其他统计和计量方法相比的预测准确性.
Safari和Davallou(2018)基于上述一些指标进行来比较不同方法的性能,结果如下表所示:

可以看出,EWH方法要优于ARIMA在内的其他方法.
2、统计检验
比较ML和计量经济模型预测结果的统计检验方法包括Wilcoxon符号秩检验(WSRT),Forecast Encompassing Test(FET)和真实性检验(RC)等.作者分别简单介绍了上述三种统计检验:   Wilcoxon符号秩检验是最著名且使用最广泛的非参数检验,原假设是两个预测误差序列的损失函数差值的中位数为0;
FET的原假设是模型B中的所有信息都包含在模型A中;
RC则是进行了预测能力的测试,零假设为模型A的预测能力并不优于模型B。
赵等学者(2017)应用上述三种测试对机器学习模型以及随机游走(RW)、马尔科夫状态转换(MRS)等计量经济学模型进行了评估,构建的场景为原油价格的预测,结果如下表所示。

从表中(表中数据为两两之间的p值)可以看出,SDAE-Bagging模型与其他模型之间的p值均小于0.1,且根据赵的原文可知,该模型的DA最高,MAPE和RMSE最低,表明预测精度优于其他模型。
二、可处理不同种类和大量的输入项
机器学习模型对变量的格式要求极低。在处理大量以及多维数据时,不需人工降维与考虑共线性问题,可以自动选择用于预测目的的正确因素,深度学习模型更是如此。同时,定量和定性数据可以同时出现,这一优点对能源部门极为重要。
三、具有发现复杂关系的能力
机器学习模型会找到输入和输出数据之间可能存在的关系结构。对于传统模型,贝叶斯平均模型(BMA)允许运行一系列模型,但需要提前制定每个模型的结构,但机器学习模型则会自动找到更高维、更复杂,以及非线性的关系。
四、对数据质量的敏感性较低
对于传统的计量经济学模型来说,观测数据的缺失现象不可避免,而机器学习模型中,已开发了模糊模型与GNN模型等对数据质量要求较低的模型。Alobaidi et al.(2018)基于此类集成模型提供了对于低质量数据性能提升的简介。
五、对数据的预处理要求低
时间序列数据通常需要进行数据预处理,这耗费了大量的时间。但由于机器学习模型可以将这些特征视为数据的附加特征,不需要对数据进行大量的预处理,机器学习模型会自动发掘使性能提高的特性,并呈现到结果中。与此同时,若是需要对数据进行转换(例如将绝对数变为增长率),主动的预处理对提高性能也是可行的,即数据预处理并不是必要的。
六、可灵活运用于回归、分类或排名领域
机器学习模型中,监督类算法可运用于回归、分类或排序领域,根据研究问题的不同,可自由改变输出项,例如:可将预测问题转化为分类问题,以简化计算。
七、局限性与挑战:
1、性能问题
预测的精度会根据基础变量的不同差距较大,当基础变量为高效市场中的交易资产,预测的准确性就会受到挑战,因为市场价格的结构已经非常接近模型所能预测的价格(Ceperic et al. (2017))。
2、过拟合问题
任何预测方法都有过拟合的风险,机器学习也不例外。比如当拟合模型中包含样本噪声,尝试进行数据预测时会达到很高的精度。处理的方法常使用交叉验证,以计算测试误差,在这种情况下,测试误差近似于底层分布的真实测试误差。而随机森林等算法已包含了交叉验证的过程。
3、泛化能力问题
机器学习算法的一个主要目的是最小化可计算的经验风险,来最小化不可计算的预期风险,从而获得较低的泛化差距,但泛华差距成为了制约许多机器学习模型应用的瓶颈(如前馈神经网络)。正则化对泛华误差起到修正作用,包括隐式和显式两类,它们都对网络的有效容量起到控制作用:其中隐式正则化利用网络结构、学习算法或数据的特点来控制有效容量(如随机梯度下降,卷积层,批量归一化);显式正则化则与隐式相反,不是网络结构、算法或数据的结构部分,很容易添加或删除(如权重衰减、dropout算法、数据增强与随机深度)。
4、自然黑箱问题
以ANN和SVM为代表的机器学习算法,被认为是黑箱型算法。与更透明的线性回归模型相比,很难对结果进行解释。但也有一些算法提供了对每个特征影响的识别,并识别了特征之间的线性和非线性能力,典型例子为决策树。
建模师需解决的主要问题是,重心放在预测还是解释,这需要对于特定场景灵活选择。
5、对大量数据的要求
宏观经济领域由于数据量较少(常为50-100),无法使用机器学习模型。Dietterich(2000)认为可以使用集成学习方法弥补,Moshiri和Cameron(2000)等学者认为可以使用经济理论指导变量选择。
6、缺乏统计检验
由于机器学习不再关注计量经济学中的回归系数,而是关注预测结果的精度,缺乏对自变量的检验,近年学者正在尝试开发。
7、对稳健性的评估
由于机器学习算法的非线性和动态性,常常稳健性较差。因此在使用机器学习算法进行建模时,常将数据集分成训练集与测试集,检验其稳健性。
8、专注于市场价格的预测
由于机器学习算法的推行会影响人们的行为,故具有外部性,例如当用于预测交易资产价格时,会立即影响人们的决策,进而影响价格。因此,一个机器学习算法的成功会对下一个算法造成阻碍,其推行是有限制的。

未来方向的建议

一、现有做法的提升空间:
1、计算机科学和经济金融分析思维,没有充分结合,大多数文献都是专注于其中一方
2、目前,非监督的学习方法应用非常有限,大多数文献使用的都是监督学习算法
3、一些和营销与客户管理相关的问题可以通过使用集群技术来解决,如运用K-means聚类算法根据人数统计、行为特征以及违约可能性来划分客户
4、在能源风险管理领域,利用主成分分析或排序算法可以将极端的事件识别为离群值
二、未被充分利用的方法:
1、理论驱动的机器学习方法:目前没有发现任何文献中有理论模型和机器学习的结合应用。因此,这个待开发的领域中可能蕴含着结合理论和方法从而获得更稳健分析结果的机会。
2、深度学习:深度学习上的进步对于机器学习来说是革命性的。它能够更稳定的处理大量的输入变量,对预处理的要求也不高。但是存在的问题就是:首先,在处理大量输入变量时它才能更好的发挥自身优势,而且需要更多时间和精力校准。所以,如果实际问题中没有那么大的数据量,容易有“杀鸡用牛刀”之嫌
3、自然语言处理:在目前经济管理领域,很多研究都用机器学习处理文本和非结构化数据,然而这种方法还没有被广泛应用于能源领域。
4、社会网络分析:能源市场其实也是一个巨大的网络,也可以看作多种网络的结合。所以将社会网络分析拓展到对能源网络的分析也是一个具有很大潜力的领域。
三、未被充分发掘的领域
1、波动率预测:ML算法目前已经被应用于金融数据波动率的预测,而对于能源市场风险管理的应用很少。对波动率进行建模包含着机遇与挑战:挑战在于标准的ML模型中包含二阶矩聚类的概念,优点是波动率不受市场效率的影响。目前一个尝试是,Afkhami等人(2017)和Wang等人(2018c)等人利用互联网情绪来预测能源价格波动。
2、量化非结构化和定性信息:ML能够很好的量化并分类非结构化和定性数据,将其运用于预测和因果推断,这类方法目前已经在能源领域得到了应用。但是,未来还有很大的研究空间,例如转换不同公司的财务报告和媒体信息来确定他们的能源环境方面的状况,或者使用基于GIS的数据来估计能源生产和消耗模式,以及使用情绪和社交媒体信息更好地预测电力消耗。
3、因果和横截面推断:关于ML和因果推断的理论讨论可以参考Grimmer(2015)和Athey(2015)。一般来说,时间序列模型是能源经济学领域的主要分析形式。Hajko(2017)是极少数的例外,他试图在研究中找出能源消耗和经济增长之间的因果关系。
4、交易策略:和波动率类似,目前在经济市场中研究人员经常用ML技术来制定交易策略、设计交易系统使交易最大化。但在能源市场,除了诸如Wang等(2016)的一些论文外,关于ML在能源市场交易策略上的运用还是很少。
5、基于机器学习的优化:几乎没有论文将ML与优化技术相结合来解决管理或策略问题,然而这样的组合已经被用于其他领域,如投资组合优化(Ban等2016)和供应链(Chi等2007)因此,分析最优行为是一个待挖掘的领域。
四、ML/AI技术的影响
ML这种高科技技术能够替代或者补充人工的一些技能,这将对能源市场乃至其他领域都有变革性的影响。这种影响也会带来行业的结构调整,催生出新型市场结构和参与者。未来的研究也可以围绕ML对能源效率、智能网络、能源生产成本、能源交互和市场效率以及行业劳动力等领域的影响识别与分析展开。特别是随着气候变化问题关注度提高,可再生能源的利用和智能电网的普及,ML/AI可以更快地了解消费者这些方面的需求。最后作者不完全地总结了目前可围绕ML/AI技术展开的开放性问题:
1、缓解可再生能源间断性问题
2、探究自动驾驶汽车对各种能源需求的影响
3、智能楼宇及其能源管理系统对整体能源需求的影响,以及能源分布模式
4、ML本身对于能源消耗和气候问题目标的积极影响(提高了能源利用效率)和消极影响(为了计算而耗费的大量电力)
5、更智能的能源系统可能带来的反弹问题
6、当前和未来能源行业劳动力所需要具备的新技能
7、人机如何最佳契合来更有效地管理能源系统

结论

本文通过回顾大量能源经济与金融应用领域的文献,得出以下四条结论:
1、原油和电力价格预测是最受欢迎的应用领域;
2、支持向量机(SVM)、人工神经网络(ANN)、遗传算法(GA)和粒子群优化算法(PSO)是最常用的算法;
3、大部分论文使用的是价格时间序列等结构化的数据,很少处理非结构化和定性的输入;
4、深度学习目前存在未开发的领域。
这两个领域将透明的经济驱动模型与黑箱型机器学习进行了结合,并可以使用深度学习等方法获益。但由于能源商品市场效率较高,使用复杂方法预测价格的好处可能有限,且市场可能由于其他参与者的行为变得高效,进一步削弱收益。同时,机器学习模型在预测市场风险和风险管理中可以很好运用。
作者认为,由于不同方法运用的场景不同,其性能比较和排名无意义,未来的研究可能集中在特定领域中不同方法的运用。

附录:监督机器学习算法的简要概述

作者在该部分阐述了监督类机器学习算法的概念框架,以便读者的阅读。
一、学习
学习的过程就是通过不断地迭代,使预测值更逼近真实值的过程,当误差小于给定值时,学习过程停止。目前为了提升学习速度,集成算法等应运而生。除了通过近似来学习外,也可以探索更大范围的搜索空间进行学习。
二、支持向量机
支持向量机(SVM)是一种分类方法,它将数据放置在一个超平面内,使每个类别的观测值之间的距离最大化。SVM是用于预测原油、电力等时间序列的主要算法之一。核函数的出现,衍生了新的算法,即核函数极限学习机(KELM)。
三、人工神经网络
人工神经网络(ANN)由McCulloch和Pitts(1943)提出,它基于神经元之间的连接,模拟大脑工作的过程,是业界最常用的机器学习算法之一。使用X-V-Y的组合方式,输入项X的线性组合为隐含节点层,它是向量V的派生特征,Y则是这些派生特征的组合,并可以使用反向传播的方法进行校对。ANN模型常被用于预测电价,并导致了径向基函数网络(RBFN)、反向传播神经网络(BPNN)、非线性自回归神经网络(NARNN)、带有随机时效函数的小波神经网络(WNN)、深度学习(DL)和自适应模糊神经网络(ANBFIS)等新算法的发展。作者简要介绍了两种具有代表性的拓展算法:
1、小波神经网络(WNN):结合小波分解和神经网络的思想,通过降维来提高学习算法的性能。它首先通过生成小波基对时间序列进行预处理,并利用估计的系数来满足网络的下一层。小波神经网络技术在能源经济领域得到了广泛的应用。
2、深度学习(DL):深度学习准确性较高,速度较快,正成为主流的机器学习算法。它具有多层结构,可以模拟更复杂的输入变量间的交互作用。主要在图像和语音识别、医学诊断、自然语言处理和自动驾驶汽车领域运用。
四、进化算法
进化算法的目标是在搜索空间很大且很复杂时,优化一个目标函数。主要方法是遗传算法(GAs)和粒子群优化算法(PSO)。
1、遗传算法(GAs)和遗传规划(GP):内核为达尔文进化论。该算法使用一个值为布尔函数结果的染色体作为数据结构,染色体按照突变、交叉和选择等进化规律进化,直到染色体的组合收敛成一个解,并表示一组决策规则,常用于预测每月的电能消耗。遗传规划是遗传算法的一种变体,计算程序被分割成染色体,通过演化产生一个具有最优解的新程序。它为编码复杂的算法提供帮助,如SVM或决策树。
2、粒子群优化算法(PSO):粒子群优化和遗传算法的演化、评估和比较不同解决方案的步骤相同,不同点在于解决方案没有对过去的记忆,每个解决方案都记得它走过的路径与到达当前状态的速度,并分享经验和学习;同时,PSO中无突变过程,Unler(2008)使用PSO进行土耳其的能源需求预测。
五、混合和集成模型
为提高模型预测的准确性和稳健性,可以结合多个模型。混合模型是将完全不同的方法组合,而集成算法则是将同一方法的多版本、弱学习器的输出与数据或参数的变化混合在一起。
1、混合模型:通常结合传统的计量经济模型(如ARIMA),使用基于机器学习的方法,取简单或加权平均值、中位数等整合各个预测,Wang等(2005)剔除了预测原油价格的早起混合模型之一。
2、集成模型:常见的有引导集聚算法、Adaboost模型和随机森林。引导集聚算法是将决策树等学习算法应用于多个具有置换的样本的平均结果,Adaboost在每次迭代中增加误分类观测的权重,随机森林随机选择不同的样本和特征构建多个决策树。

Reference: Ghoddusi, H., et al. (2019). "Machine learning in energy economics and finance: A review." Energy Economics *81*: 709-727.

关于一些计量方法的合辑,各位学者可以参看如下文章:实证研究中用到的200篇文章, 社科学者常备toolkit”、实证文章写作常用到的50篇名家经验帖, 学者必读系列过去10年AER上关于中国主题的Articles专辑AEA公布2017-19年度最受关注的十大研究话题, 给你的选题方向2020年中文Top期刊重点选题方向, 写论文就写这些。后面,咱们又引荐了使用CFPS, CHFS, CHNS数据实证研究的精选文章专辑!这40个微观数据库够你博士毕业了, 反正凭着这些库成了教授Python, Stata, R软件史上最全快捷键合辑!关于(模糊)断点回归设计的100篇精选Articles专辑!关于双重差分法DID的32篇精选Articles专辑!关于合成控制法SCM的33篇精选Articles专辑!最近80篇关于中国国际贸易领域papers合辑!最近70篇关于中国环境生态的经济学papers合辑!使用CEPS, CHARLS, CGSS, CLHLS数据库实证研究的精选文章专辑!最近50篇使用系统GMM开展实证研究的papers合辑!

关于一些常用数据库,各位学者可以参看如下文章:1.这40个微观数据库够你博士毕业了2.中国工业企业数据库匹配160大步骤的完整程序和相应数据3.中国省/地级市夜间灯光数据4.1997-2014中国市场化指数权威版本5.1998-2016年中国地级市年均PM2.56.计量经济圈经济社会等数据库合集(在社群里)7.中国方言,官员, 行政审批和省长数据库开放8.2005-2015中国分省分行业CO2数据9.国际贸易研究中的数据演进与当代问题10.经济学研究常用中国微观数据手册11.疫情期Wind资讯金融终端操作指南12.CEIC数据库操作指南13.清华北大经管社科数据库有哪些? 不要羡慕嫉妒恨!14.金融领域三大中文数据库, CSMAR, CCER, Wind和CNRDS15.EPS最新版本使用手册16.疫情期计量课程免费开放!面板数据, 因果推断, 时间序列分析与Stata应用

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。

: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存