BIS | 机器学习如何阐释通货膨胀的驱动因素?
通货膨胀的关键驱动因素有哪些,以及预期在通胀过程中发挥什么作用,这些是宏观经济学中长期存在的问题,并与经济政策的制定密切相关。What does machine learning say about the drivers of inflation?(《机器学习如何阐释通货膨胀的驱动因素?》)运用随机森林方法研究了自2000年以来20个发达经济体的通货膨胀情况。除了尽可能地将这种方法的解释表现与传统的计量经济学方法进行比较外,作者还阐释了解释变量与CPI通胀之间的预测关系。中国人民大学金融科技研究所(微信ID:ruc_fintech)对文章核心内容进行了编译。
来源 | BIS
作者 | Emanuel Kohlscheen
编译 | 张哲铭
文章概要
本文通过一种逻辑简单但计算量大的机器学习技术来研究CPI通胀的驱动因素。具体而言,本文基于6个关键宏观经济变量构建1000棵回归树,预测了2000年至2021年间20个发达国家的通货膨胀率。这种不可知、纯数据驱动的方法显示出更为优秀的结果预测表现,其样本外均方根误差(RMSE)优于样本内的基准计量经济学模型:相对于自回归(AR)模型,其RMSE降低了28%;相对于普通最小二乘法(OLS)模型,其RMSE降低了8%。总体而言,这些结果凸显了预期对发达经济体通胀结果的影响作用,尽管其重要性在过去10年间似乎有所降低。
文章框架方面,第2节阐述了用于预测当期与未来通货膨胀的方法与数据集;第3节介绍了基线结果;第4节讨论了通货膨胀的驱动因素如何随时间变化;第5节研究了随机森林方法在预测未来6个月和12个月通货膨胀方面的表现;第6节介绍了几项稳健性检验;最后本文提出了进一步研究的路径。
运用回归树构建总体通胀模型
鉴于大多数中央银行根据总体CPI通胀目标调整其货币政策,本文选取了一组发达经济体,研究该指标的驱动因素。具体而言,本文比较了标准回归技术和机器学习技术(随机森林)在预测20个发达国家的当期和未来季度的季节性调整的CPI通胀方面的表现。
纳入研究的国家都至少拥有100万人口,并且人均GDP超过25000美元。它们是:奥地利、比利时、加拿大、捷克、丹麦、爱沙尼亚、芬兰、法国、德国、爱尔兰、意大利、荷兰、挪威、葡萄牙、斯洛文尼亚、西班牙、瑞典、瑞士、英国和美国。本文数据分析的时间跨度为2000年至2021年中期。
本文在选取解释变量时,参考了在理论和应用文献中被发现具有重要性的关键因素。总体而言,本文选取的解释变量与Forbes(2019)和Jasova等人(2019)的前沿论文相似,包括以下六个变量:
Ⅰ 滞后通胀,以反映通胀过程的持续性;
Ⅱ 12个月前的通胀预期,由Consensus Economic每月从一组具有代表性的银行中调查得出;
Ⅲ 产出缺口,在对实际GDP系列进行单边HP滤波后计算得出;
Ⅳ 一年内油价(布伦特)的累计百分比变化;
Ⅴ 每个国家BIS名义有效汇率的近似变量;
Ⅵ 三个主要经济体(美国、欧元区和中国)的平均PPI通胀措施。这反映了出厂价格的通货膨胀,并可能反映了投入成本带来的影响,与石油价格一并反映了国际层面的CPI通货膨胀。
面板中的平均年化总体通胀率为1.87%,标准差为3.20%。作为参考,平均核心通胀率为1.59%,标准差为1.61%。未来12个月平均总体通胀预期为1.80%,标准差为0.89%。
基于六个解释变量的混合OLS能够解释同季度总体通胀结果中39%的变化(见原文附录表A1)。六个指标都显著地与通胀密切相关,其稳健的t统计量在2.0(产出缺口)与42.1(通货膨胀预期)之间变化。该模型的F统计量为523.0(P值<0.001)。
如Breiman等人(1984)和Breiman(2001)所述,CPI通货膨胀是通过回归树和随机森林来预测的。这些方法的主要优点在于它们能够适应非线性,以及捕捉解释变量之间潜在的复杂交互关系。本质上,通货膨胀预测可以被视作一个分类问题。
回归树算法根据解释变量(特征)和相关的阈值水平,机械地生成树以使分割后的残差均值最小。该算法对每一个新节点都要进行重复操作,直至达到预先设定的树的深度(即停止标准)。然后,该算法将所观测的目标变量在给定的最终节点中的平均值作为预测值,并将其与每个观测变量的实际值进行比较。
为引入随机性,本文基于随机选择的子样本构建了一个大型的树群。为训练每一棵树,该算法保留三分之一的样本用于后验,并根据剩余的观测值(训练样本)生成回归树。结果预测并非仅依靠于一棵树,而是基于树群在终端节点的结果变量的平均值,即随机森林。使用树群的主要优点在于降低预测的方差,并使得过拟合最小化。图1表明,对于当前的应用场景,总体MSE随树量的增加而迅速下降。在超过10棵树的阈值后,可以明显观察到回归树算法在提升预测准确性方面的大部分增益。
图1 模型交叉验证(装袋算法)
表1显示了通货膨胀的模型RMSE,以及回归树方法(100棵树和1000棵树)与传统计量经济学基准之间的RMSE比率。控制所生成的树的深度的参数是每个父节点的最小观察数(表示为p),分割节点的最小父节点越低,意味着生成的树越深。但过深的树通常意味着过度拟合问题,这可能会降低其灵活性和样本外性能,较浅的树在应用新数据时的表现更为稳健。
由图1可见,预测性能提高的渐进极限反映以下情况:当使用1000棵树而非100棵树时,RMSE仅略微降低(p=10时,为样本外的-0.9%)。对于本文研究的通货膨胀面板,在4和30之间改变最小父节点大小对样本外预测性能的影响可以忽略不计。也就是说,过度拟合的代价似乎很小。因此,本文始终将每个分割节点的最小观测值设为10作为基准。研究表明,当使用的最小父节点大小改为30时,所得结论发生的变化非常小。
表1 CPI通胀率的绝对和相对RMSEs(均方根误差)
在预测当前季度通货膨胀方面,回归树方法明显表现优异,RMSE比率始终低于1(对于全部96次模拟)。这表明相比于AR(1)和OLS模型,机器学习的表现始终很优秀。事实证明,基准树深度(p=10,n=1,000)的样本外RMSE为0.567,甚至超过了计量经济学基准的样本内RMSE(绝对RMSE分别为0.794和0.618),即RMSEs分别降低了28%和8%。
检验CPI通胀的驱动因素
自2000年以来,哪些因素是发达经济体CPI通胀的关键驱动因素?可以通过参考基准树群(即p=10,n=1,000)中预测变量的相对重要性,以获得对这个基本问题的机器学习回答。如图2所示,本文通过数据统计总结了每个因素对于减少所有节点和树的RMSE的贡献。总体而言,通胀预期的重要性居于首位;紧随其后的是过去的通胀,它反映了价格制定的惯性;之后是石油价格变化和全球PPI通胀;汇率变动的影响较小,这与其它文献提供的结论相一致。
图2 CPI预测指标的重要性
在固定其它变量处于平均水平的情况下,通过参考不同水平的未来12个月通胀预期,可以推断出预期对实际通胀的部分影响。这种做法提供了一种与计量经济学中的回归系数类似的解释,关键区别在于其效应无需是线性的,也无需符合任何预先设定的形式。同时,此类结果应该被解释为只具有启示性,因为它并非基于一个结构化的计量经济学理论,而是提供了一种数据描述。有鉴于此,本文在图3中绘制了这种做法在p=10,n=1000情况下的结果。
较高的通胀预期显然与较高的通胀结果相关,所示区间的平均斜率为1.1。在预期处于均值水平附近时,其影响表现得更为明显,而当预期极高或极低时,其影响趋于减弱。在其他协变量处于均值水平,且通胀预期为2%时,预测通胀结果为1.85%。而当预期为4%时,预测通胀结果高出1.10%。(编者注:读者在阅读如图3这类对比两项指标的图文时,可以重点关注横纵轴两项指标的数值差异、变化趋势等)
图3 CPI通胀预期与结果
对产出缺口也可以进行类似的分析。产出缺口是大部分通胀和货币政策反应函数理论模型中的一个重要因素,本文研究表明它与20个国家的通胀水平呈正相关关系(图4)。值得注意的是,这种影响是非线性的,因为当产出缺口低于-1时,大部分的联系便得以显现。这意味着,远低于潜力的经济活动(由单边HP滤波估计)对通货膨胀具有较强的抑制作用。另一方面,在其他因素控制不变的情况下,经济过热似乎并没有促进通货膨胀。
图4 产出差距与CPI结果
时间变化
为探讨通货膨胀驱动因素的作用如何随时间而变化,本文以十年为区间,划分2000-2010与2011-2021以进行研究。结果表明,在过去的十年中,预期的作用有所减弱,而石油价格的变化则成为一个更为显著的驱动特征(图5),汇率变化与预测通胀的相关性最弱。
图5 按子样本划分的CPI预测指标重要性
研究也证实了2011-2021对未来12个月的通胀预期对于CPI结果的影响较小(图6),相比于2000-2010年平均斜率为1.37,过去10年的平均斜率为0.75,近乎减半。有趣的是,自2011年以来,相对于整体样本情况,较高的预期价格对通货膨胀的影响似乎在较低的阈值上趋于平稳。
图6 CPI通胀预期与结果
预测6个月和12个月后的通货膨胀率
前面几节的重点在于研究当前季度的通胀,确定通胀的关键驱动因素,而非提前预测通胀。然而当使用相同的信息集预测6个月或12个月后的CPI通胀时,会得到大致相似的结果。表2显示,RMSE比率再次全部低于1,RMSE误差相对于OLS降低了10%至14%。
表2 未来6个月和12个月的CPI通胀相对表现预测
预测因素的相对重要性方面,预期仍然是12个月远期通胀的关键驱动因素,全球PPI通胀成为第二重要的相关因素(图7),图8显示了预测的通胀与这些变量的共变情况。
图7 12个月前的CPI预测指标重要性
图8 12个月前的CPI通胀率
替代树的深度与核心通胀的预测
本文还对上述结论进行了稳健性检验,总体而言,检验结果证实了上述结论。
首先,设定石油价格和汇率的变化是以一个季度为单位,而不再是以12个月的累积效应为单位,这种做法并没有导致明显的变化。
其次,使用深度更浅的回归树重复模拟实验。图9和图10表明,将分割节点所需的最小观测值数扩大两倍(p=30)后,导致的变化不大。
图9 CPI预测指标的重要性(p=30)
图10 CPI通胀预期与结果(p=30)
第三,使用核心CPI通胀率(即基于不包括食品和能源的OECD CPI指数)替代目标变量(以及滞后通胀)。对于这种做法,需要注意的一个基本事项是,无法获得核心通胀的预期。即便如此,通胀预期也是核心通胀的最重要驱动因素(图11)。当然,由于它已被从指数中剔除,石油的重要性下降到低于产出缺口的水平。其余影响可能是由于油价波动对总价格指数的二轮影响。此外,预期对核心CPI通胀的部分影响与对总体通胀的影响大致相似(图12)。
图11 核心CPI预测指标的重要性
图12 CPI通胀预期与核心CPI结果
结语
总而言之,本文分析证明了随机森林在解释发达经济体的通胀模式方面的有效性。该方法提供了性质更为优良的样本内描述与通货膨胀预测,这种严谨而直观的计算方法能够更好地捕捉非线性因素和现实世界中可能发生的复杂相互作用。
重要的是,本文关于通货膨胀驱动因素的研究结果,是基于一组具有坚实的理论与实证基础的解释变量的,强调了预期对通胀的关键作用,尽管近期在发达经济体中其相对重要性似乎有所下降。
未来的研究应旨在进一步加强对机器学习工具的经济解释。本文通过介绍关键解释变量的部分效应,在这个方向上迈出了第一步。在未来研究中,另一个可能富有成果的研究路径是将高效的机器学习技术与宏观经济模型相结合。
以下为部分报告截图
……
获取完整报告
请后台回复“机器学习通货膨胀”
获取下载链接
END
编辑/张哲铭
责编/李锦璇
【延伸阅读】