价格和通胀是宏观分析研究的重要组成部分,本文通过梳理常见的PPI预测方法,分析其缺陷和难点所在,尝试基于机器学习的方法解构PPI并建模预测。
一、传统PPI预测有哪些方法,哪些痛点?
PPI预测主要有三类:领先指标预测法、高频指标降频法和工业品价格合成法。
1)领先指标预测法,通过挖掘符合经济运行规律的具有领先性的指标,确定最优领先期后进行回归预测,例如CRB工业原料指数领先PPI 2-3个月,由于相关性和领先期不稳定,往往精度较低。
2)对高频指标做降频处理,简洁且有效,生产资料价格指数与PPI即期相关性高达0.98。由于自变量和因变量的具体构成关系不明确,导致无法调参和优化模型。
3)利用工业品价格合成PPI,逻辑关系明晰,可信度和可调试性较强,理论上拟合效果在三种预测类型中最优。此前的相应研究存在两大难点:1)生产资料价格间种类繁多,传统线性OLS模型共线性问题严重,模型方差较大、容易过拟合,需要合适的变量筛选以确定PPI核心驱动因素;2)统计局对PPI分项权重披露信息较少,如何理解统计过程中的权重以及调权方式尤为重要。
二、如何理解PPI权重和权重调整?
PPI行业分项权重为分行业工业销售产值的比重,一般用工业行业的营收占比作为替代。统计局在计算当期PPI同比是基于去年同期的行业权重。
1)根据统计局解释,“CPI中每一种商品和服务的权重是根据这一类商品和服务的消费支出占整个篮子里的总支出比重作为权重的”。2019年非洲猪瘟快速扩散,全国能繁母猪与生猪存栏双降,猪肉价格于19年11月和20年2月达到两个高位,而猪肉同比权重在20年11月攀至顶点的4.6%,从历史曲线来看恰好滞后猪肉价格约12个月。PPI和CPI指数的编制与统计保持一致,均采用链式拉式公式,合理推断统计局在计算PPI同比时采用去年同期(T-12期)分行业工业销售产值的比重,在计算PPI环比时采用上期(T-1期)权重。
2)根据T-12期行业营收占比加权计算的PPI最接近实际值。我们将39个行业分项PPI同比按各期营收占比进行加权,其中T-12、T-11和T-10期与实际PPI同比的相关性均高于99.85%,但T-12期平均偏差最小、效果最好。
三、基于机器学习的PPI预测模型
1)数据预处理:2016月1月至2021年12月为数据始末时间,删除时间序列过短的普通硅酸盐水泥、天然橡胶。取生产资料价格月均值、计算同比得到48个特征变量。
2)基于LASSO筛选变量解决共线性问题。LASSO在OLS回归的系数上增加一个惩罚项,求得模型的稀疏化解(部分系数为零)。分割数据集后,LASSO回归从48个自变量中提取出9个关键变量,剔除不显著的因子,保留了无缝钢管、柴油、汽油、石蜡、无烟煤5个变量,模型解释力度R^2为97.1%。
3)针对权重调整问题,我们将变量滞后12期以拟合当期生产资料销售产值波动对下年同比权重的影响。优化后,模型解释力度上升至99.0%。这种替代方法的潜在假设是工业品价格的波动能代表工业品销售产值的变动,但供给侧改革期间,上游原材料价升量跌,因而2017年初PPI预测和PPI实际值存在一定偏离。
四、模型预测2月PPI同比为9.1%
1)3月4日统计局发布了2月下旬的流通领域生产资料价格,2月煤炭、石油、化肥涨幅居前,系俄乌危机下大宗商品迎来新一轮上行、全球通胀压力加剧。
2)2月无缝钢管、柴油、汽油、石蜡、无烟煤、柴油滞后项、无烟煤滞后项分别为11.0%、51.3%、41.1%、43.5%、93.6%、-10.3%、-9.5%,基于Lasso回归的机器学习模型预测2月PPI为9.1%。
价格和通胀是宏观分析研究的重要组成部分,本文通过梳理常见的PPI预测方法,分析其缺陷和难点所在,尝试基于机器学习的方法解构PPI并建模预测。
一、传统PPI预测方法及其痛点
PPI预测常见的类型有三种:领先指标预测法、高频指标降频法和工业品价格合成法。
领先指标预测法,通过挖掘符合经济运行规律的具有领先性的指标,确定最优领先期后进行回归预测,例如CRB工业原料指数领先PPI 2-3个月,由于相关性和领先期不稳定,往往精度较低。
对高频指标做降频处理往往是一种简洁有效的办法,例如生产资料价格指数在统计品类和编制方法上和PPI较为相近,即期相关性高达0.98。由于自变量和因变量的具体构成关系不明确,导致无法调参和优化模型。
利用工业品价格合成PPI,逻辑关系明晰,可信度和可调试性较强,理论上拟合效果在三种预测类型中最优。此前的相关研究存在两大难点:1)生产资料价格间种类繁多,传统线性模型直接拟合共线性问题严重,模型方差较大、容易过拟合,需要合适的变量筛选以确定PPI核心驱动因素;2)统计局对PPI分项权重披露信息较少,如何理解统计过程中的权重以及调权方式尤为重要。因此,本文尝试基于机器学习的方法,利用统计局发布的50种流通领域生产资料价格构建PPI预测模型。
二、如何理解PPI权重及其调整
PPI根据二分法分为生产资料和生活资料,按行业划分有39个工业行业,根据统计局解释,PPI分项的权重为分行业工业销售产值的比重,一般用工业行业的营收占比作为替代。2021年,计算机通信和其他电子设备制造业、黑色金属冶炼及压延加工业、汽车制造业、电气机械及器材制造业、化学原料及化学制品制造业分列前五,占比为11.1%、7.6%、6.8%、6.7%和6.5%。
一个容易被忽略的事实在于,统计局在计算当期PPI同比是基于去年同期的行业权重。若使用当期或者近期的权重进行预测,则会导致较大的偏差。
(1)统计局解释支持该判断。根据统计局毛盛勇司长2019年前三季度国民经济运行情况的发言,“CPI中每一种商品和服务的权重是根据这一类商品和服务的消费支出占整个篮子里的总支出比重作为权重的。比如说,9月的猪肉环比权重就是8月猪肉的消费支出在整个消费支出中的比重作为它的权重;9月猪肉同比涨幅,用上年9月猪肉消费支出占整个消费支出的比重作为权重。这样每个月基期是固定的、篮子是固定的,但是权重是有变化的。”
不妨观察猪肉价格和猪肉权重的关系,2019年非洲猪瘟快速扩散,全国能繁母猪、生猪存栏双降,猪肉价格于19年11月和20年2月达到两个高位,而猪肉同比权重在20年11月攀至顶点的4.6%,从历史曲线来看恰好滞后猪肉价格约12个月。21年2月猪肉权重理应达到高位,但实际权重却较低,系统计局2021年初调基剔除非洲猪瘟、新冠疫情的异常影响,下调猪肉权重所致(除统计局已发布解释外,最有力的证明在于2021年1月猪肉权重非常完美的等于2020年12月的一半)。PPI和CPI指数的编制与统计保持一致,均采用链式拉式公式,合理推断统计局在计算PPI同比时采用去年同期(T-12期)分行业工业销售产值的比重,在计算PPI环比时采用上期(T-1期)权重。
(2)根据T-12期行业营收占比计算的PPI最接近实际值。统计局每月公布PPI同比和39个工业行业的分项PPI,我们将行业分项PPI按各期营收占比加权得到PPI拟合值,拟合效果和Tn线性关系显著,其中T-12、T-11和T-10期与实际PPI同比的相关性均高于99.85%,但T-12期平均偏差最小、效果最好。
三、基于机器学习的PPI预测方法
如前述,我们理解了PPI指数在编制过程中的权重调整方式,但PPI行业分项不能用于预测,因而我们使用流通领域重要生产资料价格(下称“重要生产资料价格”)来替代,使用该数据的合理性在于:(1)重要生产资料价格高频,分别于每月4/14/24日公布上一旬数据,在时间上领先于统计局发布的PPI;(2)商务部发布的生产资料价格指数与PPI相关性高,则统计局发布的流通领域重要生产资料价格理论上拟合效果更好。
3.1数据预处理
考虑到基期更换的影响,我们选择2016月1月至2021年12月作为数据始末时间。在数据预处理上,剔除时间序列过短的普通硅酸盐水泥、天然橡胶。由于重要生产资料价格旬度更新,因此我们取当月三个旬度的重要生产资料价格均值、计算当月同比作为特征变量(共48个)。
从相关性矩阵来看,钢、油、煤和PPI高度相关,农产品价格相关性较弱、部分呈负相关。
3.2 LASSO特征筛选处理共线性问题
我们用机器学习中的LASSO回归来解决PPI预测的第一个问题。线性回归中,经典的OLS最小二乘法无法筛选变量,容易产生共线性的问题,导致模型过拟合、方差过大。LASSO(Least absolute shrinkage and selection operator)是Robert Tibshirani提出的一种有偏的压缩估计方法。在OLS回归的系数上增加一个惩罚项,若参数s=0,解得系数均为0;若s趋于无穷大,此时求解即为OLS估计;当s取到一个不太大的非负常数,LASSO需要在约束条件下求解,形成模型的稀疏解(某些系数为零),多数情况下能较好解决过拟合的问题。
首先将数据集进行分割,70%为训练集,30%为测试集。利用LASSO回归从48个自变量中提取出9个关键变量,分别为无缝钢管、柴油、液化气、尿素、无烟煤、硫酸钾复合肥、草甘膦、大同混煤;lasso coefficient非0即表示变量显著,数值大小与重要程度无关。与相关性矩阵相比,lasso为我们剔除了一部分的共线性问题,譬如在钢价中仅选择了“无缝钢管”,在煤价中仅选择了“无烟煤”和“大同混煤”。
3.3引入滞后项拟合商品权重调整
在LASSO回归中我们筛选出了9个与PPI同比高度相关的因子,可进一步构建线性回归方程,剔除不显著和具有共线性的因子后,我们保留了无缝钢管、柴油、汽油、石蜡、无烟煤5个变量,模型解释力度R^2为97.1%。
针对权重调整问题,我们将变量滞后12期以拟合当期生产资料销售产值波动对下年同比权重的影响。引入滞后项后,模型解释力度上升至99.0%。这种替代方法的潜在假设是工业品价格的波动能代表工业品销售产值的变动,可能存在一定偏差,譬如供给侧改革期间,上游原材料价升量跌,价格波动并不能代表工业品销售产值波动,这在一定程度上解释了2017年初PPI预测与实际值存在偏离的问题。
四、预测2022年2月PPI同比9.1%
2022年3月4日统计局发布了2月下旬的流通领域生产资料价格,2月煤炭、石油、化肥涨幅居前,系俄乌危机下大宗商品迎来新一轮上行、全球通胀压力加剧。煤炭平均上涨67.2%,石油天然气平均上涨48.5%,涨幅较上月有所扩大,其中LNG价格同比从1月的-17.4%攀升至2月的73.6%;黑色金属平均上涨11.2%,涨幅持平上月;有色金属方面,铜铝铅锌同比上涨13.0%、40.3%、-1.5%和19.6%;化工品方面,液碱、硫酸、石油苯分别上涨145.7%、36.1%和35.7%;煤炭涨幅月60%;农产品涨跌互现。
2022年2月无缝钢管、柴油、汽油、石蜡、无烟煤、柴油滞后项、无烟煤滞后项分别为11.0%(前值11.2%)、51.3%(前值31.5%)、41.1%(前值40.6%)、43.5%(前值42.7%)、93.6%(前值115.1%)、-10.3%(前值11.2%)、-9.5%(前值11.2%),基于Lasso回归的机器学习模型预测2月PPI为9.1%。该预测结果可实现程序定期自动更新,当月14日、24日和次月4日发布当月预测,但次月4日的更新结果相对更准确。
1、俄乌冲突带来干扰:模型基于5种商品价格预测PPI,俄乌冲突可能推动油煤以外的金属、农产品暴涨,此类商品未计入模型因而造成偏差。
2、模型可能存在失效风险:建模基于2016-2021年的特定历史环境,若未来制造业产业升级、商品结构发生变化,可能导致模型适用性降低。
[1]加息的必要条件已经达成—美国2月非农数据点评【华安宏观何宁团队】,2022-03-06
[2]“两会时间”开启,对俄制裁引发全球震荡——2022年3月第1周政策周报【华安宏观何宁团队】,2022-03-06
[3]5.5%的底气在哪里?--2022政府工作报告解读【华安宏观何宁】,2022-03-05
[4]我们为什么看好基建?【华安宏观何宁团队】,2022-03-02
[5]现实弱改善,预期仍偏强--2月PMI点评【华安宏观何宁】,2022-03-01
[6]欧美制裁对俄欧经济和产业链的几点影响【华安宏观何宁团队】,2022-02-28
[7]发力农村基建,地产边际趋松——2022年2月第4周政策周报【华安宏观何宁团队】,2022-02-27
[8]俄乌冲突:全球通胀“黑天鹅”?【华安宏观何宁团队】,2022-02-24
[9]“东数西算”落地,保供稳价延续--2022年2月第3周政策周报【华安宏观何宁团队】,2022-02-20
[10]价格传导加强,困境反转来了?【华安宏观何宁团队】,2022-02-16
[11]宽信用兑现,地产政策继续边际松动——2022年2月第2周政策周报【华安宏观何宁团队】,2022-02-15
[12]春节遇上冬奥,各地促进文旅、冰雪消费——2022年2月第1周政策周报【华安宏观何宁团队】,2022-02-15
[13]各地两会闭幕,春节加强保供给促消费——2022年1月第4周政策周报【华安宏观何宁团队】,2022-02-15
[14]降息落地,多省出台措施支持小微企业——2022年1月第3周政策周报【华安宏观何宁团队】,2022-02-15
[15]多项稳增长政策出台——2022年1月第2周政策周报【华安宏观何宁团队】,2022-02-15
[16]稳住宏观经济大盘——2022年1月第1周政策周报【华安宏观何宁团队】,2022-02-15
[17]稳信贷表述更加积极【华安宏观何宁】,2022-02-13
[18]美联储会加快行动么?【华安宏观何宁团队】,2022-02-11
[19]宽信用来了,稳增长还会远吗?【华安宏观何宁】,2022-02-10
[20]弱现实不改强预期——1月PMI点评【华安宏观何宁】,2022-01-30
[21]深度丨8大要素25张图看懂2022年地方两会【华安宏观何宁团队】,2022-01-28
[22]“鹰”声嘹亮—美联储1月议息会议点评【华安宏观何宁团队】,2022-01-27
[23]数读LPR调降【华安宏观何宁】,2022-01-20
[24]五问开年降息,对经济和配置有何影响?【华安宏观何宁】,2022-01-17
[25]后疫情时代的出口,关注什么?【华安宏观何宁】,2022-01-14
[26]本轮宽信用的两个猜想【华安宏观何宁】,2022-01-13
[27]平稳收官——2021 年通胀点评【华安宏观何宁】,2022-01-12
[28]测算:LPR还有再降息空间吗?【华安宏观何宁团队】,2022-01-10
[29]深度|数说价格传导之谜——通胀系列之二【华安宏观何宁】,2022-01-06
[30]是终点也是起点【华安宏观何宁】,2021-12-31
[31]三重因素叠加下的票据利率异动【华安宏观何宁团队】,2021-12-31
[32]深度|奥密克戎对全球经济和货币政策影响几何【华安宏观何宁团队】,2021-12-30
[33]稳中求进的经济平衡木【华安宏观何宁】,2021-12-16
[34]五大主线打开2022经济密码——中央经济工作会议点评【华安宏观何宁】,2021-12-12
[35]深度|CPI-PPI见底回升,如何配置资产?—通胀系列之一【华安宏观何宁团队】,2021-12-10
[36]社融的内生弱与外生强【华安宏观何宁】,2021-12-10
[37]出口的三点扰动和三个影响【华安宏观何宁】,2021-12-08
[38]稳健有效——12月政治局会议和降准点评【华安宏观何宁】,2021-12-06
[39]保供已显成效,政策将向何处去?【华安宏观何宁】,2021-11-30
[40]对三季度央行货币政策报告的6点理解【华安宏观何宁】,2021-11-20
[45]转型、回归与再平衡——2022年宏观经济展望【华安宏观何宁】,2021-11-02
本文内容节选自华安证券研究所已发布报告:《基于机器学习的PPI预测模型——量化知宏观系列之一》(发布时间:20220308),具体分析内容请详见报告。若因对报告的摘编等产生歧义,应以报告发布当日的完整内容为准。
分析师:何宁(S0010521100001),hening@hazq.com