广发证券资深宏观分析师 陈礼清 博士
chenliqing@gf.com.cn
广发宏观郭磊团队
第一,工业增加值实际上就是GDP的工业部分,所以它是我们跟踪经济运行可盯住的最重要指标之一。市场中已有三类方法预测工业增加值同比增速。方法一是通过主要工业产品产量乘以相应行业权重进行加权合成;方法二是利用工业生产领域的单一或多项高频指标做线性回归,比如用耗煤量、货运量等;方法三是直接利用指标自身的波动规律进行外推,例如常见的ARIMA模型等。
第二,上述方法均有其价值,但缺点也很明显,比如或只能用于解释过去;或只能预测中期(1个季度以上)的趋势,而无法较准确实时跟踪工业增加值的单月波动;抑或预测结果本身波动性较大,颗粒度较粗。特别是疫情后,工业增加值波动变大,“自身趋势外推法”的假设前提(历史会重复)一定程度被打破,预测效果明显打折扣。如何应对“见微”不一定能“知著”的问题?在这里我们希望介绍一套新的方法。我们的解决方案可以简单总结为“用同步扩散指数辨方向、用ARDL模型做预测、用混频(MIDAS)回归打辅助。”
第三,如何寻找能预测工业增加值的有效高频指标?简单来说是先分类,再寻强相关,后看拐点变动。我们将高频指标归为六大类——整体发电量、对工业生产有明显需求拉动的行业,以及四个行业增加值占比排名靠前的重点行业(汽车、化工、钢铁、煤炭)。关于相关性,我们不仅进行了传统意义上的相关系数测算;还从拐点变动的角度,观察高频指标是否与工业增加值同比具有一致的拐点变化。最终,我们筛选得到了19项高频指标,除了广义汽车产量和挖掘机销量是先于工业增加值公布的月度数据以外,其余17个指标均为周度或日度指标。我们进一步观察到三点信息。
第四,同步扩散指数如何构建?胜率几何?有何提示?简单来说,我们构建的同步扩散指数实质上是生产端重点行业高频指标每月同比增速较前值的变动值为正的占比,提示的是当月工业增加值同比可能的变动方向。单这一点对于预测工业增加值已经有一定意义。我们的数据回溯显示,同步扩散指数能够很好地捕捉工业增加值同比的变动,2010年以来胜率达到了65.1%,疫后(2020年以来)提升至74.4%。
第五,如何进行工业增加值读数的短期预测?我们构建了同步扩散指数II与工业增加值同比的ARDL模型。“AR”为自回归部分,融入了工业增加值前期值,表征历史规律性;“DL”为分布滞后部分,融入了高频指标以及高频指标前期值,表征当下和近期高频信息带来的“新息”。简单来说,这种方法是既有预测方法优缺点的一个集合,我们既利用了多项高频指标信息,又通过“提取同比变动、配权、合成同步扩散指数”来过滤噪音,又兼顾了工业增加值自身前期波动的影响,比任何一种既有的单一方法更综合,预测精度也更细。比如这一模型下样本外预测7月工业增加值同比区间为3.69%~4.04%,最终7月实际工业增加值同比为3.70%。
第六,上述过程实质上已经完成了预测。不过,通过ARDL模型预测工业增加值同比的方法,本质上只单纯使用了高频数据的变动方向,而不是变动幅度。优点是简洁方便地择取了高频数据的有效信息,过滤了高频数据的高波动噪音,缺点是折损了部分有用高频信息,即不是所有的高频指标高波动都是噪音。有没有其他方法可以避免这一点?混频MIDAS模型可以直接利用高频数据对低频数据进行建模,虽然受高频指标高波动的干扰,导致预测结果的区间较宽,但同样能帮助我们进行辅助判断。
第七,混频MIDAS模型结果显示:第一,2020年起混频MIDAS模型拟合度达0.98,明显高于ARDL模型的0.75,说明对于疫后工业增加值的预测来说,高频指标的信息更为重要,融入变动幅度的信息之后预测精度提高,这一特征与ARDL的结果一致。第二,观察各时期的误差大小,混频MIDAS回测结果更为震荡。比如在2020年至2021年一季度期间工业增加值增速的读数基本上平滑上升,但MIDAS拟合结果却是震荡上升的,上升趋势中有多处反复点,印证了虽然混频MIDAS预测更有效地利用了高频数据,但也受到高频数据波动较大的干扰。所以在使用中,不同方法可以相互印证和参考。
报告简版
第一
工业增加值实际上就是GDP的工业部分,所以它是我们跟踪经济运行可盯住的最重要指标之一。市场中已有三类方法预测工业增加值同比增速。方法一是通过主要工业产品产量乘以相应行业权重进行加权合成;方法二是利用工业生产领域的单一或多项高频指标做线性回归,比如用耗煤量、货运量等;方法三是直接利用指标自身的波动规律进行外推,例如常见的ARIMA模型等。
方法一可以总结为“行业产量数据”合成法,是从工业增加值最本质的计算方式出发,通过各子行业产量数据,加权合成整体工业增加值。这一方法准确性较高,逻辑清晰,能够观察各行业工增结构变化。方法二可以总结为简单“高频指标”回归法,是直接利用工业生产领域的单一或多项高频指标做线性回归,比如用耗煤量、货运量等。这些高频指标的简单合成与工增在趋势上具有一致性。方法三可以总结为“自身趋势外推法”,是直接利用指标自身的波动规律进行外推,例如常见的ARIMA模型等。这类预测出发点是基于工业增加值较强的季节性和周期性,不需要任何高频信息。本质上,这是一种纯粹自回归预测思路,蕴含着“历史会回归、会重复”的假设。在国内经济运行平稳或者仅有小波动的时期,这类方法同样有一定预测能力。上述方法均有其价值,但缺点也很明显,比如或只能用于解释过去;或只能预测中期(1个季度以上)的趋势,而无法较准确实时跟踪工业增加值的单月波动;抑或预测结果本身波动性较大,颗粒度较粗。特别是疫情后,工业增加值波动变大,“自身趋势外推法”的假设前提(历史会重复)一定程度被打破,预测效果明显打折扣。如何应对“见微”不一定能“知著”的问题?在这里我们希望介绍一套新的方法。我们的解决方案可以简单总结为“用同步扩散指数辨方向、用ARDL模型做预测、用混频(MIDAS)回归打辅助。”“行业产量数据”合成法缺点在于只能解释过去,观察结构,不能预测未来,因为各行业产量数据公布的时点晚于工业增加值公布。简单“高频指标”回归法也会出现误判,因为即便相关性很强的高频指标,也经常会在单月变动中与工增方向相反。中长期趋势尚可捕捉,但近月预测效果一般。“自身趋势外推法”蕴含着“历史会重复”的假设前提。当重大冲击来临时,比如疫情,预测效果会打折扣。一是在冲击来临之前,无法反映高频信息中的“新息”,低估波动,拐点判断滞后,二是在冲击发生之后,过度反映历史刚发生的“异像”,高估波动,预测颗粒度较粗。我们的方案是“用同步扩散指数辨方向、用ARDL模型做预测、用混频(MIDAS)回归打辅助”。首先,我们只聚焦在重点行业工业生产强关联的多项高频指标,既不穷尽四十多个细分行业,也不依赖某一指标。我们提取多项高频指标变动信息,用工业增加值构成中的行业增加值占比进行配权,合成同步扩散指数,以此来过滤高频数据的噪音。进一步地,将构造的同步扩散指数与工业增加值同比进行ARDL回归,自回归部分融入工业增加值历史波动的规律,分布滞后部分融入高频指标带来的“新息”。依托模型系数和设定,我们可以滚动预测近月工业增加值同比。为了能直接利用最全面的高频信息,我们也直接将周度或日度的高频数据与月度工业增加值进行混频(MIDAS)回归。但预测结果单月波动可能较大,预测区间较宽,更适合作为预测的辅助。如何寻找能预测工业增加值的有效高频指标?简单来说是先分类,再寻强相关,后看拐点变动。我们将高频指标归为六大类——整体发电量、对工业生产有明显需求拉动的行业,以及四个行业增加值占比排名靠前的重点行业(汽车、化工、钢铁、煤炭)。关于相关性,我们不仅进行了传统意义上的相关系数测算;还从拐点变动的角度,观察高频指标是否与工业增加值同比具有一致的拐点变化。最终,我们筛选得到了19项高频指标,除了广义汽车产量和挖掘机销量是先于工业增加值公布的月度数据以外,其余17个指标均为周度或日度指标。我们进一步观察到三点信息:第一,整体上,自2010年以来的149个样本中(剔除1月),各类高频数据平均有四成时间(57个月,占比38%)与工业增加值增速的变动方向保持一致。疫情发生以来,这一比例提升了14个百分点至52%,说明了疫情后工业增加值波动变大,“历史不再重复”,基于高频数据的预测更有必要。第二,相关系数角度,与工业增加值同比相关性较高的高频指标依次是,广义乘用车产量同比(0.67)、PTA产业链负荷率(0.61)、粗钢产量同比(0.58)、半钢胎开工率同比(0.58)、PTA开工率(0.55)、全钢胎开工率同比(0.51)、十大城市商品房成交面积(0.46)、石油沥青装置开工率(0.44)、6大发电集团耗煤量同比(相关系数为0.4)。而部分指标在疫后与工业增加值同比相关性提升较快,比如挖机销量疫后提升至0.76。第三,拐点变动角度,与工业增加值相关系数较高的指标均有近50%的时间拐点变动也与工业增加值同比一致。并且,疫后地产、基建类指标的预测胜率提高明显,石油沥青开工(提升26个百分点)、钢材库存(提升22个百分点)、地炼开工(提升22个百分点)、十大城市商品房成交面积(提升20个百分点)。同步扩散指数如何构建?胜率几何?有何提示?简单来说,我们构建的同步扩散指数实质上是生产端重点行业高频指标每月同比增速较前值的变动值为正的占比,提示的是当月工业增加值同比可能的变动方向。单这一点对于预测工业增加值已经有一定意义。我们的数据回溯显示,同步扩散指数能够很好地捕捉工业增加值同比的变动,2010年以来胜率达到了65.1%,疫后(2020年以来)提升至74.4%。我们利用投入产出表中高频指标涉及的重点行业的行业增加值占比作为权重。配权过程中,对于上下游广泛的基础性原料行业,如化工、钢铁,我们不仅考虑自身行业的增加值占比,还汇总上下游行业的增加值占比作为权重。合成的同步扩散指数本质上是当月高频数据同比变动为正的占比,我们定义50%为同步扩散指数的“枯荣线”,大于50%即说明当月经过加权后有超过半数的高频指标指示工业增加值同比将向上变动。结果显示,同步扩散指数能够很好地捕捉工业增加值同比的变动,2010年以来胜率达到了65.1%,疫后提升至74.4%。加权处理后的同步扩散指数相比不考虑权重的指数胜率提高了5.2个百分点。在疫后10次的偏差中,5次偏差都出现在年底或者年初,3次出现在10月,剩余两次分别是2020年8月以及2023年6月。剔除岁末年初之后,预测胜率进一步提升至87.2%。如何进行工业增加值读数的短期预测?我们构建了同步扩散指数II与工业增加值同比的ARDL模型。“AR”为自回归部分,融入了工业增加值前期值,表征历史规律性;“DL”为分布滞后部分,融入了高频指标以及高频指标前期值,表征当下和近期高频信息带来的“新息”。简单来说,这种方法是既有预测方法优缺点的一个集合,我们既利用了多项高频指标信息,又通过“提取同比变动、配权、合成同步扩散指数”来过滤噪音,又兼顾了工业增加值自身前期波动的影响,比任何一种既有的单一方法更综合,预测精度也更细。比如这一模型下样本外预测7月工业增加值同比区间为3.69%~4.04%,最终7月实际工业增加值同比为3.70%。在2010年1月至2014年12月期间,仅用工业增加值自身规律推演就能得到不错的预测效果。2015年后,同步扩散指数II的滞后期对工业增加值的影响明显提升。疫后,同步扩散指数II的当期值主导了工业增加值同比的波动。经过系数折算出贡献率,我们可以更清晰地看到这一特征,2010-2014期间,99%的模型解释力中,工业增加值过去值贡献了73%,高频信息贡献了26%;2015-2019期间,99%的模型解释力中,工业增加值过去值贡献了33%,而高频信息贡献了66%;2020年以来,总共75%的模型解释力中,工业增加值过去值贡献了3%,而高频信息贡献了72%。样本外推算7、8月份数据,与同步扩散指数提示方向一致,前者波动区间为3.69%~4.04%,后者波动区间为4.00%~4.65%。上述过程实质上已经完成了预测。不过,通过ARDL模型预测工业增加值同比的方法,本质上只单纯使用了高频数据的变动方向,而不是变动幅度。优点是简洁方便地择取了高频数据的有效信息,过滤了高频数据的高波动噪音,缺点是折损了部分有用高频信息,即不是所有的高频指标高波动都是噪音。有没有其他方法可以避免这一点?混频MIDAS模型可以直接利用高频数据对低频数据进行建模,虽然受高频指标高波动的干扰,导致预测结果的区间较宽,但同样能帮助我们进行辅助判断。利用同步扩散指数初判方向,再以此为解释变量,通过ARDL模型预测工业增加值同比的方法,本质上只单纯使用了高频数据的变动方向,而不是变动幅度。优点是简洁方便地择取了高频数据的有效信息,过滤了高频数据的高波动噪音,缺点是折损了部分有用高频信息。并且,构建同步扩散指数的第一步就是将高频指标进行降频处理,过程中损失了高频指标月内更详细的波动信息。混频MIDAS模型结果显示:第一,2020年起混频MIDAS模型拟合度达0.98,明显高于ARDL模型的0.75,说明对于疫后工业增加值的预测来说,高频指标的信息更为重要,融入变动幅度的信息之后预测精度提高,这一特征与ARDL的结果一致。第二,观察各时期的误差大小,混频MIDAS回测结果更为震荡。比如在2020年至2021年一季度期间工业增加值增速的读数基本上平滑上升,但MIDAS拟合结果却是震荡上升的,上升趋势中有多处反复点,印证了虽然混频MIDAS预测更有效地利用了高频数据,但也受到高频数据波动较大的干扰。所以在使用中,不同方法可以相互印证和参考。风险提示:一是高频数据选择或存在偏差;二是同步扩散是各类高频数据方向变动的集合,处理方式较简单,若当月经济真实生产端状态波动较大,可能会丢失高频数据在变动幅度上的有效信息;三是与ARDL建模相反,当混频MIDAS回归对高频信息的改进效果低于被其高波动的反噬干扰,则预测结果将打折扣。
目录
正文
PART1市场中已有的三类预测方法
对中国而言,工业增加值有“小GDP”之称,2023年6月占GDP现价比重达到了32.4%。从国际比较来看,世界银行的数据也显示我国的工业增加值占比远超过美国、日本和全球水平。这一指标相对GDP更高频地从供给端反映着经济的“冷暖”,因而也广受市场关注,目前市场中已有三类预测方法。我们总结如下:
方法一是从工业增加值最本质的计算方式出发,通过各子行业产量数据,加权合成整体工业增加值。具体而言,本质上看,工业增加值是规模以上工业企业在经济系统中进行工业生产活动的最终成果,有采矿、制造业、公用事业三大类和41个中观行业。由于工业增加值=工业总产值(包含出口交货值贡献)-工业中间投入+本期应交增值税,因此,选择代表性工业产品当月产量的同比,乘以相应的行业权重,可以近似得到工业增加值的同比变化。这一方法准确性较高,并且可以观察结构上各个行业工业增加值的变化。方法二则直接利用工业生产领域的高频指标,进行单一指标或多项指标线性回归。部分指标,比如用电量,PMI与工业增加值在历史上有较好的趋势一致性。比如从历史上看,工业增加值与国内发电量、发电耗煤数据存在较强相关性。仅靠发电耗煤数据的月同比变动预测工增的同比变动,胜率可以达到50%。方法三是直接利用工业增加值同比指标自身的波动规律进行外推,例如常见的ARIMA模型等。这类预测出发点是基于工业增加值较强的季节性和周期性,不需要任何高频信息。本质上,这是一种纯粹自回归预测思路,蕴含着“历史会回归、会重复”的假设。在国内经济运行平稳或者仅有小波动的时期,这种简单时间序列的建模方式是可行的并且效果较好的。工业生产的内生动力较强,很难受到经济中小波动小冲击的影响。即便单一行业的生产经营容易发生变化,但就整体而言,工业企业整体的生产状况也常常保持稳定。
PART2如何才能“见微知著”?
(一)市场中已有预测方法的缺陷
上述三种方法均有其价值,但缺点也很明显,比如或只能用于解释过去;或只能预测中期(1个季度以上)的趋势,而无法较准确实时跟踪工业增加值的单月波动;抑或预测结果本身波动性较大,颗粒度较粗,预测的现实意义有限。特别是疫情后,工业增加值波动变大,“自身趋势外推法”的假设前提(历史会重复)被打破,预测效果明显打折扣。方法一 “行业产量数据”合成法缺点在于只能解释过去,观察结构,不能预测未来,因为各行业产量数据公布的时点晚于工业增加值公布。方法二简单“高频指标”回归法也会出现误判,部分常用的观测指标,比如用电量,PMI与工业增加值在历史上有较好的一致性,但细看单月波动,高频指标与工业增加值的单月变动在不少月份是背离的。比如从历史上看,工业增加值与发电耗煤数据呈现“整体强相关,单月常背离”的现象。因此,用单一高频指标做近月短期预测,给出的单月预测结果常常方向相反。而综合多项高频指标的方式又非常多样,合成、降维以及如何配权都是难点。比如,有简单使用线性回归将多项高频合成的,这种方式同样不仅预测效果一般,并且更多是解释过去,预测中长期趋势,并没有好的近月预测效果,多个月份在数值甚至方向上都会出现预测偏差。方法三“自身趋势外推法”蕴含着“历史会重复”的假设前提。当重大冲击来临时,比如疫情,预测效果会打折扣,往往难以提前预测到拐点。简单来说,这种预测方式下的近月预测颗粒度较粗,一方面,在重大冲击来临之前,这种方式无法及时反映高频信息中的“新信息”,低估波动,拐点判断滞后,另一方面,在冲击发生之后,这种方式又会过度反映历史刚发生的“异像”,高估波动,预测颗粒度较粗。 由上,“见微”不一定能“知著”,但高频数据是我们预测方法论的基底,因为此时高频数据中的“新息”能够及时反映出指标异动,特别是在疫后,在面对指标波动加大,自身规律性变差时,这种方式预测效果较好。因此,我们的方案是,“用同步扩散指数辨方向、用ARDL模型做预测、用混频(MIDAS)回归打辅助。” 首先,我们只聚焦在重点行业工业生产强关联的多项高频指标,既不穷尽四十多个细分行业,也不依赖某一指标。其次,我们只提取高频指标中的方向变动信息作为有用信息,过滤掉高频指标月际之间数值上的高波动。至于哪些高频指标对工业增加值影响更大?我们则按照行业工业增加值的占比进行加权,初步合成“同步扩散指数”,用于辨明下期工业增加值同比变动方向。 “同步扩散指数”是我们对下期工业增加值变动的初探,是一个方向性的指引。进一步地,我们将构造的同步扩散指数与工业增加值同比进行回归。我们构造了ARDL(自回归分布滞后)模型,自回归部分融入工业增加值历史波动的规律,分布滞后部分融入高频指标带来的“新息”。简单来说,模型将捕捉“工业增加值滞后期对当期的影响”、“高频指标以及其滞后期对工业增加值当期的影响”,进而给出一个具体工业增加值同比数值的预测。 在利用ARDL(自回归分布滞后)模型进行核心预测之后,我们同样意识到,我们对高频信息的处理思路是,为了不受高频数据的高波动影响,只提取高频数据的方向变动信息。不可否认,这种方式必然会损失部分高频数据变化幅度上的有用信息。因此,为了能直接利用最全面的高频信息,我们也直接将周度或日度的高频数据与月度工业增加值同比进行混频(MIDAS)回归。但得到的预测只能作为我们的一种辅助判断,因为结果显示,混频MIDAS回归的确会被高频数据的高波动反噬,预测结果更容易大起大落,颗粒度较粗。此外,混频(MIDAS)回归需要样本中各指标具有一致的起始和结束点,因此,样本点会减少,同时,预测8月工业增加值需要等到8月高频指标全部出炉,即至少等到8月31日才能进行。能进行预测的指标要符合两大标准,一是公布时点要早于工业增加值,这样可以用于预测,二是要与工业增加值或者分项相关,具有预测信息。对于符合后者条件的指标筛选,我们并不是穷尽工业增加值40多个子行业,而是聚焦在几个重点行业。通过2018年的投入产出表计算,可以看到工业增加值中“非金属矿物制品业、化学原料及化学制品制造业、电力、热力的生产和供应业、汽车制造业、计算机、通信和其他电子设备制造业、黑色金属冶炼及压延加工业 、农副食品加工业、电气机械及器材制造业、煤炭开采和洗选业”等前十大行业占比接近7成,抓住各些重点行业的增加值波动就能大致了解工业增加值变动的方向。除了重点行业高频,我们还选择了地产、基建类的高频指标,主因这些行业是对工业生产产生大量需求的行业,是重点行业高频指标的补充。事实上,有些重点行业,比如非金属矿物制品,高频指标并不多,但是可以通过地产、基建高频反映出来。
基于以上两点考虑,我们从7个方向,选取19个高频指标,除了广义汽车产量和挖掘机销量是先于工业增加值公布的月度数据以外,其余17个指标均周度或日度指标。
我们在建模预测之前,首先对高频数据进行降频处理,然后观察其与工业增加值同比之间的相关性。除了传统的相关系数外,我们还考察了序列间拐点变动是否具有一致性。因为不少高频指标波动较大,与变化较平稳的工业增加值增速走势在变动幅度上有较大差异,直接计算统计相关性可能并不高,而实际上,指标可能在拐点处与工业增加值的拐点有一定的同步性。
结果显示,总体上,自2010年以来的149个样本中(剔除1月),各类高频数据平均有四成时间(57个月,占比38%)与工业增加值增速的变动方向保持一致。特别是其中的十大城市商品房成交面积月同比、广义乘用车产量月同比、挖机销量同比、6大发电集团日均耗煤量月同比、唐山钢厂高炉开工率月同比、重点企业粗钢日均产量(旬)月同比这6个指标,与工业增加值增速平均有75个月份变动方向一致,占比达到了50.3%。此外,值得注意的是,疫情发生以来,这一比例提升了14个百分点至52%,再次说明了疫情后工业增加值波动变大,基于高频数据的预测更有必要。分项中,疫后提升较大的依次是石油沥青开工(预测胜率提升26个百分点)、钢材库存(提升22个百分点)、地炼开工(提升22个百分点)、十大城市商品房成交面积(提升20个百分点)等,似乎说明疫后地产、基建类指标的变化对工业增加值的波动的影响明显提升。
需求端,工业用电占我国电力需求的7-8成。供给端,火电发电则是我国发电的主要方式。而发电和用电之间间隔时间较快,几乎同时完成。因此,从电力的供需视角看,发电厂的耗煤量就与工业企业生产状况有了密切关联。而从数据上看,6大发电集团耗煤量同比与工业增加值同比整体趋势一致,单月波动存在部分背离。两者相关性系数自2010年以来为0.4,疫情之后提升至0.53。从拐点变动看,无论在何时间段,耗煤量都与工业增加值有接近50%的时间变动方向完全一致,说明发电数据与工业增加值具有稳定的相关性,历来是预测工业增加值的重要指标,但依赖于这一单一指标做出的判断只有50%的胜率。汽车行业增加值占比超7%,且产业链较长,是工业生产的重要部分。高频数据中,市场中常用的指标是汽车全钢胎、半钢胎开工率。全钢胎多用于商用车,半钢胎多用于乘用车,两者都是汽车生产端的重要配件。广义汽车产量是少数月频但公布时点早于工业增加值增速的指标,是汽车生产全面并且直观的反映。从相关性系数看,全钢胎开工率同比与半钢胎开工率同比都与工业增加值同比有较强相关性,前者为0.51,后者为0.58,侧面反映作为多用于乘用车和轻卡的半钢胎更与汽车生产端关系紧密。广义乘用车产量同比与工业增加值同比的相关系数最大,2015年以来达到了0.67,疫情后进一步达到了0.7。 拐点变动上,半钢胎在整个历史上有58个月(占比39%)、全钢胎有52个月(占比35%)、而乘用车产量有79个月(占比53%)与工业增加值变动方向完全一致,这说明汽车类高频也具有一定预测能力,但单一来看,胜率也至多在50%附近。化工行业是非常重要的中游基础性产业,产业链中涵盖了较多子行业,不少属于轻工业范畴。除了其自身行业增加值占比排前二以外,该行业上下游关联的重点行业较多。上游涉及石油天然气等燃料行业,下游先是化学纤维、非金属矿以及橡胶和塑料制品,再对应纺织、纺织服装、皮革制鞋、汽车和电子通讯设备、机械设备。
我们选择地炼开工率、PTA开工率、PTA 产业链负荷率等指标进行跟踪。PTA开工率系列除了江浙织机相关性较低以外,其余都与工业增加值同比的相关性超过0.5。地炼开工率与工业增加值同比相关性也超过0.5。并且,从趋势上看,该类指标也与化工行业工业增加值同比有较强相关性。拐点变化角度,2010年后,平均有34%的时间与工业增加值变化一致,疫后提升至50%。
(四)重点行业之三:黑色金属冶炼及压延加工业
钢铁行业是工业众多行业的中游枢纽,牵动上下游多条产业链的生产情况,包括建筑和设备类,同时,该行业又可以找到较多的周度高频数据进行跟踪。
我们主要考察了高炉开工率、粗钢、生铁、钢材以及高炉炼铁产能利用率指标。高炉开工率系列与工业增加值直接的相关系数并不大。但从走势上看,开工率与工业增加值中的黑色冶炼压延行业增加值同比更为贴合。从拐点变动上,唐山钢厂高炉开工率同比与工业增加值在历史上有73个月,占比49%的时间变动一致。生铁粗钢产量作为中游产量,是下游建筑、机械设备类生产的景气刻画,也同样于工业增加值同比走势较为贴合,尤其是粗钢产量,相关系数达到了0.43,71个月(占比48%)与工业增加值变动一致。
(五)重点行业之四:煤炭开采和洗选业
煤炭行业同样是基础性原料行业,我们选择了焦化企业开工率以及煤炭库存,两者与工业增加值增速的相关性约在0.2左右。虽然直接相关系数一般,但我们看到两者的拐点变动在疫情后与工业增加值变动较为一致,胜率分别达到了41%和46%。最后,除了工业行业中的重点行业外,我们也考虑了对工业生产产生较大需求的下游地产基建类高频指标。地产方面,我们选取了十大城市商品房成交面积为代表性指标,其反映了一二线重要城市的地产景气,与工业增加值同比的同步性高于其他地产高频指标,相关系数达到了0.46,疫情以来进一步提升至0.79。在拐点变动上,这一单一指标预测工业增加值变动的胜率就能达到52%。疫后,两者进一步了有72%的时间里方向变动一致。基建方面,我们选择了石油沥青装置开工率,这一指标在历史上与道路运输投资增色相关性较高,能反映基建投资程度。两者相关性在疫后约为0.44,拐点变化上有40%的时间完全一致。此外,挖掘机销量代表了工程机械的销售情况,是基建和地产链景气度的综合反映。与工业增加值的相关性在整个历史上为0.22,疫后提升至0.76。拐点变化上,两者变动一致的时间占比达到50%,疫情以来进一步提升至62%。
PART4疫后同步扩散指数的方向判断胜率达74%
(一)构建工业增加值同步扩散指数的方法论为什么预测工业增加值需要先编制同步扩散指数?源于两点理由。一方面,由于疫后工业增加值波动变大,传统的时间序列趋势外推的预测方式误差明显变大。另一方面,高频指标庞杂繁多,单一指标的预测胜率最高只有50%左右,并且单一指标波动性较大。因此,利用高频数据预测是在疫后判断工业增加值变化的基底,并且有必要合成某一指标来过滤高频指标的噪音,提取高频指标的综合信息。我们构建的同步扩散指数实质上是生产端重点行业高频指标每月同比增速较前值的变动值为正的占比,提示的是当月工业增加值同比可能的变动方向。简单来说,我们只认可高频数据在方向判断上的有效性,而暂时忽略高频数据的变化幅度。单这一点对于预测工业增加值已经有一定意义。我们分别构造了等权重和加权处理的同步扩散指数,后者根据投入产出表中各行业增加值的占比对不同行业高频信息进行配权。结果显示,加权处理后的同步扩散指数预测胜率达到了65.1%,疫情后提升至74.4%。第一,我们将19项工业生产类高频指标取月度平均值进行降频,并且计算每月同比的变动值。第二,统计每个月各类高频指标同比变动为正、为负的个数。并将每个高频指标的正向或负向信息进行加权处理,权重为投入产出表中高频指标涉及的重点行业增加值占比。比如汽车行业高频指标,我们赋予汽车制造业增加值占比为权重。由于上下游涉及较多其他行业,对于钢铁、化工高频指标,我们不仅考虑自身行业的增加值占比,还汇总上下游行业的增加值占比作为权重。简单来说,化工行业高频指标,比如PTA系列,赋予的权重是化工行业、电气机械设备、汽车制造、非金属矿4个行业的增加值占比总和。同理,钢铁行业高频指标,比如钢厂开工率,赋予的权重是黑色冶炼压延、电气机械设备、通用设备、煤炭开采4个行业的增加值占比总和。这种情况下,越是重要的行业将会被赋予更高的权重。对于发电量、地产基建这类整体上拉动工业增加值同比的高频指标,我们暂时赋予权重为1。第三,我们分别编制不考虑权重和加权处理的扩散指数。以加权后的同步扩散指数为例,我们计算每月高频指标正向变动个数的占比,超过50%定义为同步扩散指数提示工业增加值将正向变动,反之,负向变动。为了解决高频指标起始点不一致,部分高频的时间序列较短问题,我们进行的是滚动迭代计算。滚动迭算会根据各个时间段有数据的高频数据调整分母。比如,2011年2月,我们能拿到的高频数据只有10项,其中7项正向变动,3项负向变动。而在2023年7月,我们拿到高频数据有19项,其中有10项变动为正,9项变动为负。在计算等权重同步扩散指数时,2011年2月使用总和10项为分母,2023年7月,使用总和19项为分母,各自为正的个数为分子。在加权同步扩散指数中,我们将这些高频个数乘以各自涉及行业的增加值占比。因为同步扩散指数已经是基于同比变动信息汇总的环比类指标,因此其自身的数值即提示工业增加值变动方向,而其变动情况则代表工业增加值变动的速度。我们定义50%为同步扩散指数的“枯荣线”,大于50%即说明当月经过加权后有超过半数的高频指标指示工业增加值同比将向上变动。在下图中,当我们将同步扩散指数的50%枯荣线与右轴社零同比变动为0相重合进行观察时,我们发现四点信息:一是,同步扩散指数位于50以上时正好对应着大量的工业增加值增速月度变动值为正。这一特征在等权重和加权处理后的指数效果中均有体现。二是,当同步扩散指数处于上升状态时,工业增加值同比增速的变动值也恰好处于上升状态。三是,分时段来看,在疫后,同步扩散指数与工业增加值同比增速变动的同步性更高,印证基于高频数据的预测在疫后效果更好。四是,加权处理后的同步扩散指数预测胜率在疫后有所提高,达到74.4%,较等权重的同步扩散指数提升了5.2个百分点。以上四点都说明我们构建的同步扩散指数能够很好地捕捉工业增加值同比的变动、变动幅度,并且对高频指标进行配权在疫后必要性更高。
我们进一步展示了具体疫后每月的预测胜率情况。可以看到,自2020年以来的39个月(剔除1月),仅有10个月工业增加值同步扩散指数预测出现了偏差。并且其中5次偏差都出现在年底或者年初,3次出现在10月,剩余两次分别是2020年8月以及2023年6月。剔除岁末年初之后,预测胜率有87.2%。 而从现有的8月扩散指数看,15项公布数据的高频指标中有11项变动为正,等权重同步扩散指数为73.33%。考虑权重之后的扩散指数为63.5%,均高于50%,提示8月工业增加值同比增速将有所回升。考虑到疫后加权后的扩散指数预测胜率更高,并且在7月的预判中,等权重同步扩散指数为52.63%,略超50%,而加权后的扩散指数为38.5%,明显低于50%,因此,加权后的扩散指数给出的提示更有意义。我们认为8月工业增加值同比可能边际回升,但幅度不大。
上述同步扩散指数对标工业增加值同比的变动。为了能直接和工业增加值同比进行比较以及方便建模预测,我们以2010年1月为基期,设为0,将每个月的同步扩散指数减去50%,然后逐月累加,最终转化的指数定义为同步扩散指数II。我们发现,2015年和疫情发生是两个重要的时间节点。2015年前,加权后的同步扩散指数II较等权重波动更大,2015-2019年期间两者与工业增加值同比贴合程度相当,而疫情后,加权后的同步扩散指数II工业增加值同比更具有同步性。
PART5如何进行工业增加值同比的短期预测?
(一)基于ARDL模型的探索
利用同步扩散指数,是否可以进一步给出短期工业增加值同比的预测数值?上文中,我们的同步扩散指数已经提取了高频指标对当月工业增加值变动的信息。经过人工过滤降维之后,同步扩散指数已经不向任何一个生产端高频指标那样高波动,胜率也比任何一个单一指标更高,特别在疫后。这似乎提示我们构造的同步扩散指数是一个能够有效预测工业增加值同比的影子变量。ARDL属于自回归分布滞后模型,模型中既包括因变量的滞后期,还包括自变量的滞后期,既可以包含工业增加值过去信息,又可以囊括高频指标信息,因此,我们运用这一模型来对工业增加值同比回归。模型系数分别代表着,工业增加值同比增速的前期值、同步扩散指数II以及同比扩散指数II的前期值对当期工业增加值同比增速的影响。我们在构建模型中前首先检验了变量平稳性,并且也检验发现工业增加值同比与同步扩散指数II存在长期效应。模型构建如下:
其中的是自回归(AR)部分,加入模型是因为工业增加值本身数据具有规律的波动,存在惯性,当期工业增加值同比增速可能会受到前几期的表现影响;是分布滞后(DL)部分,意味着同步扩散指数II对工业增加值同比的影响并不仅仅体现在当期,自变量的冲击像脉冲一样有持续多期的影响。也正因此,综合考虑下,我们认为ARDL模型是比较合适的建模选择。这种方式是既有预测方法优缺点的一个集合,我们即利用了多项高频指标信息,又通过“提取同比变动、配权、合成同步扩散指数”来过滤噪音,又兼顾了工业增加值自身前期波动的影响,比任何一种既有的单一方法更综合,预测精度也更细。预测分两步,先样本内建模,后样本外预测。我们利用2010年1月至2023年6月的数据进行建模,然后利用2023年7月、8月的高频数据进行样本外推测。考虑到工业增加值数据的年度趋势性变化,我们在模型中加入时间固定效应。在全样本区间内(2010年1月-2023年6月),数据自动选择的最优模型是ARDL(3,1,0)。整体模型的拟合优度达到了0.89,意味着工业增加值同比89%的波动已经被模型捕捉。同样从系数的显著性中,我们看到工业增加值同比的滞后一期、二期和三期都显著影响着当期工业增加值波动,自回归强度并不低,这印证了传统使用工业增加值自身季节性规律进行预测的合理性。高频信息——同步扩散指数II的影响力持续了两期,即当期工业增加值反映了当期高频数据的新信息,也反映了滞后一期高频数据。举例来说,2023年6月工业增加值波动可以被23年3-5月工业增加值、23年5、6月同步扩散指数II联合起来解释89%左右。通过系数折算出的各因素贡献,我们可以得到在这89%的解释力中,前一期工业增加值贡献了65%,而同步扩散指数II贡献24%。
高频信息与工业增加值同比之间的关系是否可以用一个模型一以贯之?两者是否存在非线性的关系?从走势图中,基于全样本建模回测的序列与工业增加值同比的贴合程度仍有改进空间。我们从同步扩散指数的构造中得到启示,可能在整个2010年以来的历史中,决定工业增加值波动的因素发生了机制变化,即前期由于经济的周期性,工业增加值自身的波动规律性更强,而后期,由于冲击的来临,高频信息在预测中的地位有明显提升。简单来说,进行分样本考察的意图是工业增加值与高频信息之间的关系并不是线性的。基于上文,我们选择2015年、2020年为时间节点。分样本建模后,模型的整体预测力在2010年1月至2014年12月、2015年1月至2019年12月期间提升至99%,而在2020年1月至2023年6月期间,由于发生了疫情这一重大冲击,工业增加值数据波动明显加大,因而仅基于高频变动信息合成的同比扩散指数II对其回归的预测力为75%。
从系数来看,在2010年1月至2014年12月期间,同步扩散指数II的预测力完全消化在工业增加值的前期值中,换言之,在这一时间段,我们仅用工业增加值自身规律推演就能得到不错的预测效果。而在2015年后,同步扩散指数II的滞后期对工业增加值的影响明显提升。而在疫情发生后,同步扩散指数II的当期值主导了工业增加值同比的波动。换言之,疫情发生后,工业增加值同比更难单纯被过去自身波动经验和过去的高频信息预测,需要实时跟踪每个月当期高频指标的波动才能做出有效预判。经过系数折算出贡献率,我们可以更清晰看到这一特征,2010-2014期间,99%的模型解释力中,工业增加值过去值贡献了73%,高频信息贡献了26%;2015-2019期间,99%的模型解释力中,工业增加值过去值贡献了33%,而高频信息贡献了66%;2020年以来,总共75%的模型解释力中,工业增加值过去值贡献了3%,而高频信息贡献了72%。
我们分别展示了全样本建模以及分样本建模的工业增加值走势拟合图,可以看到分样本之后再拼接起来的拟合走势与工业增加值同比更为贴合。平均拟合优度也提升了2个百分点。
最后,我们给出了基于ARDL的样本外预测效果。以上建模中,我们只使用了2023年6月之前的数据。为了测试建模的预测力,我们给出2023年7、8月的样本外预测。首先,我们分别利用全样本一次性建模得到的ARDL(3,1,0)与分样本建模得到的ARDL(1,0,4)、ARDL(4,3,3)、ARDL(3,1,1)进行推算,2023年7月的工业增加值同比原始预测值为2.27%、2.97%,均较2023年6月的4.4%边际回落。我们进一步进行误差调整,分别采用历史7月误差以及上月预测误差进行调整,最终得到的工业增加值预测值在3.69%~4.04%。而2023年7月公布的工业增加值同比值为3.7%,处于预测区间下沿。如果仅基于往年季节性和去年同比基数进行推测,工业增加值同比将达到5%左右,难得到7月工业增加值增速仍弱于2023年6月的结论,毕竟23年7月的PMI给出了“弱回升”的提示。从分项中,我们可以看到虽然7月上升分项有11项,超过8项下降分项。但在我们的加权方式中,我们赋予了代表整体生产的日均耗煤、挖机销量、化工类高频更高的权重,因而最终给出了7月将小幅走弱的判断。而也正因为考虑加权后的正向指标也没有明显收缩,基于此为自变量进行的回归预测中,实际的3.7%落入的是预测区间的下沿。进一步展望8月,基于截止8月23日的工业生产端高频数据,我们测算得到的8月同步扩散指数为63%,既位于50%的枯荣线之上,也小幅强于7月,这提示8月的工业增加值将有所回升。ARDL模型预测8月工业增加值同比的区间范围在2.83%~3.89%,经过历史误差调整后为4.00%~4.65%。从各类高频的明细分项来看,除了十大城市商品房销售面积、汽车全钢胎开工率、6大集团日均耗煤以及高炉开工和钢材库存外,其余高频同比均有所改善。
PART6基于混频(MIDAS)回归的辅助判断
利用同步扩散指数初判方向,再以此为解释变量,通过ARDL模型预测工业增加值同比的方法,本质上只单纯使用了高频数据的变动方向,而不是变动幅度,来进行建模,优点是简洁方便地择取了高频数据的有效信息,而过滤了高频数据的高波动噪音,缺点是折损了部分有用的高频信息,即不是所有的高频指标高波动都是噪音。
此外,除了只提取变动信息这一层面的信息损耗以外,我们构建同步扩散指数的第一步就是将高频指标进行降频处理,这一过程我们采用了简单的算术平均方式,损失了月内更详细的波动情况。那么是否有方法能更好更全面地利用高频数据呢?我们利用混频MIDAS模型进行了探索,这一模型可以直接利用高频数据对低频数据进行建模。但我们仍然把这一方式作为一种辅助参考,因为直接用高频率的自变量对低频变量进行回归的过程中,自然会融入高频自变量本身的高波动,即增加了高频数据中有效信息的利用度也就相应地会被其中的噪音所反噬,因而预测结果的区间会加大。另一个运用混频MIDAS回归的缺陷在于各序列需要具有一致的初始点和结束点,这一方面意味着样本点会有所牺牲,另一方面意味着在每个月底高频数据尚未出全时,我们无法得到关于当月的工业增加值预测。模型构建如下:
其中的是低频的工业增加值同比数据,类似于ARDL建模中的AR部分,即与因变量工业增加值同比相同频率的序列,我们在这里选择工业增加值同比的滞后一期、滞后二期和滞后三期加入。为更高频的自变量。由于混频MIDAS回归要求变量序列起始和截止时间都是一致的。因此,我们选择样本量较全的2016年作为起始点。是将高频变量转化为低频变量的函数。这里我们使用经典的Almon加权方式。下图是模型拟合结果和工业增加值当月同比的走势对比。相比于ARDL模型,可以看到:第一,在全样本区间上,混频MIDAS模型比ARDL模型的拟合优度基本相当,均为0.89。分样本建模结果中,2020年疫后,混频MIDAS模型的拟合度达到0.98,明显高于ARDL模型的0.75,说明对于疫后工业增加值的预测来说,高频指标的信息更为重要,融入变动幅度的信息之后预测精度提高,这一特征与ARDL的结果一致。第二,仔细观察各时期的误差大小,会发现混频MIDAS回测结果误差在月际之间波动更大。比如在2020年至2021年一季度期间工业增加值增速的读数基本上平滑上升,但MIDAS拟合结果却是震荡上升的,上升趋势中有多处反复点。这两点印证着上文逻辑,即混频MIDAS预测更有效地利用了高频数据,对于疫后波动加大的工业增加值数据来说,能提高预测准确度。但也受到高频数据波动的干扰更大,月际之间反复的误差更大。因此,基于混频MIDAS的预测可能从整体趋势上是较为准确的,但在单月预测上会给出较宽的区间。
最后,我们进行了样本外预测。由于建模中只使用了23年6月之前的样本,因此,在预测23年7月时,我们构建的MIDAS模型并不知道7月真实的工业增加值同比。经过历史误差调整后,模型最后预测7月工业增加值同比区间为2.94%~3.65%。而目前尚未具备8月全部高频数据,因此8月工业增加值同比暂时无法预测,至少需等到8月底。总结来看,我们认为,在使用中,不同方法可以相互印证和参考。
风险提示:一是建模采用的高频数据选择可能存在偏差,二是同步扩散是各类高频数据方向变动的集合,虽然可以有效过滤高频数据中的噪音类波动,但因为处理方式简单,可能会丢失高频数据在变动幅度上的有效信息,因此对工业增加值同比具体数值预测可能存在偏差。三是混频MIDAS回归则相反,虽然有效利用高频数据,但也会被其高波动性反噬,使得最终预测数值也出现一定偏差。
文永恒篇
【广发宏观】资产负债表衰退理论与海外经验案例的实质
【广发宏观】布局现代化:2023年中期跨周期环境展望
【广发宏观】中等发达国家从1万到3万美元跨越的国际比较
【广发宏观】人工智能对经济的中长期影响:一个宏观框架
【广发宏观】中国式现代化的内涵与影响
本微信号推送内容仅供广发证券股份有限公司(下称“广发证券”)客户参考,其他的任何读者在订阅本微信号前,请自行评估接收相关推送内容的适当性,广发证券不会因订阅本微信号的行为或者收到、阅读本微信号推送内容而视相关人员为客户。
完整的投资观点应以广发证券研究所发布的完整报告为准。完整报告所载资料的来源及观点的出处皆被广发证券认为可靠,但广发证券不对其准确性或完整性做出任何保证,报告内容亦仅供参考。
在任何情况下,本微信号所推送信息或所表述的意见并不构成对任何人的投资建议。除非法律法规有明确规定,在任何情况下广发证券不对因使用本微信号的内容而引致的任何损失承担任何责任。读者不应以本微信号推送内容取代其独立判断或仅根据本微信号推送内容做出决策。
本微信号推送内容仅反映广发证券研究人员于发出完整报告当日的判断,可随时更改且不予通告。
本微信号及其推送内容的版权归广发证券所有,广发证券对本微信号及其推送内容保留一切法律权利。未经广发证券事先书面许可,任何机构或个人不得以任何形式翻版、复制、刊登、转载和引用,否则由此造成的一切不良后果及法律责任由私自翻版、复制、刊登、转载和引用者承担。