贺骁束:每天看一眼高频数据,你眼中的经济就是连续的
关于如何学习宏观分析,我们前期先后有三篇文章出来,其中包括我的《郭磊:我一般如何写研究报告》,两位同事的《钟林楠:宏观金融如何从入门到熟悉》、《吴棋滢:读懂财政四本账的意义不亚于读懂货币政策》。我们的初心是不去写繁杂的方法论材料,那些已不稀缺,而是就每个领域写一篇1万字左右的学习框架和学习心法。上述文章阅读量很高,以各种方式发来探讨的人亦很多,足见市场对这一体例的兴趣。我们也准备在这个系列出完后,做一个简明一点的电子版合集。
在这里要分享的另一比较重要的领域是高频数据。
如果把中国经济比作一辆行进中的列车,高频数据就相当于列车的“表盘”,表盘随时描述车辆运行的基本状况。对于投研人员来说,高频跟踪这一表盘是非常重要的,它可以帮助你识别不定期出现的重要机会或风险。
此外,高频数据还有一个意义就是,它可以培养对经济的感知以及经济预测的“手感”。高频数据看多了,你就能若有若无地触摸到经济的“脉搏”。吕克贝松的电影《这个杀手不太冷》中曾描述过狙击的流程,“目光不要离开你的目标,屏住呼吸,看着他的动作,假设和他一起跑动,猜测他的下一步….”,通过高频数据感受经济和这一狙击过程非常相似。
2018年我和饭统戴老板有一个采访对话,当时我曾说有三个高频数据我每天都会看一眼,它们分别是六大发电集团发电耗煤量、30城地产成交量、螺纹钢价格。如果能每天看一眼,你眼中的中国经济数据就是连续的而不是离散的,就不容易做出一惊一乍的结论。
几年过去,六大集团耗煤量数据在WIND平台已不具备高频可得性了,但可替代的数据还是有的,高频数据的意义也是有增无减。
骁束在我们团队一直做高频数据的跟踪,持续很多年做在这一领域,应该非常有发言权。希望我们的分享能有一些参考价值。
本篇主要分为几个部分:
一
郭磊:我们平常说“高频数据”,是相对于“低频数据”比如月度、季度、年度而言的,它一般是周度或者日度数据,你怎么看高频数据对于宏观研究的意义?
贺骁束:
我理解这一意义主要包括几个方面:
其一,通过高频指标可以对宏观经济总量运行的情况做出更及时、更敏锐的跟踪与研判,“走在预期前面”。
通常国家统计局会在每个月上旬发布上个月的CPI、PPI等数据,而在每月15号左右发布上个月的固定资产投资、消费、工业等经济增长相关的指标。GDP指标是季频,就相对更低频了。严格来说,这些指标都是代表“前期”的经济情况,对我们判断经济情况而言只能算是一个“确认”,比如7月确认6月、8月确认7月,因此它们对我们判断资产定价的意义就要打一个折扣。
但通过跟踪市场上各类官方或非官方机构公布的种类繁多的高频数据,我们就可以对即时的经济情况有一个掌握。关于经济运行量的数据、价的数据每天都会有,我们甚至可以通过价格的数据拟合一个CPI、PPI出来,可以通过量的数据拟合出一个工业或消费表现出来,这个结果不一定完全准确,但在方向上应该会有参考意义的。
每个月经济数据出来后,市场预期都会有波动,证明对于月度经济表现而言,依然会存在“预期差”这个事情;那么,精准掌握高频数据,可以在一定程度走在预期前面。
其二,高频数据涵盖范围比较广泛,对于行业来说,高频指标也有见微知著的意义。
比如钢铁高炉开工率、螺纹钢价格对应钢铁行业的量价状况,它们又可以折射钢铁上游的地产等领域需求情况;地产链的高频指标如地产成交量、土地成交溢价率对于建材、大宗商品、工程机械等传统行业指数具有较强指引;而水泥价格等建材类指标又可以进一步对地产领域状况做出印证。
新产业也不例外,通过对光伏领域价格指数(SPI)的跟踪,我们可以同步跟踪这一领域的需求和供给状况。
再比如中港协的外贸货物吞吐量,它就是同期出口表现好坏的高频指标。
消费领域也一样,高频口径下的汽车销量代表耐用消费品消费;电影票房等数据代表服务类消费。
总之,通过跟踪各个领域的高频数据,我们基本可以在脑中形成一个“产业表现地图”。
其三,通过高频数据跟踪,可以培养预测手感。就像郭博经常举的那个关于杀手莱昂的例子,跟踪高频数据可以让我们和经济数据一起运动,并随时调整自己节奏不对的地方。
任何一条线都是由无数点构成的,高频数据就像一个又一个的点。它们不一定特别规律,但总归是围绕着一条趋势线分布的。我们看高频数据,就相当于根据“点”的出现,随时调整我们对于“线”的理解。
二
郭磊:高频数据的种类很多,我们分成几部分来看可能会稍微清晰一些。首先,我们来说下居民端的高频数据,常用的都包括哪些?分别映射哪些领域?
贺骁束:
说到居民端,我们似乎可以把指标分为几类:
其一,代表“居民生活半径”的地铁客运量、高德拥堵延时指数。地铁客运量共计包括北上广深等29个城市的客运量日度数据,由于GDP前十大城市地铁数据占比较高,因此我们平常可以主要分析前十大城市,以及四大一线城市地铁累计客运量的日均值数据。分布上地铁数据具有较强的季节性特征,体现为双休日以及节假日客运量显著回落,因此我们需要观测季节性走势,或者对数据进行同比处理以剔除季节性。经验上来看,十大城市地铁客运量同比与全国社会消费品零售总额同比趋势高度一致。
高德拥堵延时指数是另一个可观测的数据。拥堵延时指数统计的是城市居民平均一次出行的实际旅行时间与自由流状态下旅行时间的比值;延时指数越高,表示出行延时占出行时间的比例越大,也就越拥堵。该指数的样本城市选取较为广泛(样本共计包括100个大中城市),通过同比季调及变频处理后的城市拥堵延时数据,通常能够作为该城市居民生活半径的影子指标。
其二,代表商务活动半径的“航班执行架次”、“酒店入住率”等数据。航班相关指标包括执行航班数量、取消航班数量、计划总数等,统计范围是民航客运班机而不含货运、公务机、通用航空等其他航班。首先国内航班执行架次同样具有较强的季节性特征,节假日航班数据通常存在较大波动,因此需要对变频后的高频数据进行同比处理。其次我们通过计算航班执行总数/计划总数,能够得到一个国内航班执行率的大致情况,而这一指标与服务业商务活动、服务业业务活动预期指数同比存在较强相关性。今年二季度受疫后经济修复脉冲影响,航班执行率自今年5月见底后延续回升。
酒店入住率数据在部分行业渠道会有高频统计,它是商务活动的一个映射指标。
其三,代表服务业环境的“全国电影票房”数据。票房收入为日频且涵盖全国主要院线数据,而作为补充的黄金档票房收入则包含春节、清明、端午、五一、中秋、国庆档。我们可以通过当期数据与历史同期进行比较,对节假日及居民日常观影需求管中窥豹。需要指出的是,这一指标会受到供给因素的影响,比如某一时段有叫座的大片上映,因此具备一定偶然性;但整体来看对观测服务业需求还是具有参考价值的。
其四,代表居民地产需求的30大中城市商品房成交,100大中城市土地成交,以及城市二手房销售量价指数。地产端对宏观经济的影响不言而喻。新房销售主要通过30大中城市商品房成交面积进行跟踪,这一指标涵盖四大一线城市,以及具有典型代表性的二三线城市。通过这一系列数据,我们可以对新房成交的总量、结构有一个高频跟踪。
100大中城市的土地成交数据包括供应土地数量、供应土地占地面积、挂牌均价、土地溢价率等,通过这一系列数据,我们可以对土地市场的情况有一个高频跟踪。
二手房数据包括城市二手房挂牌数量指数、城市二手房挂牌价格指数,均又分为一二三四线城市数据。此外,中原二手房报价指数也包含部分城市的高频数据。
其五,代表居民汽车消费需求的乘用车销量数据。乘用车是居民可选消费品的代表,是宏观经济景气度的映射。同时它在社零中占比又较高,是决定社零增速的关键变量。乘联会口径的高频数据包括乘用车厂商零售、乘用车厂商批发两个口径,两者均为周度数据。通过这一系列数据,我们可以对社零口径下的汽车零售情况做一个大致判断。值得注意的是,乘用车、家电等诸多下游可选消费与地产后周期联系紧密,乘用车销量亦可作为地产销售的交叉验证指标。
三
郭磊:说完了C端,我们再来看产业端高频数据,比如各种各样的行业开工率,怎么去理清这一块的脉络?
贺骁束:
我们同样可以把它们分为几种类型:
其一,发电类数据。用电情况是衡量经济活动比较有说服力的指标,无论第一第二还是第三产业都需要用电,无论是政府部门、居民部门还是企业部门活动,也都需要用电。历史上六大发电集团耗煤量一度是跟踪工业生产的重要指标,但鉴于该指标自2020年7月以来停止更新,因此我们采用南方八省日均耗煤量、全国调统电厂日耗煤量、全国重点电厂日耗煤量、样本区域电厂日耗煤量对这一领域进行跟踪。值得注意的是这些数据更新频次并不确定,有的周度有的双周,中间亦可能存在断档,但整体还是有参考价值的。
中电联口径下的燃煤发电企业日均发电量是另一组值得重点跟踪的指标。两组发电量均为周度指标,同时中电联亦将公布燃煤企业日耗,以及发电量的同环比周频数据。
当然,这里需要指出的是,如果外生因素对用电情况存在较强的短期扰动,比如高温导致用电量骤增,或者电力供给阶段性不够,那么用电量对于经济活动的衡量也存在有偏性。
其二,中下游开工率数据。中游代表性较强的行业包括钢铁、化工等。我们通常根据重点钢企粗钢产量、高炉开工率、螺纹钢和线材库存对钢铁领域进行跟踪;基于焦化企业开工率、PTA开工率、江浙织机负荷率、PX开工率等对化工产业链情况进行跟踪。
下游汽车生产则主要以半钢胎、全钢胎开工率进行跟踪。半钢胎与全钢胎主要是车身载重量的区别,全钢胎一般是货车或者商用车,半钢胎通常是家用车。通过这两个数据的跟踪,可以跟踪到汽车行业的需求情况。鉴于汽车在工业增加值中的高占比,它也是窥测工业增加值的一个重要指标。
柯桥纺织价格指数是一个价格数据,但它映射的是纺织服装业的景气度。从历史规律看,柯桥纺织价格指数同比基本同步于纺织服装业工业增加值同比,同时对于化工行业指数亦具有较强指引。
对我们观测工业来说,需要综合观测,若有较多的高频生产指标于本月出现好转,则当月工业增加值、重要工业品产量修复的概率亦偏大。
其三,基建相关指标。平常常用的主要是石油沥青装置开工率。在前期报告《基建:如何在四个维度下进行跟踪》中,我们把它当作观测基建的主要指标之一。石油沥青装置开工率涵盖华东、华南、华北、西北、东北、山东地区,公布频次为周度。数据存在一定季节性,沥青作为应用广泛的防水防腐材料,代表其终端需求的施工环境受户外开工条件影响,每年的8-10月为沥青消费主要旺季。因此在指标具体应用中,我们需要观测季节性走势,或者对开工率做同比处理以消除季节性。石油沥青装置开工率与道路运输业投资增速吻合度较高,与整体的基建投资增速走势亦有相对较高的相关性。
此外,根据水泥出库量、水泥库容比也可以跟踪建筑业需求的情况。
其四,物流类数据。最常用的是全国整车货运流量指数,同类型衍生指标还包括全国快递企业分拨中心吞吐量指数、全国公共物流园吞吐量等。全国整车货运吞吐量指数由G7发布,它是以2019年为基数,即指数反映的是每个阶段的读数相当于2019年同期的比例。除总体数据外,还包括分省份的整车流量日度数据。货运表面上是物流,背后是物流所映射出来的订单和产成品出货情况,所以整车货运量指数能够较好的反映全国、乃至各省的工业活动情况。以本轮疫情后为例,5月至今伴随各地疫情趋于好转,全国复工达产推进,整车货运量逐步回暖,7月起该数据又呈现放缓和徘徊特征。
其五,新兴产业类数据。产业趋势上新能源、新能源车、集成电路等新兴制造业行业正在崛起,对这些产业的观测会越来越重要。目前这些产业均已形成一个庞大的上下游产业链体系,但可跟踪的主要是月度数据,更高频的数据相对有限。对新能源电池来说,我们可以观测六氟磷酸锂、碳酸锂等领域的价格;光伏产业链有一个综合指标叫“光伏行业综合价格指数”(SPI)。集成电路方面主要跟踪费城半导体指数(涵盖全球半导体设计、设备、制造、销售等代表性公司综合景气度)、DXI指数(代表DRAM即内存产值变化的景气度指标)。通过中关村电子产品价格指数(包含一系列分项)可以观测传统消费电子产品价格变化趋势。
四
郭磊:我们再来看外需类高频数据。出口历来是宏观指标里面最难判断的,主要是通过什么高频指标对出口进行跟踪?
贺骁束:
出口指标的跟踪通常分为量价两个维度。
价格类主要是SCFI、CCFI等运价类指标。一般来说,油运、干散货运输对应原材料和初级产品;鉴于我国出口主要是工业制成品,因此与集装箱运输联系较为密切的价格指标对我国出口的研判意义更大,运价相关的高频指标主要为出口集装箱运价指数。平常常用的上海集装箱运价指数(SCFI)与中国出口集装箱运价指数(CCFI)为周频数据,涵盖美东、美西、欧洲、东南亚、日韩等我国主要贸易伙伴航线运价。2015年至今 SCFI 同比与我国出口增速趋势性相关。
数量类主要是中港协沿海主要枢纽港口外贸货物吞吐量。港口吞吐量指标由中国港口协会(中港协)发布,更新频次每月上中下旬各三期,分别涵盖每月1-10日、11-20日、21日至月末数据。其中包括沿海重点枢纽港口,沿海八大集装箱枢纽港口,两大口径的外贸吞吐量。除了出口之外,中港协将同时公布重点监测港口煤炭、原油、矿石吞吐量数据,这一指标可表征干散货进口景气度。
可以作为外需同步参考指标的是韩国旬度出口数据。韩国旬度出口数据包括韩国前10日、前20日出口增速。韩国作为全球主要外向型经济体之一,其出口增速是全球外需的映射,所以有说法韩国经济是全球宏观经济的“金丝雀”。历史数据显示韩国前10日、前20日出口增速均与国内出口相关性较高,两组数据由韩国海关于每月11、21日发布,通常而言前20日出口数据准确性更高。
另一交叉验证指标为“BCI企业招工前瞻指数”。通常而言,月末公布的PMI新出口订单指数可作为出口订单的指向指标。但近两年受出口结构变化等因素影响,PMI新出口订单自疫情以来的指向时有偏差。我们在此采用长江商学院的“BCI企业招工前瞻指数”作为出口的补充验证指标。近十年来BCI招工指数与表观出口趋势大致一致,尤其自疫情以来两者趋势更是鲜有背离。一个可能的解释或是出口本来就是劳动密集型行业,疫情后由于服务业发展受约束;建筑业增速分化,出口型产业在用工中的决定弹性进一步提升。
五
郭磊:我们再来看价格类指标。我们这里指的价格类指标不是映射行业需求的价格,而是映射通货膨胀的指标,即确实能够对PPI、CPI产生影响的,这些指标怎么高频跟踪?
贺骁束:
我们分PPI、CPI两个指标体系去看。
首先是PPI体系的高频指标。总的来说,PPI受内需定价工业品和外需定价工业品影响。
内需工业品价格可以依赖的高频指标包括螺纹钢价格、Myspic综合钢价指数;动力煤价格、焦煤价格;全国水泥价格指数;玻璃价格指数;生产资料价格指数;南华工业品指数、南华综合指数等。
外需工业品价格可以依赖的高频指标包括原油价格(比如可以用IPE布油价格)、CCPI化工品指数、LME有色金属现货价等。
我们可以基于煤、油、钢等主要工业品价格对PPI构建回归模型,模型显示最小二乘法下PPI与滞后一阶动力煤期货价、IPE布油、螺纹钢期货价具有较强相关性。也就是说PPI同比拐点通常滞后于高频价格数据一个月左右。
如果更简单一些,由商务部发布的生产资料价格指数(周频数据)与PPI具有较高的的相关性。
其次是CPI体系的高频指标。CPI主要包括衣食住行等八大门类,其中食品项占比三成左右并主导了CPI走势,食品项又包括粮食、食用油、鲜菜、鲜果、畜肉等8大子类食品。
每一类型都会有高频数据,比如猪肉有农业部批发价、22省市猪肉平均价;蔬菜有28种重点监测蔬菜平均批发价;水果有7种重点监测水果平均批发价,以此类推,我们可以就每一类食品项找到其对应的高频指标,然后再对高频指标取均值转化为月频数据。
此外,相关部门也有一系列成形的价格指数,比如商务部的食用农产品价格指数(商务部选择八大类食用农产品,跟踪全国36个大中城市农副产品批发市场样本所编制的周度数据)、农业部的菜篮子批发价格200等指数(农业部以2015年农产品样本市场平均价格作为基期编制的日度数据)。这些价格指数编制质量相对较高,可以用于常规跟踪。
在蔬菜价格波动较大的时候,还可以辅助观测蔬菜基地山东的“山东蔬菜批发价格指数”。
关于非食品价格我们主要通过义乌小商品价格指数(反映小商品市场的市场景气活跃程度和价格变化,能够较为准确映射实物商品贸易动态)进行跟踪。我们对这一指标跟踪比较早,曾经有报告《从义乌小商品指数和CPI背离看通胀结构趋势》。
还有一个可参考的指标为iCPI(清华大学基于互联网在线数据,所编制的居民消费价格指数,共分为日频、周频及旬度)。该指标参照国家统计局CPI篮子,通过计算并发布各级iCPI的周指数和日指数,涵盖食品烟酒、衣着、居住、生活用品及服务、交通和通信、教育文化和娱乐、医疗保健、其他用品和服务等8大类。从iCPI环比与CPI环比的走势对比来看,有些时段会有背离,但整体趋势吻合度还是可以的。
六
郭磊:投研人员在使用高频数据的过程中,应该注意什么?或者换句话说,高频数据这块有没有什么“心法”?
贺骁束:
我主要谈三点吧:
高频数据的选取要遵循清晰的产业链逻辑,并尽可能交叉验证。科学研究的基本过程是归纳-演绎-验证,在高频数据的选取过程中,我们需要同时基于产业链层面的真实性(数据归纳),经济层面的自洽性(逻辑演绎)、数据层面的可验证性(证实),尽可能“致广大而尽精微”。以房地产投资为例,螺纹钢价格、建材出货量等数据比较偏现象,土地成交面积等比较靠近于产业链本身,玻璃销量、挖掘机开工小时等数据又可以作为相关产业链进行辅助验证。
从统计意义上讲,任意系统都将因微小的随机波动而形成具有相互抵偿性的随机误差,减小随机误差的方法只能依靠增加平行测定的次数。而高频指标的测定无法进行多次实验,甚至由于样本范围数据质量等问题,仅依赖单一指标还将放大系统误差的出现概率。因此综合多种同类指标进行交叉验证可抵偿随机误差。
高频数据要通过多种方式进行细节处理,需保证量纲一致性。高频指标多来自于产业端数据,其数据规范、发布方式与官方数据存在偏差。其次由于发布频次相对“高频”,数据及时性的背后通常存在统计口径、样本质量参差不齐等问题,因此我们需要基于两大原则对高频数据进行处理。
首先是计算口径一致性,例如研判CPI、PPI等通胀指标,我们需对高频价格进行月度平均处理(而非直接采用期末值)。其次同比环比的一致性,有些高频指标是扩散指数,本质是环比,就不能直接和同比指标对应。再次是是保证存量-流量类型的一致性,例如根据高炉开工率(存量指标)研判月度粗钢产量(流量指标),需将存量指标开工率通过移动平均等方式取均值,进而再实现分析比较。
整体而言,我们的数据处理方式主要包括但不限于环比、同比、差分等等,以保证高频数据与所跟踪的官方指标量纲一致性(同环比一致、存流量一致),以达到提升高频数据质量之目的。如前所述,我国出口相关高频指标中,与集装箱运输联系较为密切的CCFI、SCFI等指标对出口具有一定研判意义。但受贸易秩序失衡导致的集装箱供给不足、调配失序等影响,2020-2021年出口集装箱运价指数大幅上行,直至目前仍处于历史较高水平,但如果我们将运价指数等指标作同比处理,处理后2015年至今的SCFI同比,即与国内出口增速趋势性相关。
当高频数据结论和月度数据指向不一致的时候,进一步观测资产定价隐含的前提更靠近哪个,慎于判断对错但锁定其中的“预期差”。假如是月度数据在指向上比较乐观,高频数据在指向上比较谨慎,这种情况应该怎么办?哪个是更值得参考的?实际上结论要慎下,我们可以先观察股票、债券、商品走势所隐含的前提更靠近哪个,寻找出其中的预期差来。在此背景下,我们一则可以通过下一阶段数据对相关领域情况进一步观察;二则可以推演当前的预期背离所隐含的不同情形下的胜率和赔率。