查看原文
其他

搞事情专栏|因子投资中的无监督学习

搞事情因子小组 因子动物园 2022-05-14


本文是搞事情因子小组专栏文章。作者:

未经授权,禁止转载!

【写在前面的话】本文技术性较强,请慎重食用。写作时已尽可能简化技术细节,但仍难免涉及部分公式与推导。对方法和实证结果细节感兴趣的朋友,请参考原文。

30 秒速览近年来,以 PCA 为代表的无监督学习方法在实证资产定价中得到了更广泛的应用,本文对此进行梳理介绍。
目录:
01. 简介
02. 潜在因子模型
03. 估计因子溢价的三步法
04. Instrumented PCA
05. 添加一阶矩信息
06. 结语

1. 简介

由于实证资产定价和因子投资中的核心问题是预测股票未来收益,因此,有监督学习是主要的建模方法(参见【054】因子投资中的机器学习),而无监督学习则使用得较少。
但近年开始有了变化。一些新研究通过引入无监督学习算法,改善了一些经典的估计方法的表现,也使得无监督学习成为了实证资产定价和因子投资中的重要工具。
因其简单有效,主成分分析(principal component analysis, PCA)颇受重视。资产定价领域的相关应用,也主要集中在对 PCA 方法的应用和拓展上。
而 PCA 方法能得到更多应用,则与经典的因子溢价估计方法面临的问题有关。经典方法包括 Fama-MacBeth 回归和因子模拟组合方法。
其中,因子模拟组合是指通过时序回归,将待估计的因子映射到一系列测试资产上来估计其因子溢价,这实际上便是用测试资产的组合来模拟待估计因子,因而得名因子模拟组合。该方法在估计宏观经济因子这样的 nontradable factors 时使用较多(顺便插一句,园长自己前段时间刚用这方法做了一项关于 nontradable factors 的研究,对后文将介绍的 Giglio and Xiu (2019) 提到的一些问题有切身体会)。
这两种方法都需要明确指定因子结构,才能进行有效估计。但越来越多的研究指出,我们其实并不知道真实的定价因子是什么,因而更加倾向将真实因子视作潜在因子(latent factors),并利用因子分析方法来同时估计因子暴露和因子溢价。PCA 方法也就随之进入实证资产定价的舞台。
不仅如此,FM 回归和因子模拟组合还有一些重要问题。一方面,它们都难以避免遗漏变量和测量误差问题,这会导致估计误差。另一方面,它们刻画的主要都是静态模型,难以对动态条件模型进行估计。
此外,经典 PCA 方法的局限也促进了对 PCA 方法的拓展。一方面,从大量变量中提取的主成分往往对不同变量都有一定程度的暴露,这使得难以从经济意义上进行解释。另一方面,经典 PCA 方法主要利用因子收益率的二阶矩,但却忽视了一阶矩。通过加入一阶矩信息,可以得到更好的估计。
接下来我们逐一进行讨论。

2. 潜在因子模型

潜在因子模型(latent factor model, LFM)是统计学中很常用的一个模型,近年来,在推荐系统等机器学习实践中有非常广泛的应用。对于资产定价问题,潜在因子模型可表示如下:
其中, 是资产 期的超额收益, 期的因子溢价, 为资产 的因子暴露,而 为残差项。乍看起来,这与一般的因子定价模型无异。但潜在因子模型自有其特别之处:真实因子无从观测,即我们并不知道 ,自然地,因子暴露 也无从知晓。
此时 PCA 方法便派上了用场。通过提取资产收益协方差的主成分,可以帮助估计风险溢价和风险暴露。Giglio and Xiu (2019) 在这方面做出了开创性的贡献。

3. 估计风险溢价的三步法

在进行讨论之前,我们首先来看一下遗漏变量和测量误差问题的具体表现。为了便于理解,假定真实的资产收益服从以下两因子模型:
其中,)是测试资产的超额收益向量, 是因子在 t 期的新息(innovations), 为因子溢价,)为测试资产的因子暴露。此外,假定我们关心的是因子 的溢价(记为 ),而 是控制变量。
需要注意的是,所谓新息(innovations),即原始数据减去均值后的结果。此处采用新息,是因为Giglio and Xiu (2019) 的关注重点是宏观经济因子这样的 nontradable factors,对于这类因子而言,它们的均值同资产收益往往没有关联,因而需要去均值。
首先看遗漏变量问题。对于 FM 两阶段回归,如果在估计模型时忽略了因子 ,那么在两个步骤中都可能有误差:在时序回归中,只要两个因子是相关的, 就将是有偏的;而在截面回归中,解释变量只有 同样会导致误差,而误差大小则与 的截面相关性有关。
而对于因子模拟组合,用 表示测试资产的超额收益向量,则依据 OLS 回归有:,其中 。由于测试资产的收益也服从前述因子模型,因此 ,从而有 以及 ,其中 的协方差矩阵, 为测试资产收益残差的协方差矩阵,而 为列向量。
因此,经过简单的变换可得:。要让 ,需要测试资产同时满足 2 个条件:充分分散(从而 足够小),且可以张成真实的因子(从而 可逆)。显然,这一点并没有保证,事实上,通常是难以满足的。
对于测量误差,考虑 ,其中测量误差 同因子正交但可能同残差项相关。对于 FM 回归,测量误差的存在会导致时序回归得到的 产生偏差,进而影响到最终估计的风险溢价。
而对于因子模拟组合,当存在测量误差时,估计量变为 ,其中 。除非测量误差同测试资产收益的残差不相关,否则,测量误差的存在将引入了新的偏差。
鉴于估计因子溢价的经典方法 Fama-MacBeth 回归和因子模拟组合方法都难以规避遗漏变量和测量误差问题,Giglio and Xiu (2019) 旨在构建一种无需观测到全部的真实因子便可准确估计因子溢价的新方法
特别地,假定资产收益由如下 个因子构成的线性因子模型决定:

其中, 个真实但不可观测因子的新息[^2], 是其因子溢价,)是资产超额收益,) 是资产的因子暴露,而 为资产的特质性风险。
进一步,假定我们想要估计某些可观测因子(记为 )的风险溢价,而 同不可观测的因子 呈如下关系:
其中, 为观测误差,满足
显然, 的风险溢价应为 。但由于真实因子 不可观测,我们既无从知晓 ,也没法估计 。那这是否意味着我们就不能估计 了呢?Giglio and Xiu (2019) 给出了他们的回答:在一定条件下,是可以估计的。
Giglio and Xiu (2019) 为此提出了估计因子溢价的三步法:
  • PCA:提取矩阵 (其中, 为中心化的资产收益)的主成分,其中,因子及其暴露分别为:

    的前 个主成分。此外,为了计算的便利,通常还需将 正则化,使得其满足

  • 截面回归:用平均收益 对估计的因子暴露 进行截面回归,得到对潜在真实因子的因子溢价估计

  • 时序回归:用 对第一步提取的因子进行时序回归,得到估计

于是可以得到对 的估计:
其中,PCA 扮演了关键的第一步。为什么 PCA 可以起到如此关键的作用呢?这与计量经济学中的两个重要的性质有关。
首先,线性因子模型的旋转不变性特征指出,即便只能观察到对因子的某个满秩变换,我们仍然可以估计
其次,只要真实因子 足够强,PCA 总是可以复原对因子空间的某个旋转变换。
通过结合这两个性质,Giglio and Xiu (2019) 指出虽然真实因子不可观测,但利用 PCA 方法,仍可以准确估计因子溢价,于是有了上述三步法。
上述三步法与估计因子溢价的经典方法有着密切的联系,可以视为对它们的拓展与优化。与 FM 回归的关联是很容易理解的。
为了表述的便利,以一个待估计的观测因子为例:第一步利用 PCA 获取了真实因子 的一个旋转变换;第三步则移除了估计误差并得到了 ;在此基础上,可以构建一个旋转后的因子模型,其中,第一个因子为 ,其他 个因子为控制变量。最后,第二步的截面回归可以得到对风险溢价的估计。
而从因子模拟组合的角度看,给定待估计的因子,影响其因子溢价估计结果的关键便是测试资产的选择。因子模拟组合方法要得到渐进有效的估计,需要测试资产组合在充分分散的同时,对待估计的因子有显著的暴露。大多数选择可以保证第一点,但难以保证第二点。
而上述三步法则通过一个巧妙的选择保证了测试资产组合具有上述优良性质。特别地,可以证明,这等价于选择了一个特殊的权重: 来构建测试资产:。很显然, 是待估计的因子暴露 的一个满秩变换,可以保证测试资产对因子具有显著的暴露。而此时的测试资产,其实便是第一步中提取的主成分。
除此之外,该方法还有一个很显著的优势,它可以充分利用较多的测试资产来持续提升估计量的表现(即测试资产数量 越大,该估计越有效)。但当测试资产较多时,因子模拟组合方法可能无法使用(由于观测数有限,测试资产数量将多于观测数,从而导致无法估计风险溢价)。
Giglio and Xiu (2019) 基于美国市场的实证分析表明,相比经典方法,该估计量确实有显著的优势。
FM 两阶段回归的估计结果,高度依赖于模型考虑的控制变量,以动量因子为例,没有其他控制变量时,因子溢价为 -2.01 且非常显著,而当额外控制了 Fama-French 三因子后,因子溢价为 0.71,同样高度显著。
因子模拟组合的估计结果总体而言更加糟糕,对于不少因子,估计结果的符号都与理论相反,例如,动量、投资因子(RMW)、BAB 和质量因子(QMJ)都有正的溢价,但因子模拟组合方法的估计结果却都是负的。
三步法则可以获得较为合意的估计结果,对于可交易因子,其因子溢价与时序均值较为接近,对于加总的市场流动性、金融中介杠杆率等不可交易因子,估计结果也与理论方向一致。此外,对于一些弱因子,三步法也可以较好地估计其风险溢价。
上述研究主要考察了存在无风险资产的结果。当假设不存在无风险资产而需要估计零 beta 资产收益时,三步法有另一个很显著的优势。Fama-French 三因子等模型在这种模型设定下面临一个经典的困境,它们会得到负的市场因子溢价。Giglio and Xiu (2019) 表明,FM 回归估计的风险溢价的确为负,但三步法的估计结果却是正的,因而可以有效解决该难题
顺便说一句,该文目前还是 working paper,很好奇最后会发表在哪。从其创新性来看,感觉 top 3 应该是很有可能的。
Rapach and Zhou (2019) 则构建了稀疏宏观因子(sparse macro factors)并利用上述三步法来估计其风险溢价。具体而言,他们用稀疏 PCA 方法取代了传统的 PCA,旨在不过度牺牲对数据变化的解释能力的基础上,显著提升 PCA 主成分在经济意义上的可解释性。
他们从 120 个宏观经济变量中提取了 10 个稀疏主成分,并指出这些主成分可大体对应收益率水平、通胀率、产出率等经典指标,因而具有极好的可解释性。
在此基础上,Rapach and Zhou (2019) 利用 Giglio and Xiu (2019) 的三步法估计了稀疏宏观因子的因子溢价,并发现收益率水平、住宅和乐观情绪有显著的风险溢价,因而他们用这三个因子和市场组合一起构建了一个稀疏宏观四因子模型。他们指出,这个四因子模型具有同 Hou, Xue, and Zhang (2015) 四因子模型和 Fama and French (2015) 五因子模型可比的解释力。

4. Instrumented PCA

Kelly, Pruitt, and Su (2019) 指出经典的 PCA 只适用于估计静态模型,而对于动态条件资产定价模型则无能为力。Kelly, Pruitt, and Su (2019) 为此引入了 Kelly, Pruitt, and Su (2017) 构建的工具变量 PCA 方法(IPCA),并提出了一种新的估计方法。
特别地,他们的新方法基于以下两个精彩洞见。
首先,公司特征可能对其因子暴露有影响。事实上,关于这一点,近年学术界有很多讨论,公司特征对因子暴露有影响可谓是基本共识,更有甚者,Jegadeesh et al. (2019) 认为应该用公司特征取代对应的因子 beta 作为因子暴露(公众号【川总写量化】的Which Beta ?一文对此有详细介绍)。这使得用公司特征当作因子暴露的工具变量成为可能。
其次,一家公司的各种特征会随着时间变化,这使得很难利用时间序列分析方法构建个股的条件预期收益率模型,因此,以往研究者更多采用组合分析方法。但组合分析的局限在于只能处理较少的特征,通常不超过 3 个。一旦需要更多特征来充分刻画资产的预期收益率截面差异,组合分析就面临极大的局限,通过将因子暴露参数化为公司特征的函数,可以较好地解决这一动态面板估计问题。
特别地,IPCA 模型假定股票 的超额收益由下式决定:
其中,)为潜在的定价因子,)为股票  的因子暴露,它可能依赖于公司特征 ( , ,包含常数项)。 为股票  的定价误差,同样可能依赖于公司特征。
利用优化问题的一阶条件和矩阵运算,可以求解 IPCA 。特别地,对于  的受限制模型;而对于  的一般模型,为了估计的便利,额外施加约束条件 
与 Giglio and Xiu (2019) 类似,IPCA 方法也可以看作是对 FM 回归的拓展。特别地,当因子与公司特征数量相等()时,特征管理组合(可表示为 )本身便是定价因子,这与 Barra 的模型思想非常类似。但当 时,IPCA 便是一个受约束的 FM 回归模型。
在实证研究中,Kelly, Pruitt, and Su (2019) 使用总 和预测性 (predictive ) 来评价不同模型的表现,其中,前者反映了系统性风险在多大程度上刻画了个股的风险,而当 时,后者体现了模型只通过系统性风险暴露刻画风险补偿的能力。
结果显示,IPCA 方法的确具有较好的表现。
相对经典的 CAPM、Fama-French 三因子等模型,有相同数量主成分因子的 IPCA 模型在两项指标上都表现更好。当使用个股作为测试资产时,经典的 PCA 有更高的总 ,但预测性 都为负;当使用特征管理组合作为测试资产时,IPCA 的表现同样优于经典 PCA 。Kelly, Pruitt, and Su (2019) 还指出,经典因子相对于 IPCA 因子的增量信息非常有限。
进一步的研究揭示了 IPCA 为何能有更好的表现。随着因子数量增加,IPCA 因子的样本外切线组合的 Sharpe 比率也显著提升,当有 6 个因子时,高达惊人的 4.05 。相比之下,Fama-French 五因子加上动量这六个因子的样本外切线组合,Sharpe 比率只有 1.37 。从均值方差检验的角度来看,IPCA 因子极高的 Sharpe 比率意味着它能在解释股票收益的共同运动的同时,通过因子暴露解释不同股票收益之间的差异。
另一个有趣而重要的问题是,IPCA 因子是否具有较好的经济意义。通过分析每一因子对不同公司特征的暴露可以发现,IPCA 因子有不错的解释性,例如,第一主成分可以粗略理解为价值因子或杠杆率因子,第二主成分对应市场因子,第三和第四主成分则分别对应动量和短期反转
最后,通过对比研究可以发现,真正起作用的是公司特征的动态变化,而非其均值水平。这也呼应了 IPCA 想解决的核心问题:如何在动态条件定价模型中得到因子溢价和暴露的良好估计。

5. 加入一阶矩信息

经典的 PCA 主要利用二阶矩信息,但忽视了一阶矩。因此,一个直观的想法是将一阶矩信息加入进来。Lettau and Pelger (2020b) 正是做的这样的工作(有趣的是,与 IPCA 的几位作者一样,他们也将方法论单独写了篇文章,且发表在了计量经济学的顶级期刊之一 Journal of Econometrics, Lettau and Pelger (2020a))。
他们也关注潜在因子定价模型:
其中,)为股票超额收益,)为因子溢价,)为因子暴露,)为残差。
一般地,利用经典的 PCA 进行估计,即求解以下优化问题:

显然,这只使用了二阶矩信息。Lettau and Pelger (2020b) 指出,如果加入一阶矩信息能提升 PCA 的表现。此时优化问题变为如下形式:

其中,第一项与经典的 PCA 相同,新增的第二项为截面定价误差,用以反映一阶矩信息,其系数 表示对截面定价误差的权重。
Lettau and Pelger (2020b) 将此方法称作风险溢价 PCA(risk premium PCA, RP-PCA)。
也可以从另一个角度来理解 RP-PCA 方法,它等价于对矩阵 做经典的 PCA 分析。特别地,当 时,该方法退化为经典的 PCA 。而当 时,,即资产收益率的二阶矩。
求解上述优化问题可以得到 ,进而得到因子溢价估计
自然地,得到因子溢价进一步考察其定价表现。具体而言,给定因子溢价估计 ,进行如下回归:
然后计算模型的均方误差(),特质性方差()以及因子组合的最大 Sharpe 比率。
实证分析表明,RP-PCA 在绝大多数情况下都优于 PCA 和 Fama-French 五因子这样的经典模型。此外,统计检验表明,有 5 个 RP-PCA 因子是重要的,反映了股票的系统性风险。
进一步分析不同因子的特征,可以得到极为有趣的发现。
第一主成分有非常高的方差和较为显著的平均收益,表现非常类似市场因子。第二主成分的平均收益也很显著,同时方差较小,因而有很高的 Sharpe 比率。与此形成对比的是经典 PCA,它 的第二主成分有较大的方差,但平均收益不显著。第五主成分呈现相似的特征,也有较高的 Sharpe ratio。而第三和第四主成分平均收益不显著,但方差相对较大。
这些特征表明,不同主成分具有迥异的特征和作用。具体而言,第二和第五主成分有较高的 Sharpe 比率,与第一主成分一起,能较好地解释股票收益的时序变化;而第三和第四主成分则有助于解释股票收益的横截面差异。
对因子构成进行进一步探索可以发现,如前所述,第一个主成分可看作市场因子,而第二主成分则类似于典型的因子组合——做多那些有高预期收益的组合同时做空有低预期收益的组合,这也是它具有较高 Sharpe 比率的原因。第五主成分近似于短期反转因子,显然,其 Sharpe 比率也较高。而第三主成分可视作价值因子,第四个主成分则是各类因子的大杂烩,这两者对于解释股票收益的横截面差异的作用不言自明。
总体而言,RP-PCA 对于股票组合的表现有着不俗的解释力。但与此同时,Lettau and Pelger (2020b) 也承认, RP-PCA 在解释股票收益方面表现并不理想,当然,PCA 的表现也不好。他们认为核心原因是因为个股的因子结构不稳定。其他原因则包括股票收益更大的波动性和更低的信噪比,使得对个股收益的拟合和估计难以精确。

6. 结语

上述方法都以潜在因子模型为基础,从而引入了 PCA 方法,并针对特定目标进行了针对性的拓展,从而得到了略有不同的改进方法。
而从另一个角度看,这些方法也都可以看作对经典的 FM 截面回归的拓展,因此,我们不应将其看作对经典方法的挑战和质疑,而更应看作利用有效的统计分析方法对经典方法所做的改进。
此外,这些方法也具有较好的可解释性和经济意义上的显著性。这使得这些方法可能不仅仅帮助解决资产定价问题,也能帮助我们更好地进行因子投资实践。提取主成分因子进行配置,并在此基础上到推出股票组合,可能会是一种有效的配置方法。
当然,这些研究也都只是近年才兴起,因此,我们不应将其视作高度成熟的方法,反之,将它们视作改进经典方法的成功尝试的开端可能更加合适。特别是考虑到每种方法仍有其局限,因此,未来仍有很多拓展工作值得进一步挖掘。此外,如何将这些信息最好地转化为可以指导投资实践的方法,也有待更多探索。
但不管怎样,这些方法都是极为有价值的探索,不仅标志着资产定价的大门对以 PCA 为代表的无监督学习方法敞开,也意味着实证资产定价和因子投资领域多了一门颇为有用的新武器。

全文完。

References:
  • Bali, Turan G., Robert F. Engle, and Scott Murray. "Empirical Asset Pricing: The Cross-Section of Stock Returns." John Wiley & Sons, 2016.

  • Fama, Eugene F., and Kenneth R. French. "A five-factor asset pricing model." Journal of Financial Economics 116.1 (2015): 1-22.

  • Giglio, Stefano, and Dacheng Xiu. "Asset Pricing with Omitted Factors." Chicago Booth Research Paper 16-21 (2019).

  • Hou, Kewei, Chen Xue, and Lu Zhang. "Digesting Anomalies: An Investment Approach." Review of Financial Studies 28.3 (2015): 650-705.

  • Jegadeesh, Narasimhan, Joonki Noh, Kuntara Pukthuanthong, Richard Roll, and Junbo Wang. "Empirical Tests of Asset Pricing Models with Individual Assets: Resolving the Errors-in-Variables Bias in Risk Premium Estimation." Journal of Financial Economics 133.2 (2019): 273-298.

  • Kelly, Bryan T., Seth Pruitt, and Yinan Su. "Characteristics Are Covariances: A Unified Model of Risk and Return." Journal of Financial Economics 134.3 (2019): 501-524.

  • Kelly, Bryan T. and Pruitt, Seth and Su, Yinan, "Instrumented Principal Component Analysis." Available at SSRN 2938919 (2017).

  • Lettau, Martin, and Markus Pelger. "Estimating Latent Asset-Pricing Factors." Journal of Econometrics (2020a).

  • Lettau, Martin, and Markus Pelger. "Factors that Fit the Time Series and Cross-Section of Stock Returns." Review of Financial Studies 33.5 (2020b): 2274-2325.


题图:Modern Art, from pexel.com.

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存