寻找 Mean-Variance Frontier (II)

Original 石川川总写量化 2023-02-15

收录于合集

#实证资产定价 77 个

#随机折现因子 11 个

#多因子模型 27 个

#机器学习 30 个

作者：石川，北京量信投资管理有限公司创始合伙人，清华大学学士、硕士，麻省理工学院博士。

封面来源：https://www.pexels.com

未经授权，严禁转载。

摘

要

实证层面，我们也许永远找不到“最优”的 MVE 组合，但理论的突破和实证的推进对投资实务而言依然非常有益。

Any asset pricing model is the same as the statement that there is some return on the mean-variance frontier.

—— Cochrane (2005)

最近几年，机器学习在实证资产定价方面的应用愈加深入。学术界提出了很多利用机器学习方法构造的隐性多因子模型，例如 Kelly, Pruitt and Su (2019) 的 IPCA 模型、Chen, Pelger and Zhu (2019) 的深度学习模型、Kozak, Nagel and Santosh (2020) 的 PCA方法、Bryzgalova, Pelger and Zhu (2020) 的随机森林方法、以及 Gu, Kelly and Xiu (2021) 的 autoencoder 模型等。

和传统的 Fama and French (1993, 2015) 以及 Hou, Xue and Zhang (2015) 模型相比，这些新方法没有强加 ad-hoc 稀疏性假设，而是选择直面协变量（公司特征）的高维数问题。实证结果显示，新模型均能获得传统模型无法解释的超额收益，且它们在样本外 span 出的最大夏普比率也远超传统模型。

虽说每个新模型都能远胜传统模型，但我们并不清楚这些新模型之间又会是孰优孰劣。是否会有某个机器学习方法构造的模型会优于其他模型？回答这个问题的意义绝非“factor (model) war”的升级版，而是对理论和实证、对学界和业界都意义重大。

直到 Baba-Yara, Boyer and Davis (2021) 出现。

该文把传统模型和基于机器学习方法构造的新模型放在一起进行了比较。然而有意思的是，该文通过详尽的实证分析发现没有哪个新模型是“最优”的。正因如此，三位作者给论文的题目选为 The factor model failure puzzle（在更早先的版本中，该文的标题为 Evaluating the anomaly zookeepers）。

那么出现上述现象背后的原因是什么呢？是机器学习领域中“没有免费的午餐”定理？又或者是什么其他的原因？Baba-Yara, Boyer and Davis (2021) 的创新之处在于不止进行了实证分析，而是通过理论模型解释了上述现象背后的原因。他们把这个现象称为 Impossibility result。

为了合理地比较不同的模型，我们首先来借助一些理论的指引。

实证资产定价理论表明了（线性）随机贴现因子、多因子模型以及均值方差有效（MVE）投资组合之间的等价关系。此外，一旦我们找到 mean-variance frontier 上的一个组合，就可以用它构造一个单因子模型，并通过它来为其他任意资产定价（Roll 1977）：

上述结果为我们比较不同的模型指明了方向。对于不同的模型，我们只需要利用它们的因子构造出各自的 MVE 投资组合，然后考察这些 MVE 组合是否能够为彼此定价。如果某个模型是“最优”模型，则意味着其他模型的 MVE 组合无法获得相较于该模型 MVE 组合的超额收益。

当然，上述“只需要”背后隐含着巨大的实证挑战。这是因为我们在乎的是在样本外构造 MVE 组合，而非在样本内进行事后分析。对于后者，我们只需要使用即可得到因子在各自 MVE 组合之中的权重。但是对事前进行样本外估计而言，如何防止过拟合、得到更合理的权重估计至关重要。为此，Baba-Yara, Boyer and Davis (2021) 使用了 Bryzgalova, Pelger and Zhu (2020) 的方法。该方法在估计权重时同时对协方差矩阵和预期收益率进行了收缩，是已有估计方法中比较稳健的代表。

利用因子权重，就可以构造 MVE 组合；而一旦有了所有模型各自的 MVE 组合，接下来只需要令它们互为 test assets 和基准模型进行回归分析，求出每个 test assets 相对选定基准（即某个因子模型的 MVE 组合）的超额收益，最后再联合检验所有是否为零。如果某个模型下，其他的为零，则它就是“最优”的模型。

下面我们来看看参加 PK 的各路选手。

首先是传统选手，包括 CAPM、FF3（Fama and French 1993）、FF6（Fama and French 2015 + Mom）、HXZ（Hou, Xue and Zhang 2015）、DMRS（Daniel et al. 2020 通过对冲后构造的因子，详见此处）以及 SY（Stambaugh and Yuan 2016）。至于通过机器学习方法构造的新模型，主要就是本文一开始提到的那些，不再赘述。下表总结了 Baba-Yara, Boyer and Davis (2021) 考察的全部模型以及每个模型所使用的用于估计 MVE 权重的方法。

接下来看实证结果。该文考察的时间区间自 1963 到 2020，为了在样本外比较上述模型，该文样本内区间截止 Dec 1989；之后为样本外。下图展示了这些模型各自的 MVE 组合在样本内和样本外的相关系数。无论是样本内还是样本外，绝大多数 MVE 组合似乎都颇为不同（此处为本文第四节的讨论埋个伏笔）。

此外，再来看看这些 MVE 组合在样本外的 CAPM-α 以及年化夏普比率。不出意外，基于机器学习方法、拥抱协变量高维数的新模型在样本外的风险收益特征均优于传统模型。在我看来，这个结果对业界有很大的意义：（1）虽然在本文一开始，我剧透了 factor model failure 这个结论，但是对业界而言关注的是最大化样本外投资组合的风险收益特征，因此这个结果表明在协变量的高维数时代，机器学习方法（如果用对的话）大有可为；（2）传统强加 ad-hoc 稀疏性假设的模型（比如 FF3、FF6）所代表的投资机会非常弱（体现在很低的 CAPM-α 以及年化夏普比率），所以对未来任何以它们为基准的显著实证结果都无需太兴奋。

预热得差不多了，下面我们来看 Baba-Yara, Boyer and Davis (2021) 的 main results —— 是否有哪个模型的 MVE 组合能给其他 MVE 组合定价。为此，该文同时考察了无条件模型以及条件模型（即是时变的）。以无条件模型为例，下图展示了样本内外 pricing errors 的检验结果（p-value）。其中，每一行模型的 MVE 组合是 test asset，每一列模型的 MVE 组合是基准，颜色越深说明 test asset 相对基准的超额收益越显著。

因此，如果有某个模型是“最优”的话，那么我们应该能够看到某一列的颜色都是浅色。然而，事与愿违，以样本外为例，放眼望去是一片深紫色，说明哪怕以机器学习方法构造的模型，也没有哪个能为所有其他模型定价。进一步通过 GRS test 联合检验每个基准下的 pricing errors，对应的 F-statistic 都非常大，说明这些 pricing errors 不为零。

以上结果说明，实证层面，尽管近年来新的模型层出不穷，但依然没有所谓的“最优”模型。面对这样的结果，人们不禁要问：为什么？

实证方面细致的工作无疑是 Baba-Yara, Boyer and Davis (2021) 一文的重要贡献，然而关于理论模型的讨论才是该文画龙点睛的一笔。

由前文论述可知，站在 MVE 投资组合的视角，一个多因子模型可以被视为一个以因子为标的构造的 MVE 组合的权重向量。从理论上说，用于构造真实 MVE 组合的因子可能会有很多，而所有给定的多因子模型都带有某种程度的降维处理。比如，最简单的 FF3 使用市值和 Book-to-Market Ratio 构造因子。这意味着该模型认为这两个组合在 MVE 组合中的权重非零，而其他潜在因子的权重都为零（假设不考虑市场因子）。类似的，其他传统模型则是人为地选择了盈利、投资、动量等因子，并认为它们的 MVE 权重不为零；而机器学习方法则更多的通过数据驱动的方式来选择 firm characteristics（以及它们的交互作用）、构造因子，并决定因子在 MVE 组合中的权重。

在这个视角下，不同的多因子模型可以被理解为对真实 MVE 组合中的权重施加了不同的先验（先验的差异造成了第三节展示的不同模型的 MVE 组合的相关系数并不高）。沿着这个思路，Baba-Yara, Boyer and Davis (2021) 提出了一个贝叶斯框架的理论模型，并发现当潜在的因子个数非常大时，使用不同先验的模型无法为彼此定价。此外，哪怕某个模型是真正的模型（即它的先验是正确的），另外一个使用不同先验的模型也注定能够产生该模型无法解释的超额收益。这就是本文一开始提到的 impossibility result。在协变量的高维数时代，不存在“最优”的模型 —— 对于给定的任意模型，总能找到能够获得其无法解释的超额收益的新模型。

In other words, it is impossible to establish a dominant or best asset pricing model in a high dimensional world. Any model that claims dominance can invariably be dominated by a new model with a slight tweak.

—— Baba-Yara, Boyer and Davis (2021)

近年来，factor (model) war 愈演愈烈。而 Baba-Yara, Boyer and Davis (2021) 一文的实证结果和理论模型无疑给人们带来了全新的思考。至少对我来说，再看传统模型在那里 PK 来 PK 去实在是不痛不痒。对于业界实务来说，人们使用多因子模型降维是为了减少估计误差对 MVE 组合权重的影响。因此，回答更关键的问题，即应该使用何种的先验（回想一下《稀疏性幻觉》）以及如何更合理的使用机器学习方法构造因子以及计算它们的 MVE 权重，这些才是有价值的研究。

期待 Baba-Yara, Boyer and Davis (2021) 早日见刊。

参考文献

Baba-Yara, F., B. Boyer, and C. Davis (2021). The factor model failure puzzle. Working paper.

Bryzgalova, S., M. Pelger, and J. Zhu (2020). Forest through the trees: Building cross-sections of stock returns. Working paper.

Chen, L., M. Pelger, and J. Zhu (2019). Deep learning in asset pricing. Working paper.

Cochrane, J. H. (2005). Asset Pricing (Revised Edition). Princeton, NJ: Princeton University Press.

Daniel, K., L. Mota, S. Rottke, and T. Santos (2020). The cross-section of risk and returns. Review of Financial Studies 33(5), 1927 – 1979.

Fama, E. F. and K. R. French (1993). Common risk factors in the returns on stocks and bonds. Journal of Financial Economics 33(1), 3 – 56.

Fama, E. F. and K. R. French (2015). A five-factor asset pricing model. Journal of Financial Economics 116(1), 1 – 22.

Gu, S., B. T. Kelly, and D. Xiu (2021). Autoencoder asset pricing models. Journal of Econometrics 222(1), 429 – 450.

Hou, K., C. Xue, and L. Zhang (2015). Digesting anomalies: An investment approach. Review of Financial Studies 28(3), 650 – 705.

Kelly, B. T., S. Pruitt, and Y. Su (2019). Characteristics are covariances: A unified model of risk and return. Journal of Financial Economics 134(3), 501 – 524.

Kozak, S., S. Nagel, and S. Santosh (2020). Shrinking the cross-section. Journal of Financial Economics 135(2), 271 – 292.

Roll, R. (1977). A critique of the asset pricing theory’s tests Part I: On past and potential testability of the theory. Journal of Financial Economics 4(2), 129 – 176.

Stambaugh, R. F. and Y. Yuan (2017). Mispricing factors. Review of Financial Studies 30(4), 1270 – 1315.

免责声明：入市有风险，投资需谨慎。在任何情况下，本文的内容、信息及数据或所表述的意见并不构成对任何人的投资建议。在任何情况下，本文作者及所属机构不对任何人因使用本文的任何内容所引致的任何损失负任何责任。除特别说明外，文中图表均直接或间接来自于相应论文，仅为介绍之用，版权归原作者和期刊所有。

川总写量化

分享量化理论和实证心得

高三女生醉酒后被强奸致死？检方回应

常德悲剧：让谴责无差别杀戮之声更加响亮一点

2024【公共营养师】培训报名通道已开启，不限学历，23岁及以上可报！还能领2000补贴

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时

女人最偏爱的十种男人

寻找 Mean-Variance Frontier (II)

您可能也对以下帖子感兴趣

高三女生醉酒后被强奸致死？检方回应

常德悲剧：让谴责无差别杀戮之声更加响亮一点

2024【公共营养师】培训报名通道已开启，不限学历，23岁及以上可报！还能领2000补贴

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋 华人崩溃大哭 连空姐都吐了; 客机颠簸盘旋3小时

女人最偏爱的十种男人

生成图片，分享到微信朋友圈

寻找 Mean-Variance Frontier (II)

您可能也对以下帖子感兴趣

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时