查看原文
其他

【095】因子动物园的另一面:如何估计异象的先验概率

因子动物园管委会 因子动物园 2023-02-15
【写在前面的话】本文仅对 motivation 和基本思路做一简单介绍,原文写得非常清楚而精彩,您如果感兴趣,请自行阅读 Alex et al. (2021, JFE) 原文。

想象你是一个金融经济学家,正在听你们一周一次的研讨会。主讲人发现了一个新的可以预测股票收益的因子 ,并通过以下截面回归来说明其发现的显著性:
其中, 在 1% 的显著性水平下显著。
这是一个非常典型的场景。金融经济学家们利用回归分析来表明其的确发现了一个对股票收益有显著预测能力的因子,且根据该因子可构造交易策略获利,即他发现了一个可交易的异象(tradable anomaly)
但问题在于,假设在 期末用 期的股票收益对 期的 回归得到了显著的 ,这一结果实际上说明的是在过去( 期初)根据 交易可以获利,但这并不意味着这一结果可以在未来仍然持续。而投资者实际上关心的,恰恰是在 期末根据 交易是否可以获利。因此,一个重要的问题是:我们在多大程度上可以信任前述结果呢?
具体来说,这一问题意味着估计因子在历史数据中显著的条件下,因子代表着一个真实的可交易异象的条件概率()。根据贝叶斯公式,这一条件概率等价于:
其中,等式右边第一项为因子是一个可交易异象的条件下观测到显著的预测能力的条件概率与观测到显著的预测能力的无条件概率的比率,这一比率也被称作 Bayesian factor;而第二项则为因子是可交易异象的先验概率(无条件概率)。
过去数年间,随着大量因子被发现,因子动物园随之而生。大量金融经济学家们也着力考察了数据挖掘对估计 Bayesian factor 的影响以及如何对此影响加以调整(参见川总写量化的出色还是走运系列推文)。这方面的本质是要控制错误发现(false discovery),比较主流的办法是像 Harvey, Liu and Zhu (2016) 所提出的那样,采用更高的 t 统计量阈值来排除掉不够显著的异象。
但对于等式右边的第二项,即因子是可交易异象的先验概率,已有研究则琢磨不多。比较重要的仅有 Cam Harvey 在其 2017 年 AFA 主席的演讲中对此进行了简要的讨论(参见川总写量化的推文在追逐 p-value 的道路上狂奔,却在科学的道路上渐行渐远)。
但实际上,先验概率的影响也是非常大的。想象两个极端情况。一种情况下,你相信所有异象都是数据挖掘的产物,即 ,那么,非常自然地,无论数据中因子的预测能力多么显著,你都会坚信这个因子不是一个可交易异象。反之,如果你先验概率很高,那么,当数据表明因子有显著的预测能力时,你便会毫不犹豫地将其归类为可交易异象,进而指导你的投资交易。
但明了先验概率的重要性,不等于可以恰当地处理和估计先验概率。我们该如何更好地估计这一先验概率呢?岭回归(Ridge)的贝叶斯解释可以给我们一些有用的 insight。
具体来看,岭回归中,我们估计求解以下优化问题:
的真实分布为正态分布(即 )时,上述岭回归中的 tuning parameter 便有着贝叶斯解释:先验方差越小,则系数被收缩的程度便越大(参见川总和王熙老师翻译的 Stefan Nagel 的书《机器学习与资产定价》)。因此,首先进行岭回归估计,进而对 tunning parameter 进行逆转,可以倒推出隐含的先验方差
进一步,这里还有一项略有点 tricky 但又非常合理的 insight 是,假设我们在 期末考察一个因子是否是可交易异象,那些 期之前已发现的因子可帮助我们构建对该因子是可交易异象的先验概率。具体来看,可以假定不同因子的预测能力,即 是来自同一个真实分布的抽样。为便于理解,假设真实分布为 ,即服从一个零均值正态分布。自然,如果 越大,则 越可能取到较大的值,即因子有显著的预测能力的概率也就更大。
这一方法有一个天然的好处,即可以适用于大量基于不同数据和思想而构造的因子,例如,动量等量价类因子、盈利和投资等财务因子,以及各种基于另类数据构造的新因子。这些因子来源迥异,很难从经济学意义上给予其统一的先验。但由于提出这些因子的研究者有相似的背景并采用类似的研究方法,因此,自然地把这些因子视作来自一个相同的真实分布的随机抽样,从而可用于估计真实分布的方差,进而用以评判其他因子的显著性。
基于股票收益和 期之前发现的因子的数据进行截面回归,可以估计这些因子 ,其中, 包含在 期之前发现的因子。对每个因子,利用单变量岭回归估计找到最优的 tunning parameter,然后根据参数估计倒推出对 的估计 。进而基于 的时间序列,拟合一个 AR(3) 模型(注意:这里 AR(3) 模型只是为了简化分析,实证研究中当然可以采用更复杂的模型,总体结果是类似的),来预测下一期的 。最后,将所有包含在 内的因子的 估计平均,便得到了对下一期 的市场层面的平均估计()。
时序角度来看,如前所述,如果 较大,则因子有更大可能有显著的预测能力,因此, 较大的时期,异象的表现会显著更好。
而从截面角度来看,上述分析还意味着在挑选异象因子时,应基于对先验概率的估计而对 进行调整。具体来看,对因子 ,使用 自身以外的因子(显然,不能利用因子 的数据来估计关于因子 的先验),按照前述流程估计 (记作 ),进而按照贝叶斯(岭回归)方式进行调整:
其中, 的标准误,其估计如下:
  • 首先对 过去 个月的时序拟合 AR(3) 模型,记录残差项

  • 进而对 再次拟合 AR(3) 模型,然后将最近 3 期数据代入拟合的模型,来预测

进行上述调整后,选取那些调整后的 大于事先给定的阈值的因子,按照这些因子进行交易,并持有 1 个月。如此,可显著提升因子组合的表现:在美股的长期样本中,月均超额收益可达 0.74%,Sharpe ratio 则为 0.57;相比之下,如果只交易那些调整后被剔除掉的因子,月均超额收益(Sharpe ratio)则仅有 0.18%(0.11)。
这些结果充分说明,对因子先验概率的估计有着举足轻重的作用。当然,更好的做法是结合 ANW 这里的方法和已有研究中关于 multiple testing 的解决办法,来对估计结果进行尽可能完备的调整。此外,这里的简化方法在细节上仍有不少改进空间,这也给未来的进一步研究指出了一个可能的有趣方向。

全文完!祝您阅读愉快!

References:
  • Chinco, Alex, Andreas Neuhierl, and Michael Weber. "Estimating the anomaly base rate." Journal of Financial Economics 140.1 (2021): 101-126.

  • Harvey, Campbell R. "Presidential address: The scientific outlook in financial economics." Journal of Finance 72.4 (2017): 1399-1440.

  • Harvey, Campbell R., Yan Liu, and Heqing Zhu. "… and the cross-section of expected returns." Review of Financial Studies 29.1 (2016): 5-68.


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存