实证研究 —— A 股上显著的风格因子
作者:石川,量信投资创始合伙人,清华大学学士、硕士,麻省理工学院博士;精通各种概率模型和统计方法,擅长不确定性随机系统的建模及优化。知乎专栏:
https://zhuanlan.zhihu.com/mitcshi。
未经授权,严禁转载。
摘
要
本文检验了 A 股市场上主流风格因子的显著性。以中证 500 指数为例,显著的风格因子包括 beta、earnings yield 以及 liquidity。
1
引言
上周的《解释股票截面预期收益差异的独立因子》一文介绍了 Review of Financial Studies 上发表的 Green, Hand and Zhang (2017) 一文(以下称 GHZ)。该文使用 Fama-MacBeth regression(Fama and MacBeth 1973)同时检验了 94 个美股上的因子,并发现了 12 个能够解释股票预期收益率截面差异的显著因子。
本文按照 GHZ 的思路对 A 股上的风格因子进行简单实证,看看到底哪些因子是显著的。为了使实证结果更有指导价值,本文选用中国市场上主流的风格因子进行讨论。在针对 A 股的因子研究中,MSCI 旗下的 Barra 大概是最知名的 —— 这主要因为它家 marketing 做的比较好;比如 MSCI 在今年 8 月底在北京、深圳、香港三地同时高调发布了最新的中国模型 CNE6。除了 MSCI 之外,国内也有一些优秀的风险因子数据提供商,这些本土化的风格因子模型由于更接地气,也广泛被市场认可。
根据 GHZ 提出的方法,检验显著因子的过程包括如下步骤:
1. 通过在每一期进行截面回归得到所有风格因子收益率的时间序列(即 Fama-MacBeth regression);
2. 对每个因子,求出收益率的均值以及均值的标准误;
3. 计算每个因子的 t-statistic 以及 p-value;
4. 由于 multiple testing(即同时检验多个因子)的影响,对 p-value 进行修正;
5. 根据修正后的 p-value 是否小于 0.05 判断显著的因子。
下面以中证 500 成分股为例,分析风格因子在其上的显著性。行文将逐一说明上述步骤。
2
因子收益率
在因子显著性检验中,最重要的无疑是获得靠谱的因子收益率时序数据。在实证中,我们采用米筐科技(RiceQuant,介绍请点这里)提供的因子收益率数据。作为国内领先的量化投资数据和解决方案提供商,米筐高质量的风险因子模型一共包括 39 个因子,其中市场联动因子 1 个,申万一级行业因子 28 个,风格因子 10 个。此外,为了更好的捕捉风格因子在不同指数上表现的差异,米筐提供了以常用指数(包括沪深 300、中证 500、中证 800)的成分股以及全市场为股票池的因子收益率数据。
实证的回测期从 2010 年 1 月 1 日到 2018 年 11 月 30 日。这 10 个风格因子包括:beta、 book-to-price、earnings yield、growth、leverage、liquidity、momentum、nonlinear size、residual volatility 以及 size。这些风格因子事实上是 10 大类因子,每一大类内部又有进一步的细分因子。这 10 大类因子间进行了必要的正交化处理,相关性较低。本文的实证使用这 10 大类因子,而非更细分的小因子。
在计算因子收益率时,该模型使用全部 39 个因子在每一期进行截面回归(即 Fama-MacBeth regression),保证了得到的风格因子投资组合是这些因子的纯因子组合,从而排除对别的因子的暴露、更好的评价目标因子获取超额收益的效果。在实证的回测期内,中证 500 指数上因子日频收益率如下所示。
有了收益率的时间序列,我们接下来计算收益率均值和均值的标准误。
3
收益率均值和均值的标准误
在 GHZ 这篇文章中,检验美股上有效因子的频率是月频。而我们使用的因子收益率是日频 —— 因为该模型最重要的是对风险建模。为了在 A 股上复现 GHZ 的研究思路,我们先进行必要的处理,计算月频因子收益率的期望以及标准误。
对于收益率,使用每个月内所有交易日的累积收益率作为该因子的月频收益率。对月频收益率在时序上取均值就得到期望收益率,记为 μ。
为了计算收益率均值的 standard error,首先需要求出月频收益率的标准差(standard deviation)。为此,本文借鉴 Barra 的处理方法,即计算日频收益率的标准差,并将其推广到月频。
在计算日频收益率的标准差时,必须要主要到因子收益率在时间序列上存在很强的自相关性,这会影响收益率标准差的计算。以 beta、book-to-price、earnings yield 以及 growth 四个因子为例,下图显示了其因子收益率的自相关系数随滞后期的变化。每个图中阴影部分为 5% 的置信区间。在很大的滞后期范围内,日频因子收益率均存在显著的自相关性。
由于上述原因,在使用因子收益率时间序列计算其标准差时,必须考虑对时序相关性进行修正。为此,我们采用 Newey-West 调整(Newey and West 1987),在调整中选择的最大滞后期为 50。令 s_d 表示经 Newey-West 调整后的日频因子收益率的标准差(为了简化表达式,省略了表示具体某个因子的下标)。
在得到日频标准差之后,假设每个月内有 22 个交易日并通过下式得到月频因子收益率的标准差 s:
最后,使用月频因子收益率的标准差计算出因子收益率均值的 standard error(n 表示月频期数):
通过上述处理就可以求出我们关心的变量,月频因子期望收益率 μ 和它的标准误 s.e.(μ)。实证中,中证 500 指数上这10个风格因子的 μ 和 s.e.(μ) 分别如下表所示。
下面就来计算 t-statistic 以及 p-value。
4
t-statistic 和 p-value
有了 μ 和 s.e.(μ),根据 t-statistic 的定义有:
由于月频期数超过 100,因此 t 分布和正态分布十分接近,故采用正态分布将上述 t-statistic 转化为 p-value。
就一个因子是否显著来说,我们关注的是它的 t-statistic 是否显著不为零,其具体取值可正可负。从选股的角度来说,如果一个因子的收益率显著为负,那么只需要将它的多、空对调过来使用即可。因此,依照 GHZ 的计算方法,本文计算双尾 p-value。具体的,由 t-statistic 计算 p-value 的方法如下:
上式中,Φ 表示标准正态分布的累积密度函数。中证 500 上 10 个风格因子的 t-statistic 及 p-value 分别为:
5
修正 p-value
在检验因子时,multiple testing —— 同时检验很多因子并找到其中最显著的 —— 是一个严重的问题。为了正确评价因子是否显著,必须考虑 multiple testing 的影响、修正原始的 p-value。
常见的修正方法分为两类:
1. 以控制 family-wise error rate(族错误率)为目标的 Bonferroni 和 Holm 修正;
2. 以控制 false discovery rate 为目标的 BHY 修正。
Family-wise error rate(FWER)和 false discovery rate(FDR)代表着 Type I error 的两个不同的定义。Type I error 是错误的拒绝原假设,也叫 false positive 或 false discovery。在我们的上下文中,它意味着错误的发现了一个其实没用的因子。
假设 K 个因子的 p-value 分别为 p_1、p_2、…、p_K。根据事先选定的显著性水平,比如 0.05,其中 R 个因子在单因子测试中被认为是显著的。换句话说,我们有 R 个发现(discoveries) —— 包括 true discoveries 和 false discoveries。令 N_r ≤ R 代表 false discoveries 的个数。FWER 和 FDR 的定义如下:
从定义不难看出,FWER 是至少出现一个 false discovery 的概率,控制它对围绕单一因子的假设来说是相当严格的,会大大提升 Type II Error。相比之下,FDR 控制的是 false discoveries 的比例,它允许 N_r 随 R 增加,是一种更温和的方法。此外,BHY 方法对检验统计量之间的相关性不敏感,它的适应性更强。
无论采用哪种方法,修正后的 p-value 通常大于单一因子测试中得到的 p-value,因此会有相当一部分在单一检验中存活下来的因子在修正后不再显著。
依照 GHZ 使用的方法,本文采用 BHY 修正(Benjamini and Hochberg 1995, Benjamini and Yekutieli 2001)。它从诸多因子的原始 p-value 中最大的一个开始逆向修正,公式如下:
由定义可知,原始 p-value 最大的因子调整后的 BHY p-value 就是它自己。从第二大 p-value 开始,依次按照上述公式计算,计算其他因子调整后的 BHY p-value。在中证 500 的例子中,这 10 个因子经调整后的 p-value 分别如下所示(红色标注出了调整后 p-value 小于 0.05 的显著因子);作为比较,同时给出了原始 p-value。
不难发现,所有因子调整后的 p-value 均不小于原始 p-value。
6
显著风格因子
本文第 2 到第 5 小结的分析最终在中证 500 上发现了三个显著因子: beta、earnings yield 以及 liquidity;而其他七个风格因子均无法独立解释中证 500 成分股预期收益率的截面差异。
把这 10 个风格因子的累积收益率作图如下。可以看到,这三个因子(liquidity 需要多、空对调过来用)的效果确实强于其他七个因子。在使用了纯因子模型(Fama-MacBeth regression)并考虑了 multiple testing 带来的修正之后,人们熟知的 book-to-price、size 以及 residual volatility 等因子在中证 500 上则不再显著。
除了中证 500 指数外,米筐还提供沪深 300、中证 800 以及全市场上的风格因子收益率。最终,按照上述检验思路可以计算出不同选股池上的显著因子,结果如下。
7
结语
本文使用 GHZ 的方法检验了 A 股市场上主流的 10 大风格因子的显著性。跨市场而言,显著的因子包括 beta、earnings yield、liquidity、nonlinear size 以及 residual volatility;但这些风格因子在不同指数上的效果也有所差别。
需要说明的是,无论是 Barra 的中国股票模型,还是本土化的优秀因子模型,它们首先都是一个风险模型,其次才是也可以当作收益率截面模型来用。这些模型最重要的作用是波动率预测和投资组合的风险归因。本文主要的目的是再次梳理检验因子显著性的流程,实证中涉及的这 10 大类因子未必就是最能捕捉 A 股市场上 asset pricing 机制的因子。感兴趣的小伙伴可以尝试更细分的因子。只不过在 multiple testing 的修正下,我们预期很多因子仅仅是“看上去很美”。
参考文献
Benjamini, Y. and Y. Hochberg (1995). Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing. Journal of the Royal Statistical Society, Series B, Vol. 57, 289 – 300.
Benjamini, Y. and D. Yekutieli (2001). The Control of the False Discovery Rate in Multiple Testing under Dependency. Annals of Statistics, Vol. 29, 1165 – 1188.
Fama, E. F. and J. D. MacBeth (1973). Risk, return, and equilibrium: empirical tests. Journal of Political Economy, Vol. 81(3), 607 – 636.
Green, J., J. R. M. Hand, and X. F. Zhang (2017). The characteristics that provide independent information about average U.S. monthly stock returns. Review of Financial Studies, Vol. 30(12), 4389 – 4436.
Newey, W. K. and K. D. West (1987). A simple, positive semi-definite, heteroskedasticity and autocorrelation consistent covariance matrix. Econometrica, Vol. 55(3), 703 – 708.