Risk Parity vs Tail Risk Parity
作者:石川,北京量信投资管理有限公司创始合伙人,清华大学学士、硕士,麻省理工学院博士。知乎专栏:
https://zhuanlan.zhihu.com/mitcshi。
未经授权,严禁转载。
摘
要
本文探讨了将尾部风险融合到 Risk Parity 进行资产配置的方法。有效利用高阶矩信息可以提高投资组合的风险收益特征。
1
引言
近日,Rob Arnott、Campbell Harvey 等人在 JPM 上发表了一篇题目颇为浪漫的文章(Arnott et al. 2019):爱丽丝梦游仙境;抱歉、错了,应该是爱丽丝的因子岛冒险之旅(Alice’s adventures in factorland)。我最初看到这个标题时感受到的画风是这样的(年龄暴露帖)。
言归正传,这篇文章严肃讨论了投资人在因子投资中常犯的三大类错误,从而导致了因子投资的效果很差。这三类问题是:
1. 对因子实盘的表现没有正确的预期:这包括低估了样本内过拟合、没有考虑到可能发生的因子拥挤、对实际的交易成本估计严重不足等问题;
2. 对因子投资组合没有采取科学的风控:错误假设因子投资组合收益率符合正态分布,对因子投资组合的肥尾风险严重低估;
3. 对不同因子能提供的分散化过度乐观:不同风格因子平时的相关性确实较低,但在股灾面前,它们的尾部相关性骤然变高,完全无法起到分散风险的作用。
我想以上面的第二点为引子开启今天的话题。对此,Arnott et al. (2019) 以美股上的动量因子为例做了解释。下图黑色曲线是实际动量因子的累积收益率;红色曲线是假设动量因子收益率符合正态分布时的收益曲线。两条曲线的巨大分歧出现在金融危机期间,说明正态分布根本无法很好的描述因子收益率的尾部风险。
再来看看 A 股。下图是上证指数自 2005 年 1 月 4 日至 2019 年 5 月 31 日的日频收益率分布(柱状图)。以该分部的均值和方差构建出的正态分布曲线是图中红色曲线。上证指数的经验分布呈现出明显的尖峰肥尾,正态分布难以捕捉其尾部风险。
上面这些例子表明仅考虑一阶矩和二阶矩并不能很好的刻画资产的风险。而这也正是我们熟知的 Risk Parity 常被人诟病的地方 —— 它仅使用投资组合的标准差(方差的平方根)来刻画风险,对尾部风险处理不足。
今天这篇文章就从尾部风险的角度对 Risk Parity 做一些扩展。它可以看做是《尾部相关性、尾部风险平价和圣杯分布》的进阶。
下文第二节将使用一些 A 股上的因子投资组合对比 Risk Parity 和 Tail Risk Parity(尾部风险平价)的配置效果;第三节介绍 Baitinger, Dragosch, and Topalova (2017) 提出的将 Risk Parity 扩展到三、四阶矩的配置框架;第四节总结全文。
2
Risk Parity vs Tail Risk Parity
考虑到资产分布的肥尾特性,使用 Expected Shortfall(ES)来计算尾部风险。它也称作 Expected Tail Loss 或 conditional value at risk(CVaR),代表了 α 分位数左侧尾部风险的均值,相较于 VaR 能够更好的刻画尾部风险。
将 Risk Parity 处理 σ 的方法延伸至 ES 就得到 Tail Risk Parity(尾部风险平价)。尾部风险平价的目标是让不同资产或策略对投资组合的尾部风险贡献相同。它更多的是一种理念,而具体实现方法则因人而异。在我们的例子中,由于使用 ES 刻画尾部风险,因此可以让不同资产对投资组合的尾部风险 ES 等贡献,即资产权重 ω_i 满足:
上式中,ES_p 代表投资组合的 Expected Shortfall。
在实际使用时,仍然有个问题。对于 Risk Parity,投资组合的波动率 σ_p 对于资产权重 ω_i 的偏导数是有解释表达式的;而在上述 Tail Risk Parity 中,ES 对 ω_i 的偏导数没有解析表达式。这对于通过最优化求解 ω_i 增加了额外的难度。
前文《浅析资产配置的几种方法》曾指出,如果资产间的两两相关系数相同,则 Risk Parity 最优权重满足 ω_i 和 σ_i 成反比。因此,在本文的实证中采用类似的简化处理方法,即根据资产的收益率数据计算出每个资产的 ES_i,然后令资产权重和 ES_i 成反比:
接下来就用上述 Tail Risk Parity 配置方法和 Risk Parity 进行比较。为了让对比更合理,在通过最优化确定 Risk Parity 的资产权重时,要求 ω_i 满足非负且所有 ω_i 之和为 1 两个约束条件。在计算 ES 时,选择 1% 分位数。
实证中,回测期为 2010 年 1 月 1 日至 2019 年 3 月 31 日,并考虑中证 500 成分股。进行资产配置的投资标的为以下 9 个因子组合:beta、earnings yield、growth、leverage、momentum(事实是当成反转使用)、nonlinear size、P/B、residual volatility 以及 size。全部因子暴露数据来自 JoinQuant,做多排名前 50 的股票、做空排名后 50 的股票来构建投资组合。
下图展示了上述九大因子投资组合日频收益率的分布和以它们各自均值和标准差对应的正态分布。从图中不难看出,这些因子投资组合也表现出了尖峰肥尾的特征。
在比较 Risk Parity 和 Tail Risk Parity 时,依照这两种方法对这九个因子按月调仓(每月最后一个交易日调仓,不考虑任何成本,排除因停牌而无法交易的股票)。然而计算每个因子的 ES 需要更细的粒度,故而选择因子日频收益率,并使用不少于 1 年的 expending 窗口计算每个因子的 ES(为了更准确的估计 ES,没有使用常用的 rolling 窗口),因此首次构建投资组合是在 2010 年 12 月 31 日。这些因子组合的日频累积收益率如下图所示。
在回测期内,Risk Parity 和 Tail Risk Parity 配置结果的累积净值和回撤如下图所示。在本例中,两种方法的结果虽然非常接近,但仍然能看出以 ES 为目标的 Tail Risk Parity 更有效的降低了投资组合的最大回撤和波动。在回测期内,Tail Risk Parity 和 Risk Parity 的年化收益率分别为 9.00% 及 8.99%;夏普率分别为 1.22 和 1.15;最大回撤分别为 -8.22% 和 -10.52%;最大回撤天数分别为 515 和 699。这些数据表明,Tail Risk Parity 较 Risk Parity 更好的规避了风险。
熟悉我的小伙伴大概知道我要开始“自我否定”了。没错,上面只是一个例子,而且二者的差异也很小。为此,随机从上述 9 个因子中抽取 5 个,进行 50 次实验,来考察一下 Tail Risk Parity 的表现。下图展示了在这 50 次实验中,这两种配置方法 Sharpe Ratio 的对比(图中实验的序号,即横坐标,已经按 Risk Parity 的夏普率从大到小排序了)。
在其中的 39 次实验中,Tail Risk Parity 的 Sharpe Ratio 高于 Risk Parity,胜率为 78%。此外,从上图可以看到,当 Risk Parity 的夏普率较低的实验中(即随机选出的因子资产本身更差),Tail Risk Parity 的优势更加明显,这无疑是一个很好的结果。
作为 robustness check,同时考虑随机选取 3、4、6 个因子的情况,也可以观察到类似的结果(下图)。此外,实证中还考虑了以 5% 分位数计算 ES,也可以获得类似的结论,这里不再赘述。
本小节的实证说明,以 ES 为代理变量描述尾部风险的 Tail Risk Parity 是一个值得尝试的资产配置方法。相比于 Risk Parity 它有希望提高最终投资组合的风险收益特征。当然,尾部风险建模或者使用 empirical data 计算 ES 都可能引入更高的误差。
此外,该方法仅仅是通过尾部风险间接的对 Risk Parity 进行了改进。下一节介绍的方法将直接从分布的偏度(skewness)和峰度(kurtosis)入手,将高阶矩信息直接融入到 Risk Parity 当中。
3
将 Risk Parity 扩展至高阶矩
Baitinger, Dragosch, and Topalova (2017) 认为收益率的三阶矩和四阶矩包含了更多的关于风险的信息,因此提出可以考虑在 Risk Parity 中加入三阶矩和四阶矩信息。对于更高阶矩,因为参数估计的误差随着阶数非线性增加,因此金融领域一般不考虑更高阶矩。
在这个方法中,第一个难点就是计算投资组合的三阶矩和四阶矩。下面以三阶矩为例介绍其计算方法。这个方法出自 Athayde and Flores (2003)。
让我们从熟悉的二阶矩说起。假设资产的权重向量为 ω,则投资组合的二阶矩为:
可见,求解投资组合的二阶矩需要用到资产之间的协方差矩阵。因此,为了求投资组合的三阶矩,需要资产之间的 co-skewness“矩阵”。这里“矩阵”为什么要加引号呢?这是因为 co-skewness“矩阵”不是个矩阵,而是一个 cubic shape 的 tensor。
下面请各位调动起空间想象能力。这个三阶矩 tensor 可以想象成以下 n 个 n × n 矩阵从上到下排列成构成一个立方体,从而得到一个 n × n × n 阶 tensor,这就是这 n 个资产之间的三阶矩 tensor。
如何求解投资组合的三阶矩呢?对于上述每一层的 n × n 矩阵,运用二阶矩的计算方法,将其左边乘上一个 ω 转置,右边乘上一个 ω,因此每一层得到一个标量,所以这 n 层一共得到 n 个标量(下图)。
最后,把上述操作得到的 n 个标量构成一个 n 阶向量,再和权重向量 ω 进行一次內积,就得到了投资组合的三阶矩。上述过程的数学表达式如下:
上式中,为了数学运算,将 n × n × n 阶 tensor 从三维降维展开成二维(想想《三体》……)。这意味着将这 n 个 n × n 矩阵平铺在一起构成 M_3 这个 n × n² 阶的矩阵。以上就是投资组合 skewness 的计算方法。
对于投资组合的四阶矩 kurtosis,我们需要计算这些资产间的四阶矩 tensor。空间想象也搂不住了,索性就直接给出公式,具体请参考 Athayde and Flores (2003)。
其中 M_4 是降维成二维的四阶矩 tensor,它是一个 n × n³ 阶矩阵。有了投资组合的三阶矩和四阶矩的表达式,就可以和 Risk Parity 一样,计算这些高阶矩对于资产权重 ω_i 的偏导数,然后要求不同资产对于组合的不同阶矩贡献度相同。
依照这个思路,Baitinger, Dragosch, and Topalova (2017) 给出了资产配置的最优化方程。下式中,ARC_{2, i}、ARC_{3, i}、ARC_{4, i} 分别表示资产 i 对于投资组合 2、3、4 阶矩的绝对风险贡献(ARC 全称是 absolute risk contribution)。
有小伙伴可能会注意到,上面最优化问题中还有三个 λ。加入了三、四阶矩的 Risk Parity 理论上希望资产权重同时满足以下三个约束条件:
1. 所有资产在二阶矩上风险等贡献;
2. 所有资产在三阶矩上风险等贡献;
3. 所有资产在四阶矩上风险等贡献。
在实际求解中,由于上述三个条件难以同时满足,因此给每个约束加一个权重 λ,代表它们的重要性。比如,如果令 λ_2 = 1,λ_3 = λ_4 = 0,则上述问题退化为传统的 Risk Parity 问题。在 Baitinger, Dragosch, and Topalova (2017) 一文中,这三位作者考虑里以下这些 λ 取值(其中 ERC_[1,0,0] 代表传统的 Risk Parity 方式)。
为了考察这些融合了高阶矩的 Risk Parity 资产配置的表现,Baitinger, Dragosch, and Topalova (2017) 考虑了美股上的一些常见行业和风格因子作为配置的标的。除此之外,他们还考虑了一些模拟的资产。
在比较不同方法的效果时,除了传统的 Sharpe Ratio(下图中 SR),这三位作者还考虑了 Certainty Equivalent Returns(CER)。这是因为 SR 的计算也仅仅用到了二阶矩,故无法很好的评价这些配置方法。下图给出了考虑不同阶风险的 Risk Parity 方法在上述数据集上的配置效果(图中 CER 后括号内的数字表示不同的风险厌恶系数)。
从上述结果来看,如果仅以 SR 来论的话,考虑了高阶矩的 Risk Parity 和传统的 Risk Parity 互有胜负、难分伯仲。以 CER 来评价的话则能从一定程度上体现出带高阶矩信息的 Risk Parity 的优势。对于上述实证结果以及更多的仿真数据集分析结果,Baitinger, Dragosch, and Topalova (2017) 总结道:在收益分布存在明显尖峰肥尾特征、且资产间相关性更高的情况下,带高阶矩信息的 Risk Parity 将能够比 Risk Parity 有更好的表现。
这些结果表明带高阶矩的 Risk Parity 是一个值得继续深入研究的方向。
4
结语
本文花了不小的篇幅探讨了将尾部风险融合到 Risk Parity 进行资产配置的方法。
利用高阶矩从而寻求更好的资产配置决策一直是学术界研究的重点。例如,Harvey et al. (2010) 就提出一个贝叶斯框架把高阶矩信息融合到马科维茨的均值——方差最优化问题中。
由于估计误差随阶数非线性增大,因此四阶以上的矩在实际中用处有限(Fabozzi et al. 2007),所以学术界和业界把目光集中到了三阶矩和四阶矩上。希望在这方面,本文的介绍能带给各位一些启发。
参考文献
Arnott, R., C. R. Harvey, V. Kalesnik, and J. Linnainmaa (2019). Alice’s adventures in factorland: three blunders that plague factor investing. The Journal of Portfolio Management, Vol. 45(4), 18 – 36.
Athayde, G. N. and R. G. Flores (2003). Incorporating skewness and kurtosis in portfolio optimization: a multidimensional efficient set. In Advances in Portfolio Construction and Implementation, edited by S. Satchell and A. Scowcroft, 243 – 257, Oxford: Elsevier.
Baitinger E., A. Dragosch, and A. Topalova (2017). Extending the risk parity approach to higher moments: is there any value added? The Journal of Portfolio Management, Vol. 43(2), 24 – 36.
Fabozzi, J. F., P. N. Kolm, A. P. Pachamanova, and S. M. Focardi (2007). Robust portfolio optimization and management. New Jersey, Hoboken: John Wiley and Sons.
Harvey, C. R., J. C. Liechty, M. W. Liechty, and P. Muller (2010). Portfolio selection with higher moments. Quantitative Finance, Vol. 10(5), 469 – 485.