查看原文
其他

【天天阿尔法】分位数回归在多因子选股中的应用

2017-12-11 量化投资大家学

导读:

分位数回归可以看作是均值回归的一种替代方法。它最早被用来研究不同的收入水平和职业、教育程度等一系列指标的关系。与均值回归相比较,分位数回归并不需要均值回归对正态和同方差的前提假设,当数据出现尖峰或者厚尾的形态以及显著的异方差时,分位数回归更加稳健。


分位数回归介绍


分位数回归最大的优势就是可以对分布的任何一个位置(分位点)建立回归模型,研究变量之间的关系。跟均值回归只能得到单个预测值不同,分位数回归可以通过给予数据不同的权重得到一组预测值。这些预测由变量tau标识和区分,它代表了被赋予高权重的观测数的百分比,也即收益率分布的分位点,可在0到1之间任意取值。例如,若投资者想要了解市值因子对高收益股票的效应,可设tau=0.9。反之,若对低收益股票和市值因子之间的关系感兴趣,则可设tau=0.1。特别地,当tau=0.5时,分位数回归也被称为中位数回归。



可以想象,随着tau在0到1之间变化,参数的估计值有可能存在巨大的差异。倘若这种情况发生,表明因子对收益率分布不同位置的影响截然不同。此时,仅用均值回归来预测收益,甚至是筛选股票显然就不合理。举个简单的例子,若两个股票通过均值回归得到的预期收益十分接近,那么在选股时要对它们加以区分就显得比较困难。但如果通过分位数回归发现,第一个股票收益分布的10%分位数远大于第二个股票,那可以毫不犹豫地认为,前者是更好的选股对象。这是因为,根据VaR(Value at Risk,在险价值)的定义,该分位数的相反数即为10%的VaR,选择第一个股票意味着在预期收益相同的条件下,面临的风险更低。


分位数回归模型的参数估计可通过如下的优化过程得到,



分位数回归与单因子选股


为进一步说明分位数回归在因子选股中的应用方法,本文以中证500指数成分股为研究对象。选取前一个月的收益率作为因子,即解释变量x,当月的收益率为被解释变量y。以下两图分别给出了均值回归和分位数回归的斜率估计值。其中,左图为当月收益率与因子的散点图,虚线为均值回归的斜率估计,三条实线从上到下分别为tau=0.9,0.5,0.1时的分位数回归的斜率估计。



由左图可见,中位数回归(tau=0.5)的斜率估计与均值回归较为接近,呈现轻微的从左上向右下倾斜的形态,表明股票前一个月 48 30802 48 15043 0 0 3707 0 0:00:08 0:00:04 0:00:04 3706收益率对当月收益分布的中间位置(均值或中位数)有负向影响,即存在反转效应。但是,当tau=0.1或0.9时,分位数回归的结果与均值回归却有着较大的差异。tau=0.1对应的分位数回归直线更为陡峭,表明收益分布的左侧受到前一个月收益率的影响更大。而tau=0.9对应的分位数回归的斜率更是变为正值,进一步说明同一个因子可能对收益分布不同位置有截然相反的效应。


右图给出了分位数回归在更多分位点上的斜率估计,并与均值回归的结果进行对比。其中,水平直线为OLS的斜率估计值,折线为不同的tau值对应的分位数回归的斜率估计,虚线为对应估计值的95%置信区间。在50%-70%的分位点处,两种回归方法并无太大区别。但越向两个极端,两者的差异就越大,10%分位点对应的斜率绝对值几乎是均值回归的2倍。


由此可见,因子对收益率分布的不同位置有着完全不一样的效应,单一的均值回归不足以反映这种特征。但是,如何将分位数回归的结果应用于具体的组合构建,却并不如均值回归那般简单,涉及到对分位数回归的理解与分位点的选取。


tau取什么值?


由上文可知,每一个tau的取值都对应着股票收益率的一组预测,究竟应该使用哪一个值取决于对预测结果的用途。如果投资者想基于收益率的预测值来对股票排序,并买入那些排名较高的股票且卖出排名较低的股票,那么应当选择回归直线最陡峭且统计意义上显著的斜率所对应的tau值。因为它代表了最能体现股票未来表现差异的一个方向。


例如,在前一个月收益因子的散点图中,tau=0.1对应的斜率最为陡峭。这表明,如果只用前一个月收益因子来对股票排序,使用tau=0.1的分位数回归得到的收益率预测值能使top组合与bottom组合有最大的差异。


如果计算前一个月日均换手率和市值因子与收益之间的分位数回归,同样可以发现tau取0.1时对应的斜率绝对值最大。因此,根据“最能体现股票未来表现差异”的原则,如果用这两个因子单独选股,也应该使用=0.1时的收益率预测值来对股票排序。


综上所述,下文在使用总市值、前一个月日均换手率和前一个月收益率构建三因子的分位数回归选股模型时,着重展示tau=0.1的结果。


三因子分位数回归选股模型


用于实证的样本为2007年1月-2017年9月期间,中证500指数所有成分股的月度数据。以t月的因子值作为解释变量,t+1月的个股收益率为被解释变量,分别建立均值和分位数回归模型。为了降低极端值的影响,本文采用MAD(Median Absolute Deviation,中位数绝对偏差法)来剔除异常值。


随后,分别对前一个月收益、前一个月日均换手率以及总市值三个因子进行行业中性化。具体来说,以Wind一级行业哑变量为解释变量,因子值为被解释变量,通过横截面回归求得残差作为中性化后的因子,从而获得纯粹的股票层面的因子效应。最后,对因子进行Z-Score标准化处理。


本文使用回归系数6个月的移动平均建立最新的收益预测模型,在每个月末预测下个月每个股票的收益率。以此为依据将所有股票排序,并均分成10组,分别采用等权和市值加权两种方式计算每组的收益。换仓的交易费用设定为双边千分之三,模拟组合的起点为2007年8月。


为了更好地进行对比,依次计算均值回归、tau=0.1、0.5和0.9的分位数回归对应的选股结果,分别几位OLS、QR(0.1)、QR(0.5)、QR(0.9)。下表给出了每一组的年化收益。



剩余内容,请点击此处查看原文。该文章由微信公众号“海通量化团队”原创 ,ID:“ht_quant” 。本订阅转载目的在于传递更多信息,第三方转载请与原账号联系。



相关推荐:


1、【天天阿尔法】探索性因子分析

2、【天天阿尔法】什么是因子分析?

3、【天天阿尔法】事件选股方法中的因子暴露与纯化事件收益


注:点击阅读原文,进入量化掘金交流“源”地——量邦社区,带你一同开启量化世界的玄妙之门。若手机无法显示策略源代码, 用电脑打开可查看策略源代码,网址:bbs.quanttech.cn

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存