沪港通股票统计套利：基于BP神经网络

2016-04-07 彭应东、陈创练 量化投资与机器学习

谢谢大家的支持！现在该公众号开通了评论留言功能，你们对每篇推文的留言与问题，可以通过【写评论】给圈主留言，圈主会及时回复您的留言。

查看之前文章请点击右上角，关注并且查看历史消息，谢谢您的支持！

一、理论介绍

1.基础策略－统计套利

统计套利是根据对历史数据的统计来指导投资，是一种基于模型的中短期投资策略，使用量化分析方法挖掘投资机会。使用配对交易（统计套利方法之一）是利用标的对相对价差获取收益，在市场相对稳定情况，标价差理论上也是稳定的，可以对冲大部分市场趋势变动的风险。

统计套利一般步骤：首先通过相关系数和平稳检验，选出股池可能具有稳定价格关系的投资对；其次，通过EG协整回归确定有稳定价格关系的投资对；最后，在存在稳定股票对中，筛选有价差偏离现象的投资对。

配对交易的收益情况：设有Yt，Xt价格序列，两者已通过相关和平稳筛选，对应协整方程为：

移项：

当处于投资时点i时，若标准化后正向偏离(，是设置的开仓阈值)，认为残差（即价差）将会回复，进行卖空1单位的Yt，价格为Yi；买入单位的Xt，价格为Xi，构造股票对。当到平仓时点j，获得收益（或亏损）为：

若负向偏离，反向操作。

在使用上述统计套利方式进行投资时，价差偏离回复需要的时间和空间是未知的，如果在投资时能对价差序列实现预测，就可以提前确定套利的利润；此外，协整的残差序列（即价差）具有自相关性。基于以上，本文将价差序列的自相关性作为预测的理论基础，采用神经网络算法对价差实现预测，进而优化基础策略。

2. 优化策略－BP神经网络算法

神经网络（ANNs）算法使用领域十分广泛，它是智能科学和计算智能的重要部分，以脑科学和认知神经科学的研究成果为基础，拓展智能信息处理的方法，为解决复杂问题和智能控制提供有效的途径。简单来说，神经网络是一个数学模型，模型中有多个信息处理器（网络层和神经元），随着输入的信，动态调整模型的权重和阈值，最终形成输出。

神经网络模型的内含数学公式：

二、港股通介绍和数据预处理

沪港通全称沪港股票市场交易互联互通机制，指两地投资者委托上交所会员或者联交所参与者，通过上交所或者联交所在对方所在地设立的证券交易服务公司，买卖规定范围内的对方交易所上市股票。沪港通包括沪股通和港股通两部分，从2014年11月开通至今，市场活跃度逐渐提高。本策略模型选取港股通标的作为研究范围，有以下两方面考虑：1.股票市场投资标的多，出现有投资可能性的投资对更多2.统计套利依赖于完善的做空机制，港股通的做空条件相对于内地上市股票更加成熟。

截止2016年3月，港股通有港股294支，选取2013.4-2016.3的收盘价数据作为研究范围。对数据进行预处理，将有空缺数据和涨跌幅异常（单日涨跌>30%）的港股剔除，最终得到558个交易日收盘价＊250支股的数据阵。

三、实证思路以及分析

本文策略为得到仿真的投资结果，对数据阵施行滚动回测的方式：以250个交易日数据为一个周期，确定投资标的对，并规定每次确定的标的，最长持仓时间为5个交易日，则将558交易日分为60个投资阶段((558-250)/5，向下取整，最后8个交易日去除)，下面以第一个阶段（1～250），进行步骤说明：

1.对250交易日*250支股价格序列进行相关系数的初步筛选，保留相关系数大于0.9，p值检验小于0.01的股对；

2.平稳性检验，对每对中的两只股票都进行平稳性检验和一阶差分平稳检验，保留两只股票属于同阶单整，且一阶单整平稳性检验p值小于0.01的股对，平稳检验使用ADF法，其中一对股对平稳检验结果如下：

股票代码	ADF检验值	ADF显著性	一阶差分ADF检验	一阶差分ADF显著性
0001.HK	0.8948	0.9006	-15.3658	0.001
0008.HK	0.7905	0.8825	-16.2956	0.001

由表知此对股票原序列非稳定，但都是一阶单整符合，筛选条件。

3.协整检验，对股票对进行协整回归，确定存在长期稳定的标的；保留调整后R2>0.85，F统计量的p值小于0.05，回归系数介于［0.5，2］，截距绝对值小于5，DW值>3或DW值<1的股对；下表是其中一对股的协整检验结果)：

协整系数	截距	F统计量	P-value	Adj-R2	D.W.
0.048	-1.58	1398.82	0	0.85	0.099

对应协整方程：

由表知，此对股票协整结果符合筛选条件。此外，此一步还计算投资决策日的价差序列（标准化后），以价差偏离值的绝对值大于1.5标准筛选，即

4. BP神经网络价差预测；依次使用剩余股对的价差序列，训练神经网路，并实现5个交易日价差的预测值。下图是其中一序列预测值与实际值（未标准化）的比较，可以看出预测值和实际有共同趋势且接近，有较好预测效果。

此步保留股票对的依据是预测的均值回复值（标准化后）与投资决策日的价差（标准化后）差值大于1。即

上图价差预测值在图中自投资节点开始有明显均值回复现象，符合筛选条件。

5.平仓设置和回测，设置最长持仓为5个交易日，与价差进一步扩大的平仓阈值0.5的平仓条件，即：

为构建拟真的投资环境，依据协整系数值，使用第250天收盘价开仓；用第250个时点之后的5个收盘价（251～255）数据，计算收益（或损失）直到达到平仓条件。最终第一个投资阶段（1～255）的收益情况如下：（交易费用率设为千分三，做空保证金50%）

资金

79.1264

收益

1.9005

手续费后

1.2580

收益率：1.59%

以上，已经对第一个投资计算阶段进行了说明。对整个数据矩阵进行完整回测，需要进行60次以上步骤的循环，以对模型整体效果形成评价。对以上开平仓条件归纳，开仓筛选条件：

相关系数	单只股票检验结果	单只股票检验结果	预测回复水平包括回复次数
r>0.9	P<0.01	P>0.01	P<0.01
协整方程整体显著	协整方程拟合程度	协整方程值	协整系数	协整截距	价差偏离

平仓条件：

四、结果分析与启示

下面对整个时间段的数据，进行回测，参数选择不变，增加每次投资持股数量不超过15对的限制，约 1.5591年，得到结果和香港恒生指数同一时间段的收益率做对比，图表如下：

	最后净收益	收益率	年化收益	最大回撤	最大回测率	风险收益比
未考虑交易费用	23.1546	27.78%	17.82%	5.7726	0.2791	2.5727
考虑交易费用	15.8167	18.98%	12.17%	6.0307	0.5305	1.6822

由结果图表，本次构建的量化模型即使在引入手续费后，也得到了优良的回测收益，同期的恒生指数，收益率 -17.04%；而本文所构建的模型，也能达到正的年化收益率后17.82%；模型的风险与收益比1.6822，一份风险对应1.6822的收益；策略较高的回撤率较高，为0.5305。

策略的优点，一，使用的标的范围广，资金不会出现闲置，二，引入了BP网络算法对统计套利实现优化，提高模型的准确性。但模型也存在以下的不足：一，对于网络的优化，相应的参数和函数选择相对固定，应该针对每一价差序列的每一次拟合，均实现网络参数的优化；二，预处理删除了一些可能存在收益（损失）的标的股；三，构建的模型在市场大牛或大熊时，收益率走向均向下。

综上，基于BP神经网络的统计套利是可以帮助投资者在震荡行情获得超额收益，但在市场单边上涨或下降时，要注意防范风险。

过往文章

1.【机器学习课程】深度学习与神经网络系列之绪论介绍

2.【Python机器学习】系列之线性回归篇【深度详细】

3.多因子策略系列（一）——因子回溯测试的总体框架

4.Python机器学习：数据拟合与广义线性回归

5.【分级基金】之分级A的隐含收益率研究分析

6.Python VS Matlab----给我一个理由先

7.【干货】量化投资国内外很棒的论坛网站

8.朴素贝叶斯模型(NBM)详解与在Matlab和Python里的具体应用

9.机器学习的前期入门汇总

10.【深度原创研究】分级基金下折全攻略（一）