查看原文
其他

实战丨​​基于XGBoost模型的高频交易机会挖掘研究

金融电子化 金融电子化 2021-08-11

欢迎金融科技工作者积极投稿!

各抒己见!

投稿邮箱: 

newmedia@fcmag.com.cn

                                 ——金融电子化

文 / 招商证券股份有限公司  王飞 张勇 罗宁波

高频交易是量化投资策略的重要组成部分,识别交易机会是进行高频交易的核心。


高频交易是利用高速计算机进行编程和自动交易,使其达到毫秒甚至微秒的交易速度,并自动对行情价格序列进行判断来下单,从而远超普通计算机和人工交易员的交易速度,借此从极为短暂的市场变化中寻求获利。相较于低频交易而言,高频交易的交易次数多、持仓时间短,一般每次的持仓时间在10分钟甚至1分钟之内,平均每笔交易的盈利不到1个百分点。


识别交易机会是高频交易策略的关键,可以采用数据挖掘的方法,对报价和交易单流进行逆向工程解析,以期建立信息模型发现市场上暗藏的交易导向信息,并利用观测到的和推测出的指令单流来为交易系统提供信息,为交易系统做出决策。庞大的数据量允许模型具有更大的自由度,在有助于研究人员做出统计性推断的同时,也为数据处理和分析技术带来了更大的挑战。现有的高频策略研究主要使用固定时间间隔的十档行情等数据,而对于不定间隔的逐笔数据研究较少,本文将提出一种基于机构行情数据的高频交易机会挖掘模型,主要贡献如下:首先,采用十档行情、委托队列、逐笔委托和逐笔成交四类数据,解决了异构数据的预处理问题,通过对逐笔数据的重采样得到对齐的监督学习数据。其次,从时刻、变化率和滑动平均多维度考虑,构造了时刻特征、Lag特征和Window特征三类特征。第三,基于时序滑动窗口,构造了多尺度滑窗对历史数据进行统计提取,并通过比较不同尺度的窗口,得到多尺度窗口交叉特征。


高频交易机会挖掘模型

1.数据预处理

交易所行情数据中包括十档行情、委托队列、逐笔委托和逐笔成交四类数据,在连续撮合时间内,十档行情和委托队列是间隔3s的时间序列数据,体现了市场当前状态下的买卖委托情况,逐笔委托和逐笔成交两种逐笔数据的时间间隔不固定,是市场真实委托和成交情况的反应。在使用逐笔数据之前,将其进行重采样使得将样本对齐到固定间隔数据中。以十档行情数据的时间为节点,对逐笔委托和逐笔成交的数据进行重采样处理,将获得的在3s内逐笔数据各项特征的各项统计值用作样本特征。其中统计值包括最值、平均值、中位数、标准差、方差等。


此外,使用z-score标准化对特征进行处理,消除不同指标具有不同的量级和量纲的影响,保证结果的准确性,缩放之后的所有特征是均值为0,方差为1的无量纲序列。


2.特征工程

在使用线性模型或机器学习对时序数据进行建模分析前,必须使用时序数据重新构建监督学习的数据集。本文从时刻特征、Lag特征和Window特征三个方面提取特征。(1)时刻特征:观察样本该时刻的基本静态属性,该时刻的最新价、交易总量、委托买卖数量、振幅等。(2)Lag特征:以前一个时间点的观测值作为本条数据的特征,如前一条观测值、前五条观测值等。(3)Window特征:历史时间窗口观察值的统计值,可包括窗口的最大值、最小值、均值、极差等统计值。同时取多种尺度的窗口,将不同尺度窗口的观察值进行统计比较,获得更多衍生的Windows特征。


这三种特征可以看作对历史数据的一种三维度量,其中时刻特征是已有信息中最新交易时刻的数据,可以看作“点”特征;Lag特征使用了最新时刻前1条或者前5条数据,反映了该时刻的变化情况,可以看作“线”特征;Window特征使用各种统计量反映了历史中的不同时间周期内的市场情况,可以看作“面”特征。


在构建市场交易信息的特征量后,通过随机森林输出的特征重要性对所有特征进行评估,可以得到所有特征的重要性系数。根据特征的重要性系数,对特征进行初步分析,结合专家知识,删除一些绝对价格和数量特征。然后使用序列前向搜索得到最优的特征子集,具体流程如图1所示。

图1  序列前向选择算法


3.机器学习模型

选用XGBoost作为交易机会识别模型的分类器,XGBoost是一种基于树模型的boosting集成学习模型,将若干个弱模型通过不同的样本抽样学习训练成为一个强模型。XGBoost对于每一个回归树进行求和,作为最终的预测值。

其中K是模型中树的总个数,Xi表示第i条样本数据,yi为Xi的类别,F为回归树的空间。如果训练数据集中包括n条样本数据,每条数据有m个特征,样本空间如下所示。

XGBoost被验证是一种极为优秀的学习模型,被广泛应用于工程实践中,往往可以得到较为优秀的结果,但是其超参数较为复杂,调优花费较大。


实例验证

本文综合考虑股票区间偏差、振幅、换手率和总金额等因素,选取深圳市场中偏差小、振幅大、换手率较多、总市值适中的启迪环境(000826)作为我们研究的样本股,其基本信息如表1所示。


表1  样本股基本信息


为了减小短期价格噪声的影响,我们使用未来12s平均价和过去12s的差值股票涨跌的计算依据。首先,计算t时刻价格的滑动差值,公式如下。

其中,∆t为样本间隔时间,由于十档行情和委托队列数据的间隔均为3s,因此取∆t=3;λ为滑动长度,这里取λ=4;∆P可以看作该时刻未来12s与过去12s平均价的差值,在今后的研究中,∆P可以作为回归问题的预测目标值。使用t时刻价格的滑动差值的示性函数作为数据标签,预测未来12s平均价与过去12s平均价相比的涨跌情况,考虑到手续费等交易成本,当上涨超过1‰时,我们认为此时具有获利交易机会,具体公式如下。

1.模型度量与验证

本文选用Accuracy、Precision、Recall、F1 score和AUC作为模型的评价指标。在分类问题中最常用的度量参数为准确率Accuracy,但是准确率在样本标签不平衡的情况下不能有效反映准确的模型性能。因此以混淆矩阵为基础,选择了精确率Precision、Recall和F1 score,从ROC曲线中提取AUC作为模型的度量指标。


由于时序数据不满足独立同分布特性,此时如果依然采用传统交叉验证方法,可能会将未来时刻的数据划入训练集,历史时刻的数据划入验证集,进而出现用未来规律预测历史结果的“作弊”行为,引起模型过拟合。实验采用时序交叉验证,保证测试数据不会收到时序训练数据的影响,如图2所示,5折交叉验证方法划分训练集和测试集,使用5次验证的度量均值作为模型最终的性能指标。

图2  时序交叉验证


2.结果与讨论

我们根据时刻特征、Lag特征和窗口特征构造了345个时序特征,通过前述混合特征选择算法,筛选了包含14个特征的特征子集。使用XGBoost分类器学习选择的14个特征,并进行5-fold时序交叉验证,实验结果如图 3所示。从交叉验证的各个度量指标的平均值来看,预测的准确率达到了0.92以上,平均准确率为0.93,说明分类器对所有测试样本的分类效果较好,同时从各个交叉验证结果来说,当训练样本增加时,模型的准确率逐渐上升。


从AUC来说,模型表现尚可,但是F1值仅有不到0.30,F1是precision和recall的调和平均值,在该分类模型中,精确率precision平均达到了0.5以上,然而较低的召回率recall拉低了F1的得分。一般来说,市场上存在很多短期获利机会,模型为了收益的稳健性,仅识别了较有把握的少数投资机会。


模拟环境账户初始资金为1000000元,将XGBoost模型与逻辑回归、随机森林模型进行对比,三种分类器的回测日收益(元)具体如表2所示。


表2  模型性能对比


由上表可以看出,XGBoost分类器得到了最优的平均收益,扣除1.2‰的交易成本,平均日收益率为1.250‰,假设每年250个交易日,则策略年化收益率为31.3%。逻辑回归平均收益率最低,为0.541‰。在fold4的测试集中,股票价格持续下跌,正样本数量较少,正负样本失衡,因此三个分类器都没有得到较好的结果,但是逻辑回归模型却能够保证不会亏损,相对来说更为稳健。与此同时,若将模型应用于挖掘卖空交易机会,结果表明卖空策略的日均收益为0.269‰,年化收益率为6.7%。

图4  测试集的收益统计


图4展示了十五天的K线以及每天收益的情况,虚线为买涨收益,点线为卖空收益,实线为累计收益。从图中我们可以看到,在行情较好的交易日内存在大量的买涨机会,模型买涨收益较高;在小幅下降或上升的交易日内买涨机会相对较少,卖空收益有所增长;在少数大幅下跌的交易日内,模型的平均收益率能够保证非负。以深证成指和年化3%国债为基准,部分量化指标如下。


表3  策略量化指标


基于该模型的策略得到了较高的年化收益,其Alpha大于零,说明该策略优于大盘表现;Beta值仅为-0.0193,说明高频交易的收益与整体行情相关性不大,策略主要关注短时间内的微小收益;夏普比率是每承受一单位总风险产生的超额报酬,本策略中夏普比率为24.328,表明单位风险可以获得较为可观的风险回报。


结束语

本文研究针对高频交易中的深度异构数据,构建多维度特征工程模型,特别是构造了时间序列数据的多尺度划窗特征,使用混合特征选择方法选取有效特征,真实交易数据集下有效提升了策略收益,降低了策略风险。后续研究包括扩展回测时间和标的种类,进一步验证模型的有效性。


参考资料

[1] 蓝海平:《高频交易的技术特征、发展趋势及挑战》,载《证券市场导报》,2014,59~64页 

[2] 刘文文、乔高秀:《市场微观结构下高频交易流动性——基于我国商品期货市场的实证研究》,载 《系统工程》, 2016,17~25页 

[3] 包思、郑伟安、周瑜:《基于MACD的平稳技术指标在高频交易中的应用》,载《华东师范大学学 报》,2013,152~160页 

[4] 孙达昌、毕秀春:《基于深度学习算法的高频交易策略及其盈利能力》,载《中国科学技术大学学报》, 2018,58~67页





往期精选:

(点击查看精彩内容)


● 实战丨金融科技赋能“终端”新未来

● 实战丨基于政务大数据的普惠金融数据模型研究

● 实战丨万里数据库在金融核心业务的实践分享

● 实战丨证券市场文本信息智能化应用与实践

● 实战丨数字经济时代下券商的金融科技转型





关于仿冒我刊收费的声明





我刊自创刊以来,从未向投稿人收取过任何费用。任何以刊发文章为名向投稿人收取费用的行为,均属于对投稿人的欺诈行为。


我刊官网地址为 www.fcmag.com.cn。

我刊投稿邮箱为 fcmag@fcmag.com.cn。


对于仿冒我刊网站、网页的违法行为,我社将追究其侵权责任,以维护我社和投稿人的合法权益。仿冒网站、网页举报电话:010-88232443



《金融电子化》新媒体部:主任 / 邝源  编辑 / 潘婧 傅甜甜

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存