查看原文
其他

浅谈机器学习在量化投资领域的应用

呆为得 交易门 2022-10-08

近年来,在数据和算力爆发增长的背景下,越来越多的对冲基金开始将机器学习(人工智能)技术运用到量化投资中。但目前多数大型量化基金还无法完全依赖于机器学习算法和数据自动产生投资策略,仍需沿用传统模式,依靠研究员构建量化模型。本文将重点介绍传统量化策略和机器学习策略的主要区别、机器学习技术在量化投资中的具体应用领域,并讨论现阶段采用机器学习进行量化投资的挑战。

Part I 传统量化策略 vs. 机器学习量化策略 

传统量化策略 (多因子,CTA等)根据有较强逻辑支撑的假设,由策略研究员构建能够预测资产收益的模型(具体表现可编程的公式形式),并基于历史样本数据和统计学方法,对模型进行统计检验和参数估计(如需),从而得到可用的模型(函数公式)。实盘交易中,将当前数据作为模型输入变量,通过函数公式计算得到模型结果,并在此基础上形成投资决策。

相比而言,在机器学习量化策略中,事先不对变量间的关系做强限定,而是在算法和数据驱动下得出最佳模型。首先需对历史样本数据进行预处理提取特征数据,然后选用合适的算法模型,用特征数据对算法模型进行训练,直到得到最优的预测算法。实盘交易中,将当前数据特征值作为算法模型输入,通过算法模型得到模型结果,并在此基础上形成投资决策。


传统量化策略和机器学习量化策略的核心区别在于如何得到预测模型:

传统量化:公式形式+历史数据+统计工具 = 函数公式

机器学习:算法模型+历史数据 = 预测算法

在实盘中,二者差别不大:

最新数据+函数公式 or 算法模型 = 模型结果

相比而言,机器学习能克服人类的认知能力局限,更容易在海量数据中发现高维度、非线性的的复杂联系。

此外,传统量化策略的函数公式通常比较简单(为了防止过拟合问题),公开后容易被业界快速模仿,很容易出现策略拥挤(Crowding)和失灵(Alpha decay)问题。相比而言,机器学习策略收益来源更加多元丰富(不同算法和数据的组合可以挖掘出不同的潜在规律),策略拥挤和失灵风险较低。

机器学习的劣势是只能利用特定的历史样本集合和特定的算法去解决特定的问题,无法像人类一样综合利用个人过往知识经验,基于现有小样本点去创造性的提出合理假设。

机器学习的另一劣势是需要消耗巨大算力,复杂度较高的模型可能需要数日甚至更长时间才能完成模型调试和训练。策略实盘运行时,算法模型的计算复杂度通常会高于公式计算,从而导致更长的系统决策延时。

Part II 机器学习技术在量化投资中的应用领域

机器学习技术一般可分为三大类:监督学习、非监督学习、强化学习。

监督学习

监督学习中,训练样本有明确的自变量/解释变量(输入)和标签/因变量/被解释变量/被预测变量(输出),任务是通过解释变量的数据来预测标签的类别或值。监督学习可以分为分类(classification)和回归(regression)两大类。训练样本中包含的标签为类别(category)的,为分类任务;训练样本中包含的标签为数值(value)的,为回归任务。

在量化投资中,分类任务可以用于预测或解释市场的变化方向(涨或跌)、波动状态(高波动、中波动、低波动)、波动形态(趋势或振荡)、周期位置(繁荣、衰退、萧条、复苏)等。常见的分类任务算法包括逻辑回归、决策树、支持向量机、隐马尔可夫模型、神经网络等。分类任务的局限是,类别区分有时会比较主观随意(但可结合下文中的聚类分析使用),且类别信息中没有利用数值的大小信息。

相比分类任务,回归任务能更好的利用标签数值大小信息,且部分算法能够预测被解释变量的连续值(实数)。在量化投资中,可以用于预测资产/因子的收益率的大小、资产对风险因子的敏感度、进行交易冲击成本估计等。常见的回归任务算法包括带有惩罚的回归算法(如Lasso,Ridge等)、K临近算法、局部回归算法、回归树算法、贝叶斯算法、Kalman滤波算法等。

非监督学习

非监督学习的训练样本中没有事先明确的解释变量和被解释变量,目的是通过对训练样本的学习来揭示数据的内在关系或驱动因素,为进一步的数据分析提供基础。常见的无监督学习有聚类和因子(数据降维)分析两大类。聚类方法可以将样本基于数据的相似性分为多组;因子分析可以找到数据背后的共同驱动因素。

在量化投资中,聚类分析一般用于区分市场状态,例如高/中/低波动,高/低增长,高/低通胀,牛/熊/震荡市等;也可以进行资产归类,选出具有共性的资产进行下一步量化分析,或根据资产类别划分来构建平衡的投资组合。常用的聚类方法包括K-均值算法、近邻传播算法、最小生成树算法、分层聚类算法等。

因子(数据降维)分析一般用于找出多个资产波动的共同因素,例如可以将不同期限的债券收益率曲线变化降维至平行、斜率、曲率变化,将众多股票的波动降维至市场、价值、动量、波动率、流动性等少数因子的驱动。最常用的降维方法是主成分分析法。

强化学习

强化学习有较高的智能性,能与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。常见的强化学习的应用有无人驾驶,智能机器人,游戏竞技(如下围棋的AlphaGo)等。

在量化投资中,强化学习的优势在于它能够考虑到投资者自身投资行为对市场的反馈影响,在该影响比较重要的高频交易方面有较好的应用。此外,强化学习在投资组合动态优化方面也有一定应用尝试。

Part III 采用机器学习进行量化投资的挑战

尽管机器学习为量化投资提供了更加强大的工具,但由于面临以下现实挑战,导致机器学习在现阶段还不能完全替代传统量化投资方法。

1.低信噪比

在预测资产收益方面,有价值的信号往往很弱(在有效性较高的市场中理应如此,因为有价值的信号会被套利消失),很容易被淹没在大量嘈杂的市场噪声中。在此情况下,由数据驱动的机器学习算法很难识别出有效的信号,很容易受到无效噪声干扰。


对于一些有效性较低的市场(如A股,币圈),资产收益预测的信噪比会相对高一些,但这些市场又会受到有效历史数据较短,市场结构变化过快的问题。

在交易成本预测,组合风险预测方面,信噪比往往较高,这类信息不会被因利用该信息的人的套利行为而消失。因此现阶段在这些方面机器学习的应用更有可靠性。

2.有限的样本点

机器学习算法需要大量的样本进行训练,但在量化投资中,只能通过有限的历史数据中获得样本,而无法通过实验方法产生数据。

对于中长周期策略,有效的独立样本点数量十分有限,难以让机器学习到规律。但对于高频策略,在短期内就能积累大量样本,因此机器学习更适用于这类策略。不过高频策略难以容量大体量资金,因此对大型资管机构帮助相对有限。目前一些大型投资机构主要运用机器学习帮助其进行算法交易,以减少交易冲击成本。

另一方面,通过提高投资组合的资产数量(横截面数据)也能起到样本量扩充的作用。因此在同一策略周期内,通常股票策略(上千支股票在每一期产生上千个样本)会比CTA期货策略(几十个期货品种每一期只产生十几个样本)更适用机器学习。

3.市场的动态演化

除样本量有限外,机器学习面临的另一挑战是金融市场在不断演化。通过历史数据训练出的模型刻画的是历史市场规律,但这个规律伴随市场的演化可能不再能对未来市场有预测性。造成市场演化的因素包括监管要求改变、市场结构改变、投资标的基本面改变、投资者结构改变、投资者行为模式改变、投资者能力提升和市场竞争加剧等。


一些有适应性的机器学习算法可以根据最近产生的样本不断动态调整模型,但可行的前提条件是样本产生的速度要远大于市场演化的速度,这样才能保证在市场演化过程中,有足够多的样本来训练模型,使模型反映最新的市场规律。相对而言,高频交易的样本量更大,更易满足该条件。

4.模型的解释力低

不同于基于公式的传统量化模型,复杂度较高的机器学习模型对投资者来说像是黑盒,很难直观理解其背后的意义。尽快通过一些技术手段可以在一定程度上挖掘出算法模型中自变量和因变量的简单关系,但对高维度、非线性的复杂关系,目前还没有很好的方法帮助投资者理解模型意义。

模型的解释力低的问题,会导致在模型出现问题时,难以直接发现问题出处,也很难通过直接修改模型来解决问题。因此量化基金通常不会直接用海量原始数据进行机器学习,而是需要通过人工构建解释力较强的特征值,在此基础上再采用机器学习算法进行模型构建。

总结

相比传统量化策略,机器学习策略的优势在于,能够克服人类的认知能力局限,在多维度、大样本的海量数据中发现高维度、非线性的潜在复杂联系。但机器学习主要劣势在于,现阶段只能利用特定任务相关的历史样本集合去解决特定任务,还无法像人类一样综合利用个人过往知识经验(人生的全部数据集),综合发挥联想、类比、归纳、演绎等能力,在特定任务无样本或小样本基础上也能提出合理假设和解决方案。

在量化投资领域,利用机器学习技术在一定条件下能够更好的完成资产收益预测、风险建模、组合优化、算法交易等任务。但现阶段除高频策略外,由于受样本量限制,完全由机器代替人类构建量化投资策略还很难实现。

本文作者徐大为(笔名呆为得)曾就职于国家外汇管理局,从事国家主权财富基金的海外投资工作,负责过多家全球顶级对冲基金的尽职调查和投资项目,深谙对冲基金各类投资策略和经营管理模式。后联合创立金融科技公司Bridgehead Technology,任研究总监,为全球投资者提供量化交易、风险管理、资产配置和基金评估相关的技术咨询服务。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存