本文是因子选择专题的第 001 篇,也是因子动物园的第 041 篇独立原创研究。
【30 秒速览】李斌, 邵新月和李玥阳(2019)第一次基于 A 股的大量异象,对机器学习和深度学习算法选择因子和预测股票收益的能力进行了深入的探究,并利用分析结果,反过来对因子的重要进行了考察。他们发现,新的算法的确在某种程度上可以更好地挖掘因子与股票未来收益间的线性与非线性关系。他们也指出,交易摩擦类因子在 A 股最为重要,但价值因子不重要,这一点似乎与已有研究不符。
01. 简介
02. 基本目标和方法
03. 方法比较的实证结果
【写在前面的话】由于研究方向的原因,我自己其实读中文文章不多,更遑论仔细介绍中文文献了。但今天这篇,虽然有颇多争议,但我个人认为值得好好说道一番。
近年来,随着机器学习和深度学习的快速发展,机器学习在金融,包括因子研究领域,也得到了日益广泛的应用。例如,周国富和 Rapach 教授也在多篇文献中用到了以 forecast combination 为代表的机器学习方法(见 Rapach, Strauss, and Zhou (2010), Kong, Rapach, Strauss, and Zhou (2011), Rapach and Zhou (2010) 以及 Han, He, Rapach, and Zhou (2019).)。更重要的自然是 Macos Lopez Prado ,仅 2018 年一年,他撰写了至少 3 篇相关论文以及一部专著(见 Prado (2018 a,b,c,d))。此外,他还同 Frank Fabozzi (这位大佬不用多说了吧)和 Joseph Simonian 一同作为主编,参与创办了新的期刊 Journal of Financial Data Science 。在这份新期刊的第一期,三位大佬 Rob Arnott(ResearchAffiliate 的创始合伙人及董事长)、Campbell Harvey 和投资组合理论奠基人 Harry Markowitz 联合发表了一篇题为《A Backtesting Protocol in the Era of Machine Learning》的文章(详细介绍请参考川总的推文 机器学习时代的回测规程),宣告投资策略和因子研究正式步入机器学习时代。但过去的相关研究往往仍集中于利用机器学习算法构建新的因子,鲜少涉及利用机器学习算法来进行大规模的因子及预测模型筛选。此外,已有研究主要关注机器学习算法,对近年日益兴起的深度学习则关注较少。最后,这些研究大多基于美股进行,较少关注 A 股市场。因此,今天难得地着重介绍一篇中文文章——《机器学习驱动的基本面量化投资》,由武汉大学李斌教授及两位硕士生发表于《中国工业经济》。
作者们以 1997 年 1 月至 2018 年 10 月间 A 股市场的 96 个重要投资异象为基础,比较了经典的 OLS 模型和多种机器学习和深度学习模型,以回答下述 3 个依次递进的主要问题:- 是否有非线性机器学习模型可以超越线性机器学习模型?
- 如果非线性模型的确表现更好,那么,是否有深度学习算法可以超越机器学习模型?
特别地,作者们共选取了 5 种线性机器学习算法、4 种非线性机器学习算法和 3 种深度学习方法。其中,考虑到股票收益预测问题的性质,机器学习算法都为监督学习方法。具体算法如下表 1 所示。
数据来源:因子动物园,李斌, 邵新月和李玥阳(2019).对于每一个因子/模型,作者使用 12 个月的滚动窗宽进行建模并对下月收益率进行预测,根据预测收益率将股票分为 10 组,构建多空因子组合。理论上,最优参数也是时变的,但基于计算量和稳健性的考虑,作者在整个分析期间,都沿用第一期选择的最优参数。此外,考虑到不同因子取值可能有数量级的差异,为了控制其对建模结果的影响,作者在每次建模前,对训练集的因子进行了标准化处理。
表 2 展示了不同模型下的多头、空头及多空组合表现。从该表可以发现:- 线性机器学习模型表现均略优于 OLS,显示机器学习算法确实可以更好地识别因子与股票未来收益之间的相关性,虽然提升幅度并不是非常大。
- 非线性模型表现显著优于线性模型,其中以 XGBoost 为甚。XGBoost 近年在数据挖掘界非常流行(有玩笑称其为 Kaggle 竞赛标配),此处在因子研究中同样也有非常出色的表现,不仅多空组合平均收益提升超过 30%,t 统计量更是超过 9,异常得显著。
- 深度学习算法普遍表现出色,总体上优于机器学习算法,其中 DFN 表现最好,平均收益最高(2.78%),t 统计量同样也接近 9 。
- 所有机器学习模型都高度显著,且显著优于经典的规模因子(SIZE)。要知道,规模因子是众所周知的 A 股市场表现最好的单因子。由此可见机器学习模型的确尤其重要价值。
此外,由于 A 股做空约束较多,多头组合的表现也应给予较多关注。结果也是类似的,深度学习和非线性机器学习算法,尤其是 DFN 和 XGBoost ,表现非常出色,此外,LSTM 也表现优异。
数据来源:李斌, 邵新月和李玥阳(2019),表 1.进一步的收益差分析表明,所有机器学习算法的绩效相对 OLS 都有显著提升,而 DFN 能显著超越线性机器学习算法。在此基础上,利用除 FC (因 FC 为单变量 OLS 的算术平均)之外的 11 类算法,构建集成预测:
再根据集成预测来构建因子。结果显示,在不同的窗宽下,多空组合和多头组合的表现都显著优于 OLS 下的表现。
数据来源:李斌, 邵新月和李玥阳(2019),表 3 和 表 4.
在肯定了机器学习算法对于因子模型的重要性后,作者们并未就此止步。他们试图据此对不同异象的重要性进行探讨。具体而言,已知机器学习算法有良好表现,那么,一个因子越重要,理论上,它就应该被越多的机器学习模型选入最终的模型。因此,作者们统计了每个因子被不同模型选中的次数,来分析因子的相对重要性。表 4 展示了单因子、线性和非线性算法中被选中次数较多的因子。可见,交易摩擦类因子非常多,成长、盈利和动量因子等也有上榜。数据来源:李斌, 邵新月和李玥阳(2019),表 6.表 5 则直接给出了不同类别因子被所有 14 个模型选中次数不低于 5 次的情况。与表 4 一致,交易摩擦类因子以 52% 的上榜率遥遥领先,财务流动性因子和动量因子也表现尚可,而价值因子则无一入围。
数据来源:李斌, 邵新月和李玥阳(2019),表 8.首先,这篇文章的思路非常清晰,循着提出的几个主要问题而有序地推进研究,且实证工作毫无疑问也非常详尽而扎实(据说作者光 coding 前前后后就花了一年多时间),非常令人钦佩,值得好好学习。其次,该文最后关于因子重要性的发现是非常有趣的,也有一定争议。大部分关于 A 股的研究都认可交易摩擦类因子在 A 股当仁不让的重要地位,但已有研究普遍认为 A 股价值因子显著而动量不显著,例如 Qiao (2018) 在研究了 231 个因子后指出,交易摩擦和价值因子在 A 股较为显著,其他因子则普遍不显著。这篇文章则发现基于机器学习的视角,价值因子不重要,动量反而更重要一些。这方面,未来值得更深入的讨论。再者,作者们未进行动态参数选择,这固然降低了过度拟合的风险。但一直使用第一期选择的参数,似乎也不是非常恰当。也许某些线性算法在其他的参数下有着显著优异的表现且同样稳健,那么,本文的结论就要打问号了。最后,这篇文章基于已有因子进行整合和筛选,固然有更好的表现,但其内部的 blackbox 仍然难以让投资者对其表现真正信服,因而在实际应用中会有不少障碍。这同此前我们【040】Trend Factor in China :中国版定价模型?一文梳理关于 trend factor 的研究时的疑虑是相同的。未来,也许可以更进一步,对投资组合的持仓进行深入分析和比较,基于持仓和收益率分解,将新算法下的业绩提升进行量化拆解,以让投资者更好地理解策略。机器学习和深度学习的时代已然来临,因子研究也不可避免步入机器学习时代。虽然已有不少相关研究,但李斌, 邵新月和李玥阳(2019)这篇文章还是有不少新意,作者们第一次基于 A 股的大量异象,对机器学习和深度学习算法选择因子和预测股票收益的能力进行了深入的探究,并利用分析结果,反过来对因子的重要进行了考察。他们发现,机器学习模型优于单因子(包括 SIZE),而非线性模型优于线性模型,深度学习算法总体上优于机器学习算法。这表明,新的算法的确在某种程度上可以更好地挖掘因子与股票未来收益间的线性与非线性关系。与此同时,他们的部分发现和观点也有待进一步探究。例如,他们发现 A 故市场上价值因子不重要,但已有研究和投资者的直观感受,都支持价值因子很显著。此外,更为重要的,如何拆解机器学习和深度学习算法的 blackbox ,让投资者更好地理解算法超额收益的来源,从而更好地据此指导投资实践。也许,这也是这个机器学习新时代的核心课题。本文仅为分享,不代表任何投资建议。文章图表来自于相应论文,仅为介绍之用,版权归原作者和期刊所有。另:点击文末阅读原文,可跳转至期刊的文章链接,下载文章原文及附件。该文附件包含作者提供的相关数据。
Arnott, Rob, Campbell R. Harvey, and Harry Markowitz. "A Backtesting Protocol in the Era of Machine Learning." Journal of Financial Data Science 1.1 (2019): 64-74.
Bali, Turan G., Robert F. Engle, and Scott Murray. "Empirical Asset Pricing: The Cross Section of Stock Returns." John Wiley & Sons, 2016.
De Prado, Marcos Lopez. "Advances in Financial Machine Learning." John Wiley & Sons, 2018.
De Prado, Marcos Lopez. "Beyond Econometrics: A Roadmap Towards Financial Machine Learning." Available at SSRN 3365282 (2018).
De Prado, Marcos Lopez. "Ten Applications of Financial Machine Learning." Available at SSRN 3365271 (2018).
De Prado, Marcos Lopez. "The 10 Reasons Most Machine Learning Funds Fail." Journal of Portfolio Management 44.6 (2018): 120-133.
Han, Yufeng, Ai He, David E. Rapach, and Guofu Zhou. "What Firm Characteristics Drive US Stock Returns?." Available at SSRN 3185335 (2018).
Kong, Aiguo, David E. Rapach, Jack K. Strauss, and Guofu Zhou. "Predicting Market Components Out of Sample: Asset Allocation Implications." Journal of Portfolio Management 37.4 (2011): 29-41.
Qiao, Fang. "Replicating Anomalies in China." Available at SSRN 3263990 (2018).
Rapach, David, and Guofu Zhou. "Forecasting Stock Returns." Handbook of Economic Forecasting. Vol. 2. Elsevier, 2013. 328-383.
Rapach, David E., Jack K. Strauss, and Guofu Zhou. "Out-of-sample Equity Premium Prediction: Combination Forecasts and Links to the Real Economy." Review of Financial Studies 23.2 (2010): 821-862.
李斌, 邵新月 和 李玥阳. "机器学习驱动的基本面量化投资研究." 中国工业经济 8 (2019): 61-79.
题图:Abstract Wallpaper, from www.pexels.com.