这几张截图,会不会让你瑟瑟发抖

一位博士的返乡笔记,深刻入骨!

吴晓波力挺任泽平:为民营经济正名,要不惜脏了自己的手,把大粪捡起来扔出去

母子乱伦:和儿子做了,我该怎么办?

去泰国看了一场“成人秀”,画面尴尬到让人窒息.....

生成图片,分享到微信朋友圈

自由微信安卓APP发布,立即下载! | 提交文章网址
查看原文

商品基本面量化系列(一):甲醇多因子策略探索

安如泰山  信守承诺


本篇报告作为大宗商品基本面量化系列的第一篇,旨在为当前趋势策略已被广泛布局的 CTA 市场提供一个面向中低频交易的新视角。相比于更为成熟的海外市场,量化 CTA 在国内起步较晚但发展迅速,特别是近几年随着衍生品投资者结构及微观交易结构 发生显著变化,不少传统的强有效因子面临着失效风险,随着外资进入,公开的因子超 额收益或许也将逐渐收窄,多方位多角度的 CTA 因子值得被发掘和考量。 
尽管各类机器学习算法的迭代日新月异,关于基本面量化,我们仍然会以尊重主观基本逻辑为前提,以合理的量化手段,建立多维度模型加以比较和论证。
从目前市场成交量、价格波动幅度和参与结构来看,甲醇都比较符合量化基本面研究的标的,本文中我们梳理了影响甲醇价格的产业链逻辑,深度挖掘影响甲醇价格的基本面因子。通过对数据的前期清洗和筛选,我们分别运用多因子时序模型、线性模型和非线性模型构建策略信号,实证研究显示:
1. 基本面因子时序多空策略方面除库存因子外,夏普都达到了 1 以上的水平,其中供给类因子表现最佳,年化收益 23%以上。与统计模型构建的策略相比,基本面因子时序多空策略开仓次数偏少,年化开仓次数大多在 20-40 次之间,平均持仓天数 4-7 天。将基本面大类因子中表现较好的供给、需求和价差进行等权重合成因子,能够有效平滑单因子阶段性回撤。从样本外可解释能力角度出发,基本面三因子合成策略表现较好。
2. 统计模型构建的策略普遍呈现样本内与样本外差异较大的特点,即便在限制参数边界和交叉验证方面做出调整后,样本外的测试仍然呈现一定衰减,这一点在 Logistic Lasso与随机森林中较为明显。同时我们也注意到 Adaboost 在样本外相较于其他基本面因子模型的收益尤为显著,年化达到 71.4%,且回撤控制良好。结合机器学习可解释能力与迭代泛化能力,我们认为 Adaboost 模型是目前值得持续跟踪的策略之一。
一、基本面相关因子 
甲醇作为化工产业链的中间枢纽,起到承上启下的重要作用,其所受的影响因素也较多。甲醇上游原料包括煤炭、焦炉气和天然气,下游产品包括传统下游甲醛、醋酸、 二甲醚、MTBE 等,也包括新兴下游煤/甲醇制烯烃等。我们将影响甲醇价格的基本面因子分为四大类:需求因子、供给因子、库存因子以及价差因子。
需求因子:主要由甲醇下游行业的生产利润和挂牌价格。当甲醇下游企业的出厂或挂牌价格较高时,往往生产利润较高,间接反应下游企业对于甲醇原料的需求较为旺盛。甲醇的下游行业分为传统化工品和新兴下游两类,前者包括醋酸、二甲醚等,后者以甲醇制烯烃为主。本文中,我们尽可能地将下游各行业的生产利润和开工率纳入到我们的需求因子中,以便更好地对甲醇需求影响进行评估。 
供应因子:主要包含了开工率和生产利润成本类数据。由于甲醇的进口与产量数据通常来说更新频率为月频和季频,因此主要以替代数据来刻画供给端的情况。通常来说当甲醇及其衍生物包括生产成本较高时,开工意愿也会有所提升,进而导致供给偏强。反之当生产利润较低时,开工率可能出现下降。
库存因子:主要包含了周度的港口数据。它的绝对水平以及变化反映的是当下供需矛盾的方向。一般来说,库存水平与便利收益呈反向变动关系,即当社会库存增加时,商品现货的便利收益减小,期货价格有下行趋势。 
价差因子:价差因子由期现价差、不同区域挂牌出场价差以及近似替代品构成,这一类因子是由不同类型的市场价格计算得到,虽然不属于基本面指标,但是会间接影响到甲醇的基本面,因此我们将其作为一类独立因子进行量化分析。
二. 数据清洗 
2.1 数据频率的处理 
数据频率方面,我们选择日频、周频数据,更低频次的数据由于样本数量过少不利于拟合,且发布时间往往滞后不足以支持样本外实际跟踪。我们将周频数据映射为日频数据,但是我们并没有采用插值法来直接估算实际数据未发布前的数据,而是统一采用原数据,因为这样可以匹配更为真实客观的对应关系,随后我们会考虑周期环比和均线平滑来处理这些数据。 
2.2 数据滞后性处理 
滞后性处理:日频数据基本都会在交易日当天收盘更新,而周频数据均为周五发布。因此我们在做特征有效性检测和建模过程中统一将这些数据延后一阶处理,即当天获得的数据生成信号在下一个交易日进行交易。 
2.3 去极值和标准化处理 
数据中的极值往往会影响在线性模型假设下的拟合,同时对于映射关系也存在错误推断的可能,因此我们将高于时序数据 3 倍标准差的数值调整为平均值+/-3 倍标准差。此外,所有的基本面因子采用 W 检验的方式处理其数据的正态关系,通过 P-value 值观测,检验中只有少量因子存在相对正态分布关系,因此集中处理其影响模型预测精度的异常值并按照各个大类因子数据特征进行标准化处理,使得大类数据和甲醇价格数据处于同一假设关系。
整体数据选取 2017 年 1 月-2022 年 6 月年基本面数据,进行差值处理和数据填充整合,分别采用相关性、平稳性检验、回归测试单因子有效性,进而设计基本面因子指导的交易策略。
通过计算信息系数 IC,我们大致可以了解一个因子属于因子对未来收益的影响方式,通过 IC 值的判断出因子值对于下期甲醇收益率的预测能力。结合整个一元线性回归结果看,需求因子和价差因子对于价格影响较大,相关性也更为显著,同时日频数据 数据量大于周度数据整体相关性水平更高。结合特征筛选指标,我们可以得到 28 个重要因子。
三. 基本多空策略构建 
3.1 时序多空模型 

我们将筛选得到的供给、需求、库存和价差四大类中的每个因子,从时间序列维度出发,根据 IC 正负关系,遍历参数得到单因子开仓阈值,随后我们将这些单因子开仓阈值在每个大类中进行加权合成,从而产生大类因子的开仓信号。

3.2 线性模型 
除了利用基本面数据阈值开仓,对于甲醇价格与基本面因子间存在的关系,我们还分别采取线性和非线性模型进行分析处理。 
3.2.1 收缩法则 Logistic Lasso 
通过对于四大类基本面因子的分析,筛选出的 28 个基本面因子存在一定的自相关性。为了有效解决线性模型中存在的自变量之间的多重共线性以及多元自变量因子的问题,对于高纬因子引入 Lasso 回归模型,高纬数据的纬度较高的时候随着样本数量的增加,分析数据所需要的样本空间样本会急速增加,所需的样本数量会随着数据纬度指数增加,预测难度增加,预测效果未有明显增长。通过缩减性筛选出回归拟合中重要的因 子来对整体数据进行降维,一般选用主成分分析法对数据进行降维处理。相较于 Lasso, 主成分分析法更加适用于小样本情况,通过 Lasso 的 L1 正则化的参数λ处理来平衡拟合训练目标,减少选取的特征值的数量,摒弃一些非重要的特征变量,解决模型过拟合的程度,从而提升样本外预测效果。Lasso 是一种缩小变量集的压缩估计方式,对比于 Ridge 方式将系数进行一定程度压缩,Lasso 能对于甲醇价格无较大影响的基本面因子进行过滤,将不显著的变量系数压缩为0,来降低模型复杂度。同时对于甲醇价格变化率的离散性采用用二分法分析,使用 Logistic 回归来观察多变量因子以及观测筛选因子对于未来价格走势的信号预测。Logistic 是一种逻辑回归方式是甲醇价格因子的分类数据,通过寻找基本面因子间的拟合直线,以 Sigmoid 的方式进行压缩将数据分类:
线性模型筛选结果: 
H(θ(y))=-0.17*现货价甲醇 FOB 鹿特丹+0.11*中国甲醛日度均价-0.03*中国冰醋酸甲醇低压羰基合成日度含税装置成本-0.04*市场价甲醇内蒙古-0.002*建滔焦化冰醋酸日度出厂价-0.003*山东 MTBE 异丁烷脱氢日度不含税装置成本-0.02*中国甲醛银催化剂法日度不含税装置收入-0.02*兖州国泰冰醋酸日度出厂价-0.02*进口数量甲醇累计值-0.06*福建市场甲醛日度市场出库价+0.11*山东市场冰醋酸日度市场价+0.02*江苏省甲醇周度港口库存+0.13*中国甲醛银催化剂法日度税后装置毛利(数据经过平滑和周期处理)
3.3 非线性模型 
通过多分类的方式对于基本面因子之间的非线性映射进行观测。 
3.3.1 RandomForest 随机森林 
随机森林模型是一种基于集成思想的决策模型,每一个单元是由决策树组成,每一 颗决策树就是一种分类器,对于输入的样本按照少数决策服从多数决策的方式进行预测结果判定。对于甲醇基本面因子的大数据集合,信息增益的选择性效果较好。同时相比于 Lasso 的降维处理,Random Forest 能较好的处理高纬度数据。在决策生成过程中, 通过内部产生的误差产生内部无偏估计,帮助更好的对样本外预测效果进行评估。RandomForest 树之间的相互独立使得训练集合之间能够并行处理,学习不同基本面因子特征集合中的相关特征,从而处理过拟合问题。通过基本面因子的重要性分析,筛选出同时包涵四大类别的基本面因子组合,对于树的控制参数组合通过袋外误差进行无偏 估计和评定:
3.3.2 Adaboost 算法 
Adaboost 是有别于 Bagging 算法的另一种二分类的监督学习算法。损失函数为指数函数,学习算法为向前分布式算法,通过梯度下降的方式使得模型的损失函数极小化,针对不同的分类品种进行集合分析,其预测精度高于随机模型的弱分类。初始化权重会随着样本识别的错误率的增长提高权重比值,对于预测效果较好的正确样本给予低权重,同时基于之前错误样本选择更加易于区分的分类器,迭代过程通过对于 N 个学习 器进行加权投票得到最终的分类器 G(x),同时减少分类误差较小的弱分类器的决定权。该模型通过对于最大深度,迭代数量以及弱分类器权重缩减系数等参数组合进行遍历分析:
四、实证分析 
所有样本外的测试来源于 2021 年 6 月-2022 年 6 月的数据,在这之前的数据均作为样本内来进行模型拟合和参数遍历,不加杠杆,手续费和交易成本 4%%。
1. 基本面因子时序多空策略方面,除库存因子以外其余夏普都达到 1 以上的水平,其中供给类因子表现最佳,年化收益 23%以上。与统计模型构建的策略相比,基本面因子时序多空策略开仓次数偏少,年化开仓次数大多在 20-40 次之间,平均持仓天数 4-7 天。将基本面大类因子中表现较好的供给、需求和价差进行等权重合成因子,能够更加有效控制回撤,平滑单因子回撤时的收益曲线。
2. 统计模型构建的策略普遍呈现样本内与样本外差异较大的特点,即便在限制参数边界和交叉验证方面做出调整后,样本外的测试仍然呈现一定衰减,这一点在 Logistic Lasso 与随机森林中较为明显,但同时我们注意到 Adaboost 在样本外相较于其他基本面因子模型的收益尤为显著,年化达到 71.4%,且回撤控制良好。结合机器学习可解释能力与迭代泛化能力,我们认为 Adaboost 模型是目前值得持续跟踪的策略之一。
经过对基于不同逻辑和理论构建的策略进行测试和比较,从样本外可解释能力和稳定性考虑,我们认为由基本面三因子合成的时序多空策略表现较好。从绝对收益和迭代更新角度出发,Adaboost 多空策略更加值得持续的跟踪和检验。

国投安信期货


高级分析师   王   锴   投资咨询证号:Z0016943


文章有问题?点此查看未经处理的缓存