开源量化评论 | 高频股东数据的隐含信息量
开源证券金融工程首席分析师 魏建榕 博士
微信号:brucewei_quant
执业证书编号:S0790519120001
开源证券金融工程研究员 胡亮勇(报告联系人)
微信号:15959229361
摘 要
互动易平台实时披露的数据是定期报告披露数据的有益补充互动易平台上关于上市公司最新股东户数的问询相对频繁,隐含着投资者认为股东户数的相关信息与公司股价的未来表现有一定的联系。互动易平台关于股东户数问询的有效回复每期占比在20%~30%的区间波动,每期有效回复个股数量在600只上下。过去八年间,1/4的深交所上市公司通过互动易平台披露最新股东户数的次数少于12次;近80家上市公司披露股东户数超150次;383家上市公司始终未在该平台上披露过股东户数相关信息。
低频股东户数变化因子具有选股能力
低频股东类因子更新频率低,时效性差,低频数据的高频化需要选择合理的方法。低频股东户数因子(ABS_N)不具有选股能力,但低频股东户数变化因子(PCT_N)具有比较优秀的选股能力。即,股东户数本身的大小不具备获取超额收益的能力,但股东户数的变动蕴含着丰富的信息。低频股东户数变化因子(PCT_N)多头累计净值4.58,多空累计净值1.73,年化收益率21%,夏普比率0.72。
纳入高频股东数据的合成股东变化因子具有收益增强能力
高回复个股数前期逐步增加,后期趋于稳定,每期高回复个股数量在600只左右浮动。高频合成股东户数变化因子(M_PCT_N)相对于低频股东户数因子(PCT_N),无论从五分组收益还是多空对冲净值上都产生了一定的提升作用。M_PCT_N因子多头累计净值4.79,多空累计净值1.97,年化收益率22%,夏普比率0.74。在高回复股票池中,高频合成股东户数变化因子(H_M_PCT_N)相比低频股东户数因子(H_PCT_N),有更好的效果提升。
不同股票池下高频股东数据信息含量不一
股东类因子与各主要大类风险因子具有较低的相关性。其中,相关性最高的为流动性因子,相关性最低的为市值类因子。不同股票池下,高频数据对原始低频因子的增益效果差异明显。其中,以深证成指增益最高,年化超额达到10%。一言以蔽之,高频股东数据的纳入能够帮助传统的低频股东因子产生额外的收益增益,但增益幅度的大小与选取的股票池相关。
报告链接
https://pan.baidu.com/s/1MGLB-PUOBOYHZs--jXJI0g
提取码:ikrr
报告发布日期:2020-12-31
一、互动易平台数据概览
深交所互动易(irm.cninfo.com.cn) 是“深圳证券交易所上市公司投资者关系互动平台”的简称,由深交所官方推出,是供投资者与上市公司直接沟通的平台,一站式公司资讯汇集,提供第一手的互动问答、投资者关系信息、公司声音等内容,整合了公司公告、股东信息、公司财务与融资等综合信息,帮助投资者更了解上市公司。作为承载投资者与上市公司直接沟通的桥梁,互动易一定程度上改善了投资者获取信息的及时性与准确性,提升了市场信息效率水平。
在互动易诸多问询内容中,针对上市公司最新股东户数的提问始终占据着较高的热度。其中隐含的假设为大部分投资者认为公司股东户数的变化与未来股价的表现存在一定的关联性。为了验证这个猜测,我们尝试对互动易平台上投资者关于股东户数的问询进行分析,以期能从中探寻出一定的规律。
从2013年1月1日开始(在此之前数据稀疏且质量不高,不纳入考察),截至2020年11月30日,互动易平台累计共有1971家上市公司针对投资者关于股东户数的问询进行了有效回复,占深交所全部上市公司约80%的比例。有效回复为上市公司针对投资者关于股东户数的提问给出了具体数字答复。
按照逐年统计,投资者在互动易平台上关于股东户数的问询次数与市场波动率(年化)之间存在显著的正相关性。当市场处于高波动状态时,投资者更倾向于在互动易平台上咨询最新的股东人数。其体现的心理效应是,当市场波动放大加剧投资者持仓个股的波动时,投资者开始对自己的持仓自信心下降,需要通过外界各种利好消息来证明自身持仓决定的正确性。
按照月度统计,深交所上市公司关于投资者对股东户数问询的有效回复初期缓慢增加,后随着2014年下半年牛市的展开有一个快速攀升的过程(提问数大幅增加),2015年后有效回复率逐步稳定在20%~30%的区间,每期有效回复个股数目逐步稳定在600只附近。
从个股层面来看,问询有效回复分布有偏现象严重。测试区间内有效回复数低于12次的个股占比高达43.78%,高于100次的个股占比仅8.59%。对于投资者问询有效回复最多的公司是中航西飞(000768.SZ),共计228次;累计回复数超过200次的公司目前有6家,均位于中小板;383家深交所上市公司自互动易平台开放以来,未在其上针对投资者提问披露过股东户数相关信息。
我们以一个具体案例来切入股东户数的变动与股价表现之间的关系。2019年9月到2020年2月间,世纪华通(002602.SZ)股价发生大幅度拉升,期间累计涨幅最高达到70%,此时股东户数仅从29000多户小幅增长到33000多户,增幅约14%。2020年3月后,股价进入横盘震荡走势,股东户数开始大幅攀升,到2020年7月14日股价进入阶段高点时,股东户数上涨到近90000户,四个月时间股东户数涨幅近两倍。2020年8月后,股东户数继续攀升,最高上涨至170000户后开始在高位震荡,从行情起点计算,股东户数翻了近5倍,但此后公司股价逐步走低,截至2020年11月底,从高点累计下跌约45%。可以看到世纪华通股东户数的变动与股价未来表现的有着显著负相关性,一叶知秋,从全市场角度来看,股东户数的变化是否具有稳定的超额收益呢?
二、低频股东因子
当前,投资者获取股东数据的方式主要来源于上市公司每年定期披露的报告,包括一季报、半年报、三季报及年报。但当前获取股东数据的方式,存在两个显著的缺点:
1. 更新频率低。对于大部分的投资者而言,低频数据的高频化处理是比较棘手的。
2. 时效性差。定期披露的股东数据,存在着明显的时滞,短则十几天(季报),长则三四个月(年报)。通常,数据对未来的预测能力会随着滞后期的增长而相应减弱。
虽然原始低频股东数据有无法避免的缺陷,但其依然是值得探索的维度。我们尝试在多因子框架下对低频股东因子进行测试,以探究其是否具有选股能力。股东类因子的潜在有效性可以基于投资者的行为进行推演,一般而言,当某只股票的股东数在一段时间内呈现持续下降的趋势时,其通常被认为是主力资金在逐渐收集个人投资者手中的筹码,等吸收到的筹码足够减轻未来的抛压时,则未来股价拉升存在的阻力便会减小,股价倾向于在业绩改善、题材驱动等事件影响下迎来上涨;反之,当某只股票股东户数呈现不断上升的趋势时,则大概率面临主力资金逐步止盈出场的境地,未来股价拉升动力下降,股价未来倾向于走弱。
2.1、低频股东因子的构建
基于前文的假设,我们对低频股东数据进行因子化。在进行因子化之前,我们需要对定期报告披露的数据进行日期的调整,避免存在未来数据。概括来说,我们根据实际发布日期来对报告日期进行调整,比如某只股票一季报在4月12日披露,则将其真实可获取日期修改为4月12日,而非3月31日。不同股票定期报告披露日期存在差异,为了保证数据对齐,统一采用前值填充到月底。
对于股东户数相关因子的构建主要从两个维度出发,一是直接将股东户数的具体数值作为因子值,二是将股东户数的变化值作为因子值。值得注意的是,由于股东数据是使用前值填充的,所以直接使用股东户数变化的百分比会在特定月份产生诸多的0值,如每年的5月、6月和7月,从而导致因子值无法有效分组。为此,在构建股东变化因子时,我们通过隔季选取股东户数进行时序上的ZSCORE处理,从而得到相应股东变化的因子值。
举个例子,假设当前日期为2020年10月31日,回溯期为2年(9个季度),在隔季选取的规则下,参与股东变化因子计算的日期包括【计算日期】列对应的9个日期,但参与计算的数据来源于【实际日期】列披露的数据,基于该日期下的数据进行运算。
在进行因子测试前,我们在每个截面上剔除上市不满一年的个股(股东数目变动逐渐摆脱新股的影响),月末调仓,暂且不考虑手续费影响,测试区间设置为2013年1月至2020年11月。
由于股东户数与市值大小存在高相关性,所以在检验因子表现之前需要在截面上进行市值中性化处理。同理,由于不同行业之间股东户数存在有偏现象,比如银行行业股东户数中位数显著高于全市场中位数,所以需要对原始股东户数做行业中性化处理。为避免潜在影响,如无特别说明,后续所有因子均做市值行业中性化处理。
2.2.1、股东户数因子
进行市值行业中性化后,低频的股东户数因子乏善可陈,五分组之间没有明显的差异度,多空对冲收益不稳定,不存在超额收益。我们亦测试过不进行中性化的股东户数因子,其分组收益稳定,中性化后的表现急剧下滑,说明股东户数因子的超额收益来源于市值效应带来的增量。
2.2.2、股东户数变化因子
前文我们详细介绍了股东户数变化因子的构建方式,在实际构建时,需要设置回溯时间的参数,这里我们按照回溯一年,即首尾五期数据来进行ZSCORE计算。我们认为主力吸筹建仓和派筹出局的过程是一个相对偏短的周期,一般不超过一年,回溯时间过长容易导致数据有效性降低。
相比于股东户数因子,市值行业中性化后的股东户数变化因子在深交所上市公司间有较好的选股效果。虽然分组收益在测试区间内单调性不够好,但高低分组之间的收益差却是比较稳定的,多空对冲收益在测试区间内总体向上不断上升,2019年以来因子多空区分度更是进一步提升。
三、高频股东因子
在低频维度上,股东户数因子本身没有超额收益,但股东户数变化因子表现较好。如果我们获取股东人数的滞后性降低,从滞后一个月到几个月变成仅滞后几个或十几个交易日,是否能对当前股东户数变化因子的表现进行一定程度改善呢?循着这个思路,我们尝试将互动易平台上更高频的问询回复信息与定期披露的报告信息相结合。
3.1、高频股东数据的处理
在进入正题之前,我们来看看互动易平台公布数据的特征。在截取的样本信息中,各主要字段含义如下:
mainContent:投资者的问询内容;
attachedContent:上市公司的回复内容;
pubDate:是投资者在互动易平台提问的日期;
updateDate:是上市公司回复投资者的日期。
当我们通过正则表达式对文本进行解析,得到相关的股东数据后,我们使用updateDate来对股东户数进行映射。因为投资者问询日期与上市公司实际回复日期之间通常存在一定的时间间隔,这样处理避免了在pubDate拿到updateDate的数据。
3.2.1、合成股东户数变化因子
按照以上思路填补好数据后,我们开始构建高频股东因子数据,为了避免相邻月份之间的数值一致,我们仍然采用隔月选取的模式。需要注意的是,由于现在实际可获取数据数量有所增加,我们对回溯一年隔季取值求时序股东户数变动因子的方法进行小幅的改动:在回溯期长度保持不变的情况下(维持一年),每隔两个月选取一次数值进行时序股东户数变化因子计算。
可以看到,纳入互动易高频股东户数数据后的合成因子,无论从五分组收益区分度上还是多空对冲收益的增幅上都有了一定的改善,这也印证了我们的猜想,互动易的高频股东数据是能够产生信息增益的。
虽然纳入互动易数据后的策略表现有所改善,但是效果并不显著。根据前文可知,互动易数据对个股的覆盖度每期在20%~30%之间波动,导致合成因子中高频数据的占比较少,因子收益的改善不是特别明显。为此,我们尝试将股票池进行缩小,仅保留那些在互动易平台上经常对投资者的问询进行有效回复的个股。我们以上市公司过去一年中至少有六个月在互动易平台上进行有效回复为限,构建高回复股票池。自2013年开始,滚动十二个月的高回复个股数量从2015年后开始稳定在500只以上,前后两期高回复个股变化率自2016年后逐步稳定在5%附近。为了尽量减少股票池变动带来的偏差,我们将测试起始日期调整为2014年6月,每期符合条件的股票数达到300只以上。
四、延展讨论
4.1、不同股东类因子表现比较
为了使不同构建形式的股东因子收益具有可比性,我们将回测起点统一为同一日期(2014年6月30日),参与比较的因子包括原始低频股东户数变动因子(PCT_N)、高频合成股东户数变动因子(M_PCT_N)、高回复低频股东户数变动因子(H_PCT_N)和高回复高频合成股东户数变动因子(H_M_PCT_N)。其中,PCT表示股东户数变化因子,N表示中性化处理, M表示合成的高频因子,H表示高回复股票池。简便起见,下文涉及相关因子时根据场合将以英文简称表示。
根据对比净值图,可以发现纳入高频股东数据后,低频策略都有了改善。值得注意的是,高回复低频策略表现差于纯粹的低频策略,表明高回复个股本身的质地相比市场基准有一定的下降,这从一定程度上降低了我们高回复高频策略的净值表现。
针对不同的因子构建方法,我们试着从多个指标层面去比较各自的优劣。可以看到,纳入高频股东数据后的因子RankIC和ICIR都有了一定的提升。在当前以深交所所有上市公司作为股票池的情况下,纳入高频股东数据的因子收益端改善并不显著。收益端表现最好的是未中性化的股东户数因子,多头年化达到28%。
我们选取了PCT_N、M_PCT_N和H_M_PCT_N三个因子分别与常见的风险因子进行相关性分析。可以看到,股东户数变化类因子与所选风险因子整体相关性都处于较低水平,其与流动性因子相关性最高,与市值类风险因子相关性最低。
4.2、不同股票池的策略表现对比
在前面部分我们主要是在深交所所有上市公司之间进行策略验证,但是这几年市场风格越来越极端,马太效应充分演绎,各行各业龙头股表现大幅超于行业基准,主要成份指数的股票表现相对于全市场通常也有着较明显的超额收益。而互动易中很多股票并不在指数成份股中,鉴于此,我们尝试在不同股票池中测试高频合成股东户数变化因子的选股效果。
由于目前仅有深交所上市股票的高频股东数据,因此测试股票池选取目前也仅限定在深交所相关指数上,这里主要选取深证成指(399001.SZ)、中小板综指(399101.SZ)、创业板综指(399102.SZ)和深证综指(399106.SZ)四类。没有选取中小板指(399005.SZ)和创业板指(399006.SZ)主要在于其指数成分股数量过少,均为100只股票,股票池样本深度不够。因子测试按照三分组进行,未考虑手续费影响。
从累计净值上看,纳入高频股东数据的因子在不同股票池之间都产生了超额收益,其中深证成指表现最好,年化超额收益超10%;在深圳综指和中小板综指上,虽然累计净值都是高频的合成股东户数变化因子表现较好,但年化超额收益率分别仅有2.29%和0.88%。从多空对冲净值走势来看,深证成指的走势是最稳定,也是涨幅最大的。在2013年6月到2016年6月这段时间,M_PCT_N因子在创业板综指股票池中失效。
一言以蔽之,高频股东数据的纳入能够帮助传统的低频股东因子产生额外的收益增益,但增益幅度的大小与选取的股票池相关。
五、风险提示
本报告模型及结果通过历史数据统计、建模和测算完成,在市场波动不确定性下可能存在失效风险;历史数据不代表未来业绩。
实习生殷家曦(杜克大学)和袁嘉悦(复旦大学)对本报告亦有帮助。
相关报告回顾(可点击链接):
开源量化评论 | 大票优选:是动量,而不是反转开源量化评论 | TMT行业的量化选股方案开源量化评论 | 从托管机构细窥北向资金开源量化评论 | 股指期货对冲方案的研究开源量化评论 | 长端动量因子与基本面更兼容
更多交流,欢迎联系:
开源证券金融工程团队
魏建榕 张翔 傅开波 高鹏 苏俊豪 胡亮勇 王志豪
团队介绍
开源证券研究所金融工程团队,是一支年轻而富有创造力的团队,我们致力于提供全面深入、独家创新的量化研究。团队首席魏建榕,复旦大学理论物理学博士,专注量化投资研究近10年,历任东方证券研究员、上投摩根基金研究员、方正证券高级分析师、东吴证券联席首席分析师。在实证行为金融学、市场微观结构研究等领域取得了多项独创性研究成果,在国际学术期刊发表论文7篇,代表研报《蜘蛛网CTA策略》系列、《高频选股因子》系列、《因子切割论》系列,在量化圈内有较好反响。2016年获新财富最佳分析师第6名、金牛分析师第5名、水晶球分析师第6名、第一财经最佳分析师第5名。目前,开源金工团队成员来自复旦大学、上海交通大学、华东师范大学、南京大学、厦门大学等知名院校,欢迎志同道合的优秀学子加入我们。
团队愿景:开源金工团队,将恪守「原创、深度、讲逻辑、可验证」的量化研究准则,努力为量化投资研究做出属于我们的微小贡献,共同见证中国量化投资事业的持续进步!
法 律 声 明
开源证券股份有限公司是经中国证监会批准设立的证券经营机构,由陕西开源证券经纪有限责任公司变更延续的专业证券公司,已具备证券投资咨询业务资格。
本报告仅供开源证券股份有限公司(以下简称“本公司”)的机构或个人客户(以下简称“客户”)使用。本公司不会因接收人收到本报告而视其为客户。本报告是发送给开源证券客户的,属于机密材料,只有开源证券客户才能参考或使用,如接收人并非开源证券客户,请及时退回并删除。
本报告是基于本公司认为可靠的已公开信息,但本公司不保证该等信息的准确性或完整性。本报告所载的资料、工具、意见及推测只提供给客户作参考之用,并非作为或被视为出售或购买证券或其他金融工具的邀请或向人做出邀请。本报告所载的资料、意见及推测仅反映本公司于发布本报告当日的判断,本报告所指的证券或投资标的的价格、价值及投资收入可能会波动。在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告。客户应当考虑到本公司可能存在可能影响本报告客观性的利益冲突,不应视本报告为做出投资决策的唯一因素。本报告中所指的投资及服务可能不适合个别客户,不构成客户私人咨询建议。本公司未确保本报告充分考虑到个别客户特殊的投资目标、财务状况或需要。本公司建议客户应考虑本报告的任何意见或建议是否符合其特定状况,以及(若有必要)咨询独立投资顾问。在任何情况下,本报告中的信息或所表述的意见并不构成对任何人的投资建议。在任何情况下,本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。若本报告的接收人非本公司的客户,应在基于本报告做出任何投资决定或就本报告要求任何解释前咨询独立投资顾问。
本报告可能附带其它网站的地址或超级链接,对于可能涉及的开源证券网站以外的地址或超级链接,开源证券不对其内容负责。本报告提供这些地址或超级链接的目的纯粹是为了客户使用方便,链接网站的内容不构成本报告的任何部分,客户需自行承担浏览这些网站的费用或风险。
开源证券在法律允许的情况下可参与、投资或持有本报告涉及的证券或进行证券交易,或向本报告涉及的公司提供或争取提供包括投资银行业务在内的服务或业务支持。开源证券可能与本报告涉及的公司之间存在业务关系,并无需事先或在获得业务关系后通知客户。
本报告的版权归本公司所有。本公司对本报告保留一切权利。除非另有书面显示,否则本报告中的所有材料的版权均属本公司。未经本公司事先书面授权,本报告的任何部分均不得以任何方式制作任何形式的拷贝、复印件或复制品,或再次分发给任何其他人,或以任何侵犯本公司版权的其他方式使用。所有本报告中使用的商标、服务标记及标记均为本公司的商标、服务标记及标记。
开源证券股份有限公司
地址:西安市高新区锦业路1号都市之门B座5层
邮编:710065
电话:029-88365835
传真:029-88365835