【速记】中泰证券 何波:基于机器学习的场外配资自动识别系统
10月31日,2017星环智慧大数据巡回论坛——郑州站顺利举行。本次巡回论坛,星环科技联合众多合作伙伴、用户展开应用案例分享,让更多行业人士了解大数据在医疗、农业、政府、交通、金融等行业应用中可以达成的效果。
因会后收到不少嘉宾反馈,对演讲内容非常感兴趣,演讲信息量大,现场又无法及时记录,特在后期推出嘉宾演讲速记系列,以最大程度弥补这个遗憾。
导读
【演讲主题】基于机器学习的场外配资自动识别系统
【演讲内容】中泰证券信息技术部副总经理何波向我们分享了大数据、机器学习在证券行业的应用案例。演讲内容主要包括以下五个部分:
一、引入
二、如何识别一个账户是多人交易还是单人交易
三、传统的配资账户查处方法
四、基于机器学习的配资账户查处方法
五、建立配资账户自动识别系统的流程
引入
早在2015年7月份,中泰证券就已经跟星环开始合作了,我们的数仓和很多应用都是基于星环平台进行构建,所以在这里对星环表示感谢。
今天跟大家分享的是在这个平台上的一个很小的应用。其实提到场外配资,相信各位的印象一定非常深刻。2015年波澜壮阔的股市一直到高位,7月清场场外配资,一下子走了一个非常诡异的行情。在这个过程中,在股市上涨过程中,场外配资起到了很大的推波助澜的作用。在下跌的过程中,清理导致断崖式的下跌。
在整个场外配资的影响,中交所做出了一个报告,从整体数据来看,场外配资的交易量占整个交易量的20%左右。深交所5月份左右出了一个报告,关于场外配资的汇报,它里面做的分析非常详细也很专业。
我挑一些简单的结论。首先,它认为配资账户持股占比越高的股票,股市的股票波动率越大。其次,配资账户导致股票增加,配资账户偏好中小板的股票,周转率高于平均水平,表现出追高、炒小、炒热点的特征。同时,配资账户也加强了股票流动性,极端事件恶化的出现概率。总之一句话,配资账户加剧股市的异常波动。
如何识别一个账户是多人交易还是单人交易
我相信大家应该见到过监管的规定,要求上报配资账户,我们基本上都是从营业部把名单拉上来,或者从后台做一些规格的筛选。其实整个配资账户,一个账户出借给多人,这个账户由多人来操作,和一个人操作相比总会表现出不同的特征。
传统的配资账户查处方法
传统上来说,我们根据自己设定的一些特征来筛选,比如说账户总资产达到一定规模,成交量达到一定规模,交易频次达到一定的次数。按照这些特征我们做一些筛选,然后再结合营业部上报资料进行分析。这种分析最大的缺陷就是规则的主观性,而且这些账户的行为模式不断发生变化,很难去跟踪。另外手工操作也很难做到筛选非常多的特征,只能筛选有限的几个特征。
基于机器学习的配资账户查处方法
所以我们在想,配资是一个非常典型的问题,我们有很多政府的数据,包括它的基础数据,交接数据,资产数据等等。同时我们有一个非常明确的输出,到底是配资还是不是配资,我们可以尝试用机器学习的方式做一些区分。所以,我们就建了一个机器学习模型,把基础数据进行输入。筛查配资账户的另一个障碍主要还在于样本的缺乏,几百万的用户里面配资用户是以百计,所以这个样本是很少的,影响模型的训练,要做一些调整。
建立配资账户自动识别系统的流程
整个过程通过做一些特征设计,然后选择模型做一些预测,我们的数据平台也是基于星环的TDH平台之上在跑的。
①特征设计
我们在特征设计上考虑到几大类:基础特征、交易特征和其他特征。我们发现有两个比较大的特点,一个是配资账户内部交易的风格差异是比较大的。这个比较好理解,因为一个账户的确是多人交易,比如说有些人有一些固定的交易习惯,他就喜欢1千股1千股的买,有些人就喜欢十万十万的买,这带来的交易特征是不同的。同时在规模特征上有比较大的区别。另外一个是它的收益,我们认为配资账户和非配资账户的收益也是不一样的。简单来说,如果一个人非常频繁的交易但是又老亏钱,我们认为这个配资账户可能性很大。因为如果是专业投资人,他会进行模型更改。
在这个之上,我们采用的主要是这些特征:总资产、股票资产市占率,还包括他们最大和最小值深度、标准差等等之类。尤其是标准差有一个很重要的特征,一个用户他的账户交易标准差很大,说明这个用户对配资可能性非常大。
这个是我们拿出几个典型的特征来看,比如说交易频度,配资账户,然后成交量,股票市场,股票数以及成交的标准差都有非常显著的差异。
同时,我们对整个特征,它是不同利率分布的,所以我们把它也做了一个转换,更好的对原始特征进行改造。
②模型选择
在算法上面我们选了很多算法,最后我们发现随机森林效果比较好,在这个之上,我们为可视化做了一个简化的模型,取得了交易频率,成交量标准差等做一个绝对数,从这个绝对数上可以看出简易的模型也可以很好的划分出来。
最终我们把每个特征按重要性进行打分,打分之后我们取了特征的前10名。我们可以看到排名最高的是交易频率和总成交量,这个的确也符合配资的特征。但是也存在一些做高频交易的客户,这些怎么区分呢?我们会发现在成交量,标准差,还有个股标准差的极值,还有一些成交量的波动和偏度峰度这些都能够很好的区分。一个程序化交易的客户,基本上成交量标准差不会特别大,虽然可能交易量很频繁但它整个成交量和波动偏度都不会很大。排名前十的特征基本上就可以比较好的区分。
我们拿出四个来看,其实还是有很显著的风格,这是一个相比图,对中间那条线是均线,然后是中位数,然后是20%,10%,9%。我们非常显著的看到配资账户和分配账户在整个分布上有非常明显的差异的。最后在整个的模型上来讲,也经过很多次迭代,感谢合作伙伴给我们提供的训练样本,召回率做到80%,准确率做到95%。最开始只有60、70%,后来做了一些调整,首先在特征的调整,然后在整个模型的选择,模型组合提供更多的数据,最终效果还可以。
同时,我们现在每天在运行,我们连续跑20天,在这20天内取一定的值作为一个标准。同时,我们自己也做一些电话回访。打电话过去,虽然网上没有相关的信息,但是你通过咨询,会发现有一些的确提供配资服务的。
③模型优化
下一步建立更多特征对画像做的更完备,同时识别强特征,弱特征,挖掘强特征的逻辑和原因,对模型进行调优。星环把产品开发出来了,直接对接我们的后台数据,同时把文件导入进去。导入进去之后,从最右边是90%到100%,概率是配资多少,80%到90%,70%到80%,配资的概率有多少。同时,我们对每一个疑似配资用户,我们会把它每一项的特征值打出来然后和我们标准的值做比对,有点像我们做体检,体检报告拿出来哪项值超标了。
后续的工作我们发现,现在场外配资的模型变了,现在做场外配资跟以前不一样,一种是改成无接口下单,直接走同花顺的接口。还有一种配资变成搭账户,他把一个账户借给多人操作,本身账户没有变成子账户。
在这个过程中我们认为单账户配资它有一些比较共性的角度特点,第一,它交易频率也是很高,同时资金利用率很高。另外一个特征是回报率始终维持在一个保证金比例之上,我们平常线是0.9,它的净值总数维持在0.9。同时,它会存在一些强平的行为,很明显到了某一个值突然会有股票卖掉的行为。同时,还会存在相关的不同资金的出入行为。
同时,我们认为从时间轴上,虽然这个账户不具备同时间多人操作,但是它具备在不同的时间轴上有多人在操作。所以很多人把它的交易行为按时间来限,我们认为账户在不同的时间轴上反映了不同的行为特征,它依然和刚才说的规模特征、差异化特征和标准差会在不同的时间轴上面体现出来。同时,它还有一些特征,在于它的委托地会有周期性发生变化。然后是他的账户属性,比如它的手机号会周期性的绑定,他的密码也是周期性更换密码,而且绑定的特征它和我们整个账户,被强平,都有非常高的相关性。所以我们在后期重点对单账户配资的行为上做这方面的分析。
内容如与现场演讲有出入,请以演讲现场为准。
点击或回复关键词,查看相关内容
公司
投资 | 星环科技获腾讯领投2.35亿C轮融资,与腾讯云达成战略合作
产品
产品 | 星环的划时代版本-Transwarp Data Hub 5.0
评测 | 大数据产品最新测试基准看哪家(TPC-H or TPC-DS)?
Holodesk | 业界最强的SQL引擎Inceptor为何这么快?
认证考试 | 数据中心联盟—星环联合认证体系首次认证考试报名中
技术
评测 | 大数据产品最新测试基准看哪家(TPC-H or TPC-DS)?
TED视频 | TEDxLujiazui精彩视频:【大数据 大趋势】
白话大数据 | 白话大数据合集
案例
智能金融 | 星环科技发布证券业大数据战略规划纲要(白皮书)
运营商 | 运营商的新方向-运用Hadoop技术将大数据资产变现
视频监控 | Hadoop大数据在实时视频监控的应用场景
能源 | 厉害了,我的营销大数据!
速记
【速记】国家农业信息化工程技术研究中心 陈天恩:农业大数据的研究与实践
【速记】同济大学教授 王伟:同济-星环“数据科学与大数据实践平台”建设
【速记】第一创业证券 瞿任雄:基于星环TDH大数据平台构建新一代券商数据中心