【速记】第一创业证券 瞿任雄:基于星环TDH大数据平台构建新一代券商数据中心
11月3日,星环在中国深圳举办主题为“证券基金未来|‘大’有可为”——暨2017星环首届证券基金行业论坛“,吸引了超过80家券商基金近300位业内观众参会。
因会后收到不少嘉宾反馈,对演讲内容非常感兴趣,演讲信息量大,现场又无法及时记录,特在后期推出嘉宾演讲速记系列,以最大程度弥补这个遗憾。
深圳第一创业证券数据管理部负责人瞿任雄指出:政策、监管陆续对券商数据管理提出新的要求,而当前券商数据管理平台架构存在着大数据量检索执行效率低、对大数据批量处理支持较差、不支持非结构化数据、非机构化处理任务、对多租户管理能力有限等多方面的问题,缺乏科学的数据治理体系。那么,第一创业证券是如何应对这一挑战的?
【演讲内容】
一、证券公司数据管理现状与挑战;
二、证券公司大数据平台与应用现状;
三、大数据基础平台搭建;
四、基于大数据平台应用。
01
证券公司数据管理现状与挑战
首先,我简单的澄清一下“数据中心”这一概念。数据中心跟我们传统认为的机房建设的数据中心是不一样的。如果准确描述的话,应该是ODS,或者是数据仓库的一个概念,所以今天主要是基于星环Hadoop平台的ODS或者数据仓库的实践经验分享。
近些年来,大数据的概念是比较热的,并且我们有这样一句话“数据成为我们每个企业的一项重要的资产”,这种理念已经逐渐被我们每个企业认可,而且被重视起来。那么如何发挥数据的作用,也是我们各个行业在探索的一个重要议题。金融行业作为我们数据密集型的一个企业,应该说在这块应用更深、需求更广,所以证券作为金融行业一个重要分支,在这块也是有需求的,并且也面临着一些比较大的挑战。
1、政策、监管陆续对券商数据管理提出新的要求
无论是从作为券商来说,还是外部监管,或者我们内部一些系统兼容能力或者数据处理能力都面临着一些挑战。去年12月底的时候,监管部门颁布了两个管理办法:一个是证券公司全面风险管理规范,另一个是证券期货投资,关于适当性一个管理办法。从我们数据角度理解这两个办法,它要求我们在数据质量、数据标准,或者利用大数据做一些风险监控等等,这些方面去讲也是对我们有些要求的。
还有一个,在2015年7月份时候,应该说协会、监管部门收集了关于运用大数据加强对市场主体服务和监管的若干意见,他们做了意见收集,这说明监管部门也在想办法,在大数据的应用或者监管方面有一些探索,这是作为监管部门来说。
2、当前券商数据管理平台架构存在诸多问题
其实作为我们券商来说业面临着一些问题,这张图上是我们现在一些传统的ODS或者说仓库简单架构。它存在哪些问题?
第一,现在这种传统,或者我们基于关系数据库做的ODS或者数据仓库,它的数据处理性能应该说有一定的限制,或者有一定的问题,比如使用效率方面、性能方面。
第二,在数据处理能力方面,数据处理能力是什么意思?就是不同数据类型、不同数据格式。以前我们单纯用ODS或者关系数据库来做这些数据采集或者数据处理时候,我们只对结构化数据进行处理。对于日志型或者说非结构化数据,或者声音、图像这些数据我们还没有办法处理,这是第二个方面。
第三,从拓展性来说,我们以前做的一些关系数据库,这种关系数据库来做整个ODS或者数据仓库时候,应该说存储这方面也面临一些问题。从横向扩展方面,如果我们将来要把公司所有数据纳入进来的话,我们在存储方面的增长应该会很快,成倍的增长,这是我们企业内部面临的问题。
3、缺乏科学的数据治理体系
从数据管理的角度,刚才说外部监管部门对我们有一个要求,对于我们风险和适当性都有颁布相应规范。所以,它深层意思就是要我们把数据治理做好,如果我们在数据标准或者数据质量不好的情况下,做出来风险指标,那应该都是没有参考意义的。所以我们必须有科学的数据体系保障数据标准或者数据质量OK的前提下,再利用大数据技术做风险监控功能,这是我们面临一些困难。
02
证券公司大数据平台与应用现状
从大数据应用的整个情况来看,证券公司现在情况怎么样,它的理解思路,对于大数据理解思路怎么样,我们这里做了一个总结。
首先,从技术角度说,大数据处理技术包括:数据采集、数据处理、数据科学、数据应用、数据管理。
第一,数据采集。对我们大量数据进行采集,对不同格式、不同类型数据做采集,我们希望有一种技术来满足要求。
第二,数据处理。当我们采集到数据,把大量数据发到系统上做处理时候,怎么利用大数据技术做高效、高性能数据处理。
第三,数据科学。我们在数据处理基础上面应该有成熟数据应用方面、分析方法。刚才张总、孙总也讲了大数据分析,技术给我们一些价值,利用深度学习、AI或者人工智能这方面。
第四,数据应用。数据处理和数据科学管理办法给业务产生才是最终的目标,我们会放到应用这块。
最后,数据管理,数据管理只是基础平台的一个数据管理技术。
其次,从业务角度来说,大数据技术应用在券商这一块,到底用在哪些方面?
第一,数据管理。许多业务的应用系统的数据处理分发,需要从数据标准化、一致性、数据满足应用的程度来进行数据统一管理,实现数据仓库、历史数据查询、数据管理、数据分发等功能。
第二,客户分析。对于目前的券商来说,客户行为,客户交易行为或者操作行为,我们都有一个清晰地了解。刚才我们广发证券同事也讲了,怎么利用我们客户用户画像、客户标签体系,来对我们的客户进行深度分析,给我们的客户提供一些更个性化服务,这是第二个方面。
第三,风险管理。如果在数据准确或者数据质量保证前提下,应用大数据技术创建一些风险模型,对我们整个券商在运营过程中建立风险指标,来屏蔽我们运营过程中一些风险。
第四、第五方面是投资交易和行情预测。如何利用大数据技术实现量化投资,比如舆情分析、行情预测等是利用第四和第五个方面。
最后一个方面是业务运营的支持,利用大数据技术对我们现在整个运营管控去做实效分析,这是从业务方面来看大数据技术应用方向。
现在各个券商在大数据技术方面应用情况,一个是技术平台建设情况。第二个是主要应用场景。
03
大数据基础平台建设
现在第一创业应该说已经是基于星环的hadoop平台把我们原来数据中心(我这里说数据中心是ODS或者数据仓库概念),已经放到了星环的hadoop平台上面,全部迁移过去了,所以我们并不是一个混合模式,是一个单独hadoop模式来建数据中心。
在建这个项目的时候,大数据怎么在中小型券商进行应用?我们分两个步骤来做。先搭平台,然后才是在平台上面做应用。搭平台过程当中同样也面临一些问题,我们刚刚提到本身现在ODS或者数据仓库系统也面临着性能扩展性,以及我们数据处理能力,这方面的问题都是存在的。在工具选型过程当中,我们考虑到两点。第一点,能不能解决我现在目前遇到的困难、遇到的问题帮我解决,这个工具能帮我解决。第二点,要考虑本公司的运维能力。如果突然转到我们大数据处理技术上做hadoop开发应该说有一些困难,所以我们出于这两方面考虑,对很多产品做了POC,最后选择了星环hadoop平台来做技术平台搭建。
大数据建设思路
我们整个的应用思路应该分三个阶段:第一,搭平阶段。第二,我们做应用阶段。第三,在我们前面一个单独应用,我们拿出来一些应用场景。如果一些应用场景能够把路探索通了,在迭代的其他业务领域进行应用,这是分三个阶段来做我们大数据平台的搭建,以及我们的应用建设。
基于星环平台(TDH)数据中心
这是我们基于星环hadoop平台数据中心架构,这个是第一个步骤架构。左边是我们行情,以及我们各个业务系统或者管理系统的数据员。原来我们的ODS或者数据仓库都是基于关系型是结构化数据,我们分两部分数据。第一,一个是实时数据。第二,我们跑批的数据,每天清算后的数据。如果说实时率的话,我们利用另外一个软件AR,实时对我们下游应用提供一些一类数据。
数据中心整体迁移过程
从物理架构上来看,我们以前是基于Oracle单机一种数据中心架构,怎么切到我们的星环的Hadoop平台上去,整个过程我们分成这么几个步骤。
第一个步骤,会先在我们以前数据中心体系之外搭建一套TDH,也就是星环Hadoop平台。首先新建一套我们数据中心基于Hadoop平台数据中心的新的数据中心。
第二个步骤,以前基于Oracle的语句,存储过程,一些表,一些数据,全部迁移到我们Hadoop平台上面来,然后再做一个数据接入。我们在切换之前是两套系统同时导入。
第三个步骤,数据稽核。两套数据稽核,数据稽核完全OK的情况下才会去切断,同样时间切断上面一条线,这样就做到我们以前数据中心到新的数据中心一个无缝衔接的过程,这是整个数据中心整体迁移演示过程。
数据中心整体迁移效果评估
我们迁移完了以后有一个数据可以跟大家一起分享一下。
第一,效果评估:数据采集任务性能
任务性能我们比较关注几个点,一个是数据采集和数据采集入库时间点,就是性能数据。总体来说我们入库性能方面,以前星环hadoop平台数据中心,比以前基于Oracle的是提升7倍多,这是从整体来看。每个任务方面,每个入库数据抽取任务都不同,最高达到46倍。如果有一些小的入库算ETL的话可能会比较慢一些,但是对于大数据量来说,应该比较广泛的多,这是第一个方面数据入库方面来看。
第二,效果评估:核心ETL任务性能
从我们整个核心,中间数据跑批的数据来看,应该说总体核心。我们一些重要,每天客户资产总体过程,我们做了一个比较。核心的耗时比Oracle应该说性能方面,就性能方面提高五倍多,这是一个保守数字,每天的跑批数据量不同,每天跑批个数也不同,所以这里做了一个核心ETL性能任务的比较,这是第二个方面。
第三,性能对比:整体批处理性能
我们整个跑批过程,在Oracle和星环Hadoop平台进行对比,对比完发现的90%以上很大性能提升。
04
基于大数据平台的应用
在我们整个平台搭建完了以后,我们会做一些应用,从今年4月份开始,我们基于Hadoop平台集群环境做了一些应用,主要有以下几个重要数据应用。
这个大数据分析平台,刚刚我们讲的一个基于Oracle或者数据仓库概念,现在是Hadoop平台,怎么基于hadoop平台搭建系统?现在我们的数据,应该说除了以前结构化数据,也就是我们交易数据之外,增加了很多数据。第一个,增加了操作类数据,我们每天从APP或者交易终端上去采集用户的行为数据,这是一方面数据的增加。第二个,我们市场数据,我们可能跟一些第三方或者用爬虫技术拿到一些外部数据。正因为我们搭建了基于星环的hadoop平台上大数据技术平台,原来数据处理能力,对于不同格式数据处理应该能力上有一些增加,这是第一方面变化。
应用一:大数据分析平台。基于大数据平台的应用,最重要应用是大数据分析平台,我们这一次项目建设包括几个系统建设,一个是我们有个数据洞察系统。第二个是我们自动化营销系统。第三个,标签管理体系。大数据应用做精准营销或者个性化推荐都会讲到标签体系、客户画像,这是第一个重要应用。
应用二:综合报表系统。这个综合报表系统跟传统的BI应该有点类似,它的定位是做辅助决策系统,是帮助我们的业务人员提供一些报表,帮助我们领导提供一些关键指标的展现。
应用三:客户信息管理系统。有些企业可能叫CRM,有些企业可能叫服务平台,我们现在也是想把原来做零售客户信息管理,我们想把机构客户信息一起归纳进来,这个也依赖于前端数据处理,就是数据的完整性。
应用四:风险管理系统。这个风险管理系统希望能够后续用一些大数据技术把我们风控指标、风控模型建起来,更有效的去为我们风险,就企业的风险进行管理。
应用五:数据管控平台。这也是我们监管部门要求在全面风险管理基础上面做数据质量、数据标准,以及原数据管理,或者数据安全的管理。
这里来看我们数据分析平台,大数据分析平台建立完以后,我们整个物理架构已经发生了转变,以前我们只是右下角一个星环Hadoop平台来做我们每天的数据处理。我们把客户操作行为加入进来以后,中间加了这边有一个叫分析平台,叫数据分析服务器集群,这个集群作用就是把星环的Hadoop组件与市场化开源Hadoop组件整合在一起了,这相当于有一个接入过程。前端服务器来接收,这边左上角是每一个APP客户数据通过代理服务器,利用数据分析服务器传送到星环的集群平台上面去,整个体系架构是发生变化了。
我们现在整个大数据平台建设情况怎么样,举一个例子,刚才提到这次项目产生三个结果、三个系统:数据洞察系统、标签管理系统、自动化营销系统。
自动化营销系统,我们主要从这四个方面来建设:
第一,自定义用户,每一个客户经理或者每一个业务人员可以在我们的系统里面根据我们建设的标签,根据我们每一个在APP终端买点,可以及时发现我们的用户,对我们的用户进行分群,分群以后会有针对性对这些客户进行营销活动。
第二,自定义业务漏斗,它的作用是对整个业务流程每一个环节做监控,及时发现每一个业务环节,存在什么样问题及时进行调整。
第三,自定义业务报表,我们将来会建一个数据管控平台,数据管控平台会把整个公司的数据情况以地图方式或者清晰地展现给我们的业务人员,业务人员可以利用自定义业务报表使用数据,也就是它可以对我们现在公司任何数据做二次加工。分析完以后可以自己存储起来,进行分享、汇报都可以,这是自定义业务报表,非常灵活报表。
第四,预测性标签。一个是客户预警。第二个,对潜在高价值客户的一个挖掘,做了这两个预测性的标签,这是我们每一个业务场景示范。在成功的前提下,继续在其他的业务领域再进行应用。
05
结语
从上面两个方面,一个是我们平台搭建。另外一个是我们数据应用探索。 后续的话,我们也希望星环能够给我们,无论是从业务方面,还是从技术方面,提供更多的产品,给我们提供更多价值,真正去实现我们的技术去推动业务。
内容如与现场演讲有出入,请以演讲现场为准
点击或回复关键词,查看相关内容
公司
投资 | 星环科技获腾讯领投2.35亿C轮融资,与腾讯云达成战略合作
产品
产品 | 星环的划时代版本-Transwarp Data Hub 5.0
评测 | 大数据产品最新测试基准看哪家(TPC-H or TPC-DS)?
Holodesk | 业界最强的SQL引擎Inceptor为何这么快?
认证考试 | 数据中心联盟—星环联合认证体系首次认证考试报名中
技术
评测 | 大数据产品最新测试基准看哪家(TPC-H or TPC-DS)?
TED视频 | TEDxLujiazui精彩视频:【大数据 大趋势】
白话大数据 | 白话大数据合集
案例
智能金融 | 星环科技发布证券业大数据战略规划纲要(白皮书)
运营商 | 运营商的新方向-运用Hadoop技术将大数据资产变现
视频监控 | Hadoop大数据在实时视频监控的应用场景
能源 | 厉害了,我的营销大数据!