【速记】南方基金 屈磊:基于TDH数据中心大数据平台建设
小编说
11月3日,星环在中国深圳举办主题为“证券基金未来|‘大’有可为”——暨2017星环首届证券基金行业论坛“,吸引了超过80家券商基金近300位业内观众参会。
因会后收到不少嘉宾反馈,对演讲内容非常感兴趣,演讲信息量大,现场又无法及时记录,特在后期推出嘉宾演讲速记系列,以最大程度弥补这个遗憾。
南方基金信息技术部副总裁屈磊向我们介绍了:南方基金基于TDH数据中心大数据中心建设的过程以及取得的成果。演讲的内容主要包括以下六个方面:
一、数据中心建设路线规划;
二、现有技术基础;
三、一期任务目标;
四、怎么做
五、数据中心总体规划
六、大数据平台环境部署、逻辑架构图、数据如何进出
七、目前的使用情况
在今天这个开篇之前,我们简单回顾一下南方基金过去数据中心的基本情况。在基金行业里面分了两部分:营销和投研。基本上,大多数基金公司都会有营销数据中心和投研数据中心。在过去的三、五年,实际上,在南方基金数据中心,像营销数据中心,我们受限于目前TA的一些业务发展。TA数据采集到我们数据中心,它的时间差会越来越小,以及在做规避各方面都遇到瓶颈。在传统数据库不能满足我们需求的情况下,我们做了一些探索。
我到了南方基金,开始调研数据中心建设相关情况,做数据探索。选型的时候在想:有没有一种好的工具能帮助我们做这些事情,当时还没有那么多人和技术经验。最早的时候,我们想能不能选行业里面的,但券商里面80%-90%都是混合架构。我印象非常深刻,去年10月份的时候到了第一创业证券瞿总那里进行交流,就看到星环这边有落地案例,也看了其他一些应用架构的实际情况,后来大胆的做了这么一个选择。
从去年10月份项目立项到现在差不多有一年时间,我们是如何推进这个TDH大数据平台在基金行业、在基金公司里面的数据中心落地?以及我们到底做了哪些事情?我跟大家简单介绍一下。
去年,我们先做了简单规划,把数据中心路线规划为两期。
项目一期
第一期基本上还是做一些数据仓库的事情,在这个一期里面分三个阶段。
第一阶段,我们花5-6个月的时间做数据仓库,然后做数据模型建设。
第二阶段,今年5月-8月做数据交换平台、数据总线建设,这一块基本上是做数据服务,如何把我们的数据通过规范形式引进来,同时向外系统推送出去。
第三阶段:在今年9月-12月,其实我们现在正在做数据集市建设,前面这两步我们推进了之后,在考虑怎么把营销数据在这上面进行构建,这块我们引入了一个敏捷BI去做指标标签,做成可视化的部分。这就使得对于业务人员自助查询、报表、领导驾驶舱的管理等业务有比较好的支撑。
项目二期
到项目二期,我们会沿着大数据方向做一些客户行为。因为在基金公司里面大多数客户都是代销渠道过来,真正有价值的信息并不是那么全、那么多。那对我们有限的直销客户怎么去做呢?他到底还有哪些结构化、非结构化数据,一些行为数据这一块基本上也是我们在后续把他数据化,再把数据结合平台工具技术做一些应用,对业务应用做精准营销、客户画像,去做小范围客户画像,再向外延伸。
那么在做这个之前,我们到底有什么东西。其实在我们公司原来数据采集这一块,除了Informatica,还有一些小的,几乎每一个厂商都在做的产品,但每个产品基本都会自带一个工具,比如采集数据,相对来说可以节省我们的人力学习成本。但是这些产品之间的工具各不相同,就会给使用的企业带来很大的困惑,比如做结构化数据抽取,我们选择了这个产品基本就只能采用相应的工具,无法再使用别的工具,无法建立一个比较系统的架构标准。在此之前我们实际上有两个数据中心,一个营销数据中心,在营销客户管理系统上面,它之下就存储了大量这种TA过来的客户账户信息,做了一些客户级别归并,做了分类分级。另外一块是我们投资数据中心,基本是FA数据。
我们有一个比较老的业务报表,这个可能至少也有5、6年了,有七八百张报表,但是可能经常用的就四十多张或者说五六十张的样子,这也就意味着我们三方数据中心里面有共数据和共指标,大家各自成一个体系,实际上很多口径上是不统一不标准的。
我们做之前整理了现有的这些之后,怎么来做呢?所以我们制定了一期的任务目标。
第一个,建立数据仓库基础平台。
第二个,实现客户主数据管理。这个主数据,除了定义客户主数据,还有产品的主数据和渠道主数据,这可能在银行、在券商都是非常规范的,但是基金这一块相对来讲比较乱,大家职责权限没有分开,导致这个系统里面都在管、都在做,但是没有一个真正的统一的标准。所以我们这一期只是把客户主数据拿出来拎在数据中心里面做管理类的一部分,就是基于事务管理这一块。
第三个,统一数据交换。原先我们没有真正理解数据交换文件服务器或者交换服务器,现在我们所有这种不管数据进与出,都通过数据交换平台来做。
第四个,统一数据服务,我们统一定义向外部推送数据或者分发数据,我们在前置库,但是这个之外如果业务系统要用我们数据中心数据,我们统一构建我们的服务,这个结合比较新的服务架构形式做这么一个对前段业务的支持。
第五个,统一数据管理。所有这种管理性操作,数据管理方面一些模型,还有管理规章制度流程,全部在数据中心这边统一来管控,这块实际上也涉及到上游系统的一些业务操作和系统不规范行为,导致我们在数据处理转换过程中出现不一致情况。目前来讲,我们现在正在做数据治理、数据规划,这块有管理制度和流程配合我们后续数据中心建设。
依赖产品和实施厂商
我们怎么做呢,实际上刚才讲了一些内容。我们做数据的技术人员实际上不是那么多,这意味着我们靠自己力量很难去搭建起来一个标准规范的数据中心、数据仓库。怎么办?我们依托于产品和厂商。产品方面,我们需要有个好工具,同时又要有强大的技术支持和服务团队协助我们。这就要求它有一定实施标准规范和流程,同时能带来这个行业里面比较成熟的模型,来帮我们去做一些事情。去年8到10月份,我们主要做产品和实施选型。二月份到现在依靠于厂商实施,加上我们产品方给了技术支持。
建设解决的问题
第一个,数据采集的问题。数据采集实现了统一采集。
第二个,数据落地的问题。这个基本上把工具用起来就可以了。
第三个,数据装载和数据转换的问题。这部分涉及到传统数据库,传统数据仓库不太一样,如何往星环的大数据平台里面塞数据是我们需要解决的问题。如果像互联网公司,或者像一些做得比较成熟券商或者银行,实际上他们这块不是难题,对于我们来讲它就是难题,基本上卡在三到四月份,很大的一个问题就是我们装载这种脚本和一些代码的时候,性能和效率怎么去配置优化,这块可能花费比较多的时间。
第四个,数据转化的问题。这一块我们会先把数据抽取,落到本地交换服务器上面,装载数据之后再去做些转化,做些模型构建,以实现ODS模型的统一。
第五个,数据分层的问题。原先我们分了两层,数据下载层到模型层,现在比较清楚,分了四层,这样有一定的数据冗余,但也实现比较高的数据服务支持。
第六个,数据计算和数据服务的问题。这个里面我们花费比较大时间解决TA历史问题,一些历史数据缺失,数据质量不高,有一些指标定义算法规则。因为对于我们业务来讲,提出一些比较大的需求,需要指标标签。这种实际上对IT实现来讲不是特别明确的需求,其实对我们来讲,也不太了解我们的业务,那就意味着这个里面的算法规则到底怎么实现的问题。
这个就是去年做的一个数据中心总体规划,其实最上面红色部分现在还没有实现,因为我们所有现在面向数据中心的这种构建有三个方面:管理运营、业务创新、风险稽核,就是提高风险承受力。在内部管理上,建立管理驾驶舱,实现个性化理财服务,实现客户精准化营销,创新业务产品开发。这里面还有些员工行为数据分析和客户行为数据挖掘分析。客户标签也是我们要做的点。但是做这些东西,第一数据要有地方存。第二有一个模型算法能够支持。第三公司自己有专业人才团队能够支撑,要不然你只能依赖于厂商产品,或者别的行业、别的一些公司做得比较好案例,交流之后看怎么把它落地下来。
我们现在做的更多的是在数据源这块。我们基本上公司方方面面的数据,包括注册等级、电商直销、网站、投资交易、财务、OA这些数据全部接进来,这里面有线上交互数据、内容数据与传统交易数据。实际上对实质类数据怎么能够及时有效进入数仓,进入数据区去支撑业务及时性问题。我们也设计了解决方案,首先我们的数仓里面有两部分:第一,存储;第二,计算。
存储,相对基金公司来讲数据量没那么大,营销、投研加在一起不超过10个T数据,但是我们现在的规划还是要有一个长远规划,其实有个动态节点扩容。同时又有一个很高计算性能这么一个要求,实现这种大规模数据计算,我们客户来讲,两三千万的客户对银行来讲都很小。但是这些客户数据在传统数据库上面,基本上指标标签是跑不动的,这些肯定跟你的资源还是有关系的。底下这一部分涉及到数据交换、数据管理,还有数据服务。这里面的每一块,我们现在都是有个工具和技术去支撑,但还不全,因为短短的不到一年的时间里,不可能解决所有问题,还是会有些实际业务问题的。
这是我们基于星环大数据平台的环境部署,我们在不断增加节点数的情况下,可以实现数据的业务需求。
最上面是我们的内部业务系统和一些核心系统。中间通过一些结合调用,数据推送管道去做这些事情。这一部分我们之前比较混乱一点,现在能够有一个比较统一的标准了。
这是我们的逻辑架构图,左边是数据源,下边是数据管控平台,里面调动引擎、任务监控、调度接口,以及计划管理日志这些。中间是我们的数据中心,基本上是基于星环TDH去做的。我其实想表达一个事情,大家以为TDH做高大上大数据,做金融科技,做人工智能,但这并不是说它做不了传统数仓、存储、计算。实际上TDH在数仓存储和计算上有非常大的优势。而且他可以提供一个强有力的团队做支撑和维护,解决了企业自身团队不足以支撑这块业务的问题。
最后的核心问题是这个平台到底能不能做这件事,经过我们一年的尝试,以我们目前实现的效果来讲,做这件事情完全没有问题。因为它的开发成本、代价相对都比较小,和传统开发没有差别,可能要遵循它这个平台架构自身一部分一些特性,我认为这不是缺点,这是它的平台特性。他们也有一定解决方案,把这个掌握就可以了。
这个简单再描述一下,数据如何进出这个数据平台?其实左边最下面一方面抽数据,基于FA数据到无线服务器上面,通过Informatic再进到我们贴源层,就是下载层里面,然后建这种外表,再通过外表进入汇总层,再进入集市。集市层加工后的数据,再成为一份冗余到查询库Hyperbase上面,在Hyperbase上面再去向外服务。在集市层,汇总层这一块的数据,我们还有一个前置库去支撑外部系统对数据结构表的需求。上面是微服务的一个在线查询需求。还有客户行为数据,这部分我们做了尝试,把电商这边网站APP行为数据通过Kafka采集过来之后就通过Stream SQL也进了数仓,但是这部分应用我们现在没开始做,这些点,星环上面好的一些组件工具我们有尝试,基本没问题,下面是我们的调度工具。
目前来讲,使用情况怎么样?我们每日数据采集是5个TA,FA、OA以及FMDC等有10多个库,400多张原始表。我们现在建数据中心承载了一些关键表。下一步我们打算把所有核心的内外部交易系统或者内部管理系统数据全部落到数据仓库里面去,这一部分我们需要模型建设,对模型扩充有要求。数据抽取和任务调度基本上还是Informatica和Control-M,所以整个来讲不用废掉原来的工具和技术,可以做一些小小的投入。我们用了比较小的投入完成了这件事情。
做到现在来讲,这里面很多东西还是要把它先落地,我们再一步步做好的应用。指标计算这块说一下,90多个常量化标准,怎么理解?就是说这里面原来在跟电商,提供这种接口,或者提供这种计算的时候,比如算客户资产规模,就是通过每个单客户请求去调用跑批数据去算,这个东西基本靠实时在线,通过自身计算性提供单客户计算。我们现在有2300万客户,每天晚上客户数据进来,做完模型整合之后,全部是跑这些常态化的指标,跑单客户,跑TA账户,跑TA每个产品下面分产品、部分产品做汇总,等等全部是在这里完成。这90多个常态化指标,再加上它的维度来讲,有将近400到600个指标,这些指标全部跑一遍,那传统数据库绝对崩掉,但现在TDH的平台系统很好的解决了这个问题,现在跑批这块大概半个小时之内就可以全部完成。
我们用这个平台,最大感触就是,对我们计算这块是个最大的支持。存储这其实是相对容易解决的。现在我们缺像刚才讲高大上的应用系统。一方面没有想做,没找到合适产品,自己也没有那么多人去做这件事,但是星环TDH平台至少满足我们对未来大数据的想象和期望。
内容如与现场演讲有出入,请以演讲现场为准。
点击或回复关键词,查看相关内容
公司
投资 | 星环科技获腾讯领投2.35亿C轮融资,与腾讯云达成战略合作
产品
产品 | 星环的划时代版本-Transwarp Data Hub 5.0
评测 | 大数据产品最新测试基准看哪家(TPC-H or TPC-DS)?
Holodesk | 业界最强的SQL引擎Inceptor为何这么快?
认证考试 | 数据中心联盟—星环联合认证体系首次认证考试报名中
技术
评测 | 大数据产品最新测试基准看哪家(TPC-H or TPC-DS)?
TED视频 | TEDxLujiazui精彩视频:【大数据 大趋势】
白话大数据 | 白话大数据合集
案例
智能金融 | 星环科技发布证券业大数据战略规划纲要(白皮书)
运营商 | 运营商的新方向-运用Hadoop技术将大数据资产变现
视频监控 | Hadoop大数据在实时视频监控的应用场景
能源 | 厉害了,我的营销大数据!
速记
【速记】国家农业信息化工程技术研究中心 陈天恩:农业大数据的研究与实践
【速记】同济大学教授 王伟:同济-星环“数据科学与大数据实践平台”建设
【速记】第一创业证券 瞿任雄:基于星环TDH大数据平台构建新一代券商数据中心