查看原文
其他

业务驱动的智能数据服务平台

金融电子化 金融电子化 2019-10-30


文 / 上海证券有限责任公司

吴佳 褚卫忠 徐飒英 胡智慧 管吉


如何利用数据科学,从海量的业务数据中通过处理、分析、挖掘提炼其价值?目前证券行业面临诸多挑战:挑战一,如何对海量数据进行全量分析;挑战二,如何保证数据的实时性要求;挑战三,如何提供合适的处理与分析方法;挑战四,如何通过有效的手段快速将数据的价值反馈到业务中去。为此,上海证券打造了“业务驱动的智能数据服务平台”,该平台采用多种成熟的开源工具,以较低成本构建了契合业务发展的统一数据服务平台,实现了智能化数据服务和智能化平台管理功能,并将此平台定位为公司数据的“存储中心、交互中心、处理中心和服务中心”。

 

智能数据服务平台的架构

平台选用了Hadoop架构,围绕着Hadoop开源平台及其衍生的开源生态圈,将整个智能数据服务平台日常运营过程中涉及的数据收集、传输、存储、处理、失效等各个环节,进行数据全生命周期管控,并对外提供数据访问服务和计算处理服务。

 

如下图所示,平台底层采用CDH-Hadoop基础架构,数据以文件、流式写入Hadoop平台,平台对外提供计算服务,包括Hive和Impala的SQL服务、Spark和Mapreduce的分布式计算服务。同时,平台通过Solr或其他索引组件对外提供文件的检索功能。从数据存储功能看,平台上存放了结构化数据、半结构化数据和非结构化数据。结构化数据存放在HDFS中,以文件形式进行存放,对外以表的形式提供访问。半结构化和非结构化数据部分,小文件存放在HBase中,大文件作为HDFS文件存放,同时当这些数据被解析为结构化数据后,便以结构化数据方式存放以方便上层应用调用。从数据源的角度来看,平的架构可以兼容原有业务系统全部种类的结构化数据,原有的业务系统无论是构建在何种关系型数据库上,在数据导入上都可以做到无缝转换。同时支持半结构化以及非结构化的数据,因此原有传统架构无法处理的日志数据及视频、照片数据等半结构化或非结构化数据都能够在大数据平台上有效存储及处理。从数据应用角度来看,平台能为管理报表系统、财务系统提供数据服务,同时基于大数据对于半结构化数据能够模糊查询及匹配的特性,提供了历史日志的海量快速查询。

 图 平台架构图


数据上层分为10个数据服务区域,平台具备部分统计分析和数据整合的功能,且具有很强的批量处理能力,能够针对大批量或者全量数据,完成统计分析区中的运行时间较长的每日统计分析任务、报表任务等,因此平台能够为统计分析区提供大量数据的每日分析整合和报表功能。另外,HDFS中存放全量数据,转入HDFS的原数据文件需要使用集群能力完成批量ETL工作,将导入数据进行转换。

 

平台架构的特点是将Sqoop、Flume和Kafka整合在一起,形成基于数据总线的分布式数据聚合系统,同时基于Kafka、Sparkstreaming、Kudu等组件实现了实时的数据处理,保证数据服务平台既能服务好原有的传统应用,又能突破原有对实时数据处理、非结构化数据处理的限制,更好地为面向未来互联网应用提供服务。

 

平台的技术特点

智能数据服务平台的数据已覆盖公司全部核心交易系统和各业务系统,为公司业务部门提供各类数据服务。平台具备了以下的技术特点:

 

第一,具备了灵活的平行扩展能力。我们采用了3+n的架构模式,通过自动化的监控工具,在资源达到一定阈值时,可自动告警,在无需停机状态就可完成集群的快速平行扩展,而平台数据和应用不受任何影响,并且数据能够自动再平衡。第二,具备强劲的处理能力,较传统数据中心有大幅提升。可以轻松实现PB级以上数据的处理,做到快速查询秒级响应。第三,结合kafka、sparkstreaming、kudu等组件实现实时数据处理,并能够做到亿万级数据交并差的秒级响应。这是在传统架构下不能达到的,因此,许多业务场景也可受益于此。第四,通过多租户的管理模式,实现了数据的统一安全隔离、计算资源调度和访问审计,并且满足用户的服务级别SLA。第五,基于kafka构建了数据总线,建立了完整的数据服务体系。首先是数据服务的智能化,当源系统的数据发生变化,平台能够自动发现数据变化,并自动适配及校验;其次,在整个服务体系的构建中,实现了数据资产服务化、数据管理标准化、数据应用视图化、数据使用轻量化。第六,易用可管理并具备开放性。

 

平台的安全管控

智能数据服务平台实现了公司数据的集中,但同时原来用户数据的天然访问隔离被打破了。因此,构建完整的安全管控体系是本项目的一个重要环节,我们主要从平台安全、数据安全和服务安全三个层面来确保平台和数据的安全。

 

在平台安全层面,构建了基于4A的安全管理体系。通过kerberos+Ldap实现账号管理与身份认证;通过Sentry实现基于角色的、细粒度的访问控制。同时,平台具备集中审计功能,包括统一用户认证、授权,字段级操作的审计;资源调度即通过多租户的管理模式来保证平台的计算能力可以按照用户权限来分配。

 

在数据安全层面,开展了基于数据全生命周期的安全管理,从数据采集、传输、存储、处理、分析、销毁等各个阶段进行管控。考虑到大数据平台的数据量将面临几何级数的增长,大数据安全管控需要引入了更多的自动化的管控方式和智能化报表协助做好全生命周期的数据管理。

 

平台服务安全层面我们考虑了以下三个点:平台冗余架构能有效确保硬件故障情况下的数据可恢复;hdfs的回收站机制保障了用户在误删除的情况下数据不丢失;通过备份集群的方式保障整个数据中心的高可用。

 

最后,大数据治理作为数据治理的一部分内容,其在实施机制及工具上都略有不同,需要基于不同形态数据构建元数据管理,同时提供一种便捷、友好的方式方便地跟踪、分类和定位数据。在平台的实施中,我公司也逐步开展了数据治理体系建设,应用平台的数据验证和数据质量报表功能,确保了数据的完整性、准确性和一致性。

 

平台的应用与展望

公司基于本平台逐步开发了公司级的数据仓库,基于数据分析开发了客户服务、智能运营、风险控制等多个业务场景应用,有效支持了公司业务向数字化、智能化转型。

 

平台积累了真实、准确、完整的各类型内外部数据,有效支持了风险识别与管控。同时,利用平台强大的计算功能,使风控系统的日终数据处理时间大幅缩短。

 

平台的建立,也使得公司为客户提供个性化、场景化和智能化的金融服务成为可能。基于平台,为客户提供了账户分析、智能资讯、风险提醒等服务;探索建立了“基金标签”体系,满足机构客户需求。

 

公司利用平台提供的数据服务,进行了运营模式创新,创新性开发了网上营业厅运营模式,使营业厅的传统临柜业务在实现线上化的同时,直接实现了临柜业务O2O三步式办理。通过数据分析,我们还对传统业务流程进行了优化,大大缩短了业务办理时间,提升了客户满意度。

 

本项目通过创造性地利用多项开源技术,结合自主研发,大幅降低了建设成本,兼具灵活性和扩展性,并为力图改变对供应商过分依赖的状况,有效促进了IT部门的技术转型提供了实践经验。从长远看,大数据平台的价值并不仅仅在整合内部数据,未来会通过更多的外部数据与内部数据的整合,实现更多的智能应用,发挥数据更多的价值。


往期精选

(点击图片查看精彩内容)





《金融电子化》新媒体部:主任 / 邝源  编辑 / 潘婧

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存