查看原文
其他

案例丨“玄武”大数据平台,助力公司数字化转型——银联商务基于云平台的湖仓一体建设

金融电子化 金融电子化 2023-01-22

当前,数据成为新的生产要素,数字科技成为新的发展引擎,数字经济浪潮已势不可挡。金融行业各大公司纷纷加大金融科技投入力度,全面提升数字化运营能力,加速数字化转型。为深入贯彻落实国家金融科技战略,加快公司数字化转型,实现公司数据资产可管理、可视化、可赋能的建设目标,银联商务加快推进数字基础设施建设,基于云平台建设湖仓一体的综合型数据中台——“玄武”大数据平台,集成数据整合、提纯加工、建模分析、质量管控、可视交互等功能,支持同时处理离线数据和在线数据,具备数据服务化能力,提供实时的数据服务。


银联商务股份有限公司

数据资产中心总经理  蒋卫华


诞生——“玄武”大数据平台建设背景

银联商务总公司各部门和分子公司的数据应用建设诉求不断快速涌现,数字化、智能化的需求日益增长,对公司数字基础设施的要求越来越高。传统的大数据平台已无法高效支撑业务和数据的不断增长,对企业的数字化转型支撑不足。


痛点一:湖仓基础设施割裂、扩展性及技术先进性不足。长期以来,通常使用两种数据存储方式来架构数据:数据仓库主要存储的是关系型数据库中的结构化数据;数据湖是一个统一存储池,存储成本较为廉价,可以存储任意规模的结构化数据、半结构化数据、非结构化数据。单一的数据存储方式已经无法满足企业发展的业务诉求。在业务数据存储和计算规模快速增长的背景下,银联商务积极拥抱开源,于2015年开始尝试基于Hadoop体系的存算一体架构,试图完成湖仓基础设施的统一。在大数据集群规模较小的情况下,利用Hadoop数据本地性的优势,计算的加速效果比较明显。基于Hadoop体系的存算一体架构的问题主要有三个。一是Hadoop的HDFS存储系统在文件数量到达一定量级后性能问题和稳定性问题频发。二是存储资源和计算资源是紧密耦合的,基本按某一比例强绑定。随着数据的规模化增长,集群扩容的成本越来越高,资源大量冗余,造成计算资源或存储资源的浪费。不同业务对存储资源和计算资源的需求不一致,集群资源的利用率低。三是公司内部同时使用两套存储系统进行数据管理,使用部署在物理机的Hadoop大数据存储和计算平台管理结构化数据,使用私有云对象存储管理非结构化数据,系统架构复杂,数据使用门槛高。上述架构不仅造成硬件资源的浪费,而且无法满足公司对结构化数据、半结构化数据、非结构化数据的统一管理诉求。在未来数据规模及数据类型高速增长的情况下,平台的成本、扩展性、技术先进性均面临极大的挑战。


痛点二:现有数仓平台便捷性、敏捷性不足,无法及时满足业务发展对数据的时效性要求。移动支付、便捷支持、互联网金融、数字金融、智能支付等新业态的快速发展,催生了大量的数据应用建设需求。现有数仓平台的数据集成、开发、调度、治理、服务等数据处理模块相互独立,数据应用构建效率较低,数据应用敏捷性不足,无法满足数据应用快速上线的要求。


革新——湖仓一体架构下的大数据存储和计算平台

为提高资源利用率,确保系统的扩展性和灵活性,从技术先进性、成本、业务诉求等多方面综合评估,确定了“玄武”大数据平台的数据底座架构——云化部署、存算分离、湖仓一体。


首先,大数据存储和计算平台部署上云,无缝适配云基础设施资源,不同数据场景规划不同类型的资源套餐。存储与计算分离,通过云化的存储资源池和计算资源池,实现资源的动态分配,支持存储资源和计算资源按需弹性扩缩容,提升资源利用率。


其次,增强存储引擎和计算引擎能力。存储引擎经过双中心双活、目录Namespace改造、原子Rename支持、容器化部署、冷热数据管理、Append优化等一系列优化,对象存储的功能、性能和稳定性增强,实现EB级容量、万亿级元数据在金融生产场景下的管理能力。计算引擎通过引擎加速、内核改造、参数限制打开、默认全局参数优化等一系列优化,引擎的功能、性能进一步增强。


最后,为进一步提升数据管理能力,降低跨平台的数据使用成本,消除数据孤岛,提高数据协同效率,实现数据的集约化管控,在云弹性、存算分离的前提下,引入湖仓一体的架构。湖仓一体主要体现在以下四点:一是使用对象存储作为湖仓的统一存储引擎,统一管理公司内部的结构化数据、半结构化数据、非结构化数据,支持多种数据类型并存,做到“一数一源”。二是实现数据的统一管理,引入Hudi、Iceberg,将数据湖技术与数据仓库技术相结合,充分融合各自的优势,在数据湖低成本的数据存储架构之上,实现类似数据仓库的数据结构和数据管理功能,弥补了数据湖缺乏全局数据视图的局限性,实现湖仓的数据、元数据的无缝打通、“自由”流动。三是支持丰富的计算引擎,完成Hadoop生态计算引擎接口的改造,适配对象存储。支持批处理、流式计算、交互式分析和机器学习等各类计算引擎,各类计算引擎完全兼容对象存储,保留原生Hadoop的编程接口和操作习惯。支持列式存储格式,实现对海量数据的快速查询、分析,大幅度提升数据查询分析效率。四是具备数据全生命周期管理能力,包括数据的定义、接入、存储、处理、分析、应用的全过程,数据处理活动可追溯可审计。五是简化数据链路,提升数据链路的实时性,支持批流一体,湖仓数据协同计算,数据免搬迁,实现跨模态数据融合分析。


通过以上架构层面的优化,在硬件机型不同、业务特征不同、数据管控策略不同等各种复杂场景下实现资源效能提升、数据端到端加工效率提升、数据管控能力提升,平台具备极高的扩展性以及成本优势,让公司业务创新更敏捷,业务洞察更准确,加速释放数据价值。


便捷——建设一站式简单易用的数据湖仓开发治理平台

为高效地开展数据处理活动,“玄武”大数据平台提供了一套融合数据集成、数据开发、任务调度、数据管理、数据服务、数据查询、项目管理等功能的一站式数据湖开发治理平台。平台提供可视化的数据开发组件,统一数据开发流程和项目生命周期管理,支持开发人员可视化地拖拉拽、可视化地配置,完成数据集成、脚本作业开发、任务调度等工作,极大程度地降低数据开发门槛,提高数据开发效率。支持灵活、高效地读写湖仓任何一层的数据,不仅支持离线数据的批处理,而且支持实时数据的实时归集、实时计算以及实时查询。同时,平台具备系统层、平台层和业务层全方位的运维监控体系,有效地提高系统的可靠性、可用性及用户体验。


安全——全链路的业务数据安全保障

“玄武”大数据平台从湖仓存储管控层、计算引擎管控层、数据权限管控层提供多层级的安全管控策略。湖仓存储管控层关注于灾备、防删、防改、加密等基础数据安全;计算引擎管控层全链路开启Kerberos认证,保证计算引擎层的严格安全认证;数据权限管控层建立了一套涵盖授权、认证、审计的完整的权限管控体系,实现对数据的统一授权管理,支持库、表、行、列粒度的数据授权,最大程度上保障数据安全。同时,平台实现多租户管理,不同租户的存储资源和计算资源相互隔离、互不影响。


成果——收益盘点

在数据管理层面,“玄武”大数据平台支持海量数据批量入湖、秒级实时入湖,支持PB级数据存储,每日可处理千亿条数据,支持结构化、半结构化、非结构化数据类型并存,满足业务复杂化及移动互联网业务带来的海量数据增长在数据存储、计算、分析、挖掘等方面的需求。


在降本增效层面,首先,“玄武”大数据平台基于云平台,实现存储资源和计算资源的存算分离,支持资源弹性伸缩、按需分配,支持资源共享,大幅降低运维成本、资源成本,增强个性化资源满足能力,极大程度地提高资源利用效率。其次,实现数据处理活动的集约化,公司层面形成了统一、易用、高效的大数据平台,为不同组织、不同项目的数据处理活动提供有力支撑和保障,实现数据处理技术的同栈及提效,大幅提升企业内部数据资产构建能力,推动业务快速发展,助力公司数字化转型。


(栏目编辑: 韩维蜜)



往期精选:

(点击查看精彩内容)


● 案例丨海通证券湖仓一体架构的探索及实践

● 案例|量化巨灾风险管理,提升金融保险韧性——记中国台风巨灾模型项目

● 案例丨筑基金融活水“宽”通道,建设银行打造首个端到端IPv6+智能云广域网

● 案例 | 金控集团量子计算探索与实践

● 案例 | 基于开源软件向敏捷运维转型的创新与实践











新媒体中心:主任 / 邝源  编辑 / 傅甜甜  张珺  邰思琪

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存