实战 | 立足技术创新,湖仓一体共生实践
欢迎金融科技工作者积极投稿!
投稿邮箱:newmedia@fcmag.com.cn
——金融电子化
文 / 中国光大银行信息科技部 彭强
十九大报告指出:“创新是引领发展的第一动力,是建设现代化经济体系的战略支撑。加强应用基础研究,突出关键共性技术、前沿引领技术、颠覆性技术创新,为建设科技强国、数字中国、智慧社会提供有力支撑。”随着“数字中国”、“智慧社会”建设的悄然加快,以云计算、大数据、人工智能等为代表的新技术迅速发展,“得数据者得天下”已成为一种共识。对于天生具有数据丰富特性的金融行业而言,数据无疑是企业发展的基石。商业银行数字化建设需要有强大的基础数据平台,以支撑银行业务数字化转型成功落地。中国光大银行在数据仓库、数据湖建设方面打造架构创新、数据生态、相互融合的特色数据体系,赋能银行绿色金融业务高质量发展。
立足技术创新,打造新一代数据仓库平台
1.数据仓库发展历程。数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。光大银行数据仓库2006年启动建设,采用Teradata软硬一体数据库产品,构建以十大主题为核心的数据仓库基础数据模型,汇聚全行数据资产,运用商业智能技术,支持银行各业务条线经营决策、客户营销。2015年引入数据库产品Greenplum,采用软硬分离架构,将数据集市迁移到Greenplum集群,在数据处理性能、用户体验得到提升的同时降低产品采购成本,获得更高的科技和业务价值。为解决Greenplum数据库横向扩展局限性,2019年引入数据库产品GaussDB,该产品具有高扩展性、多线程并行算法、向量化引擎、负载动态感知等技术特点。光大银行2021年6月成功实现41个数据集市迁移至GaussDB集群,实现Greenplum集群下线;2022年3月成功完成数据仓库平台基础数据模型迁移至GaussDB集群,实现Teradata集群下线,光大银行成为国内首家实现自主可控数据仓库平台大集中的银行。
2.新一代数据仓库架构创新。习近平总书记指出,数据是新的生产要素,是基础性资源和战略性资源,也是重要的生产力。为了充分发挥数据要素在金融行业的倍增作用,2021年12月,中国人民银行印发《金融科技发展规划(2022—2025年)》,明确要全面加强数据能力建设,在保障安全和隐私前提下推动数据有序共享与综合应用,充分激活数据要素潜能,有力提升金融服务质效。
光大银行新一代数据仓库平台并不是一次简单的产品选型和替换工作,而是银行十余年数据资产累积如何平稳迁移工作,是全新的数据仓库技术架构重构工作。面对不断深化、不断融合、不断突破的数字未来,光大银行新一代数据仓库平台将重心放在了“创新”方面,着力技术、数据两大方面,激发数据资产价值潜能。
光大银行综合分析现有技术的痛点与不足,综合考虑当前技术趋势与监管要求,最终设计出新一代数据仓库平台技术架构,取得了五大创新突破。
一是自主可控数据平台。光大银行新一代数据仓库平台以高斯数据库为计算引擎,配合自研的数据模型设计工具、任务调度工具、模板规范,构建自主可控数据仓库平台体系。高斯数据库支持数据节点全并行数据交换,百亿级并行连接;采用多层级全并行计算引擎、向量化引擎、多线程并行算法,充分发挥系统计算性能;通过静态/动态内存使用控制技术,实现资源的充分利用。
二是集中化—全行数据统一加工。光大银行新一代数据仓库平台采用集中化建设模式,全行数据统一加工、模型统一设计、开发统一规范、任务统一调度、资源统一管理,从而降低系统管理成本、技术复杂度,提升资源配置效率、数据一致性。
三是层次化—架构分层集群部署。光大银行新一代数据仓库平台按业务场景进行架构分层,构建批量集群、报表集群、探索集群、备份集群、分行集群五大集群。以批量集群为计算核心,建立高速、敏捷、连续的数据仓库运算能力;报表集群承载固定查询任务,提升数据查询效率;以探索集群为实验平台,承载灵活查询任务,深挖数据资产价值;以备份集群为安全底线,增强数据仓库抗风险能力;以分行集群为服务前线,支撑全国39家分行的自主数据服务。
图1 数据仓库功能架构图
四是标准化—流程方法规范实施。光大银行新一代数据仓库平台设计了标准化的作业流程,指导41个系统有序完成迁移工作。迁移过程中,开发需求正常承接、产能不降低,各系统迁移解耦,降低关联复杂度,达到了“成本可控、时间可控、风险可控、质量可控、复杂度可控”的效果。
五是自动化—工具模板提升效率。光大银行新一代数据仓库平台研发了代码转义、数据核验、数据同步等自动化工具。其中,代码转义工具全面支持全量、增量、切片、历史拉链等11类场景的脚本,完成了30000多个脚本、数百万行代码自动转义;数据核验工具支持记录条数、关键字段加总、全表minus自动化比对,完成30000多张表数据核验并提供比对报告;数据同步工具支持海量数据并行迁移,完成2.3PB数据的自动化迁移。
培育数据生态,实现数据应入尽入
习近平总书记指出,数据作为新型生产要素,是数字化、网络化、智能化的基础,已快速融入生产、分配、流通、消费和社会服务管理等各个环节,深刻改变着生产方式、生活方式和社会治理方式。
数据湖是一个以原始格式存储数据的系统,对源系统贴源数据进行集中式存储、反映数据历史变化、无需对数据进行格式化处理,可存储结构化数据、非结构化数据、半结构化数据。光大银行2019年基于大数据Hadoop技术自主设计数据湖系统架构,研发数据湖贴源数据模型和调度框架,以数据“应入尽入”思想为指导,构建敏捷化数据开发体系,提供敏捷化数据服务,为数字化转型提供有力的数据支撑。
图2 数据湖功能架构图
1.数据种类多样化。数据湖平台依托于大数据Hadoop技术,以“数据驱动业务”为设计理念,坚持“应入尽入”原则,实现行内的结构化、非结构化数据、IT基础数据、安全数据、日志数据等数据,以及行外的征信、工商、司法等数据入湖。数据湖屏蔽不同系统的数据规范差异性,建立统一的数据标准和规范。数据湖汇聚行内180个业务系统结构化数据9500张表,数据体量7.2PB;行外12大类74小类数据3000张表,数据体量240TB;日志、安全等IT基础类数据1PB;文档、音频、视频等非结构化数据300TB。
2.数据接入敏捷化。数据湖平台立足于敏捷化服务,无需任何预处理即可对数据进行采集、存储和分析,实现所有入湖数据信息和数据加工过程统一管理、可视化配置开发、敏捷授权,消除数据采集和存储的复杂性,加速应用数据,赋能广大研发者、数据分析师,实现跨平台、跨语言、跨领域的数据进行高效分析和处理。
3.数据时效及时化。数据湖平台支持流批一体架构,能够兼顾流处理的及时性和批处理的可靠性,利用大数据能力提供高时效性数据。数据获取方面,利用OGG、Flume、Kafka等实现数据秒级抽取;数据处理方面,利用Spark、FLink实现数据流式处理,具有计算效率高、数据安全等特点;数据输出方面,提供数据表、文件、消息方式对下游提供服务。
聚焦生态融合,实现湖仓一体共生
中国人民银行《金融科技发展规划(2022—2025年)》明确指出:“构建集成数据整合、提纯加工、建模分析、质量管控、可视交互等功能的综合型数据中台,打造科技赋能、数据驱动、业务联动的企业级数据服务能力中枢,推动业务数据化向数据业务化进阶发展。”
光大银行坚持把发展数字经济自主权牢牢掌握在自己手中,以“湖仓”一体化打造坚实的数据底座,构建以数据湖为基础的贴源数据,以数据仓库为核心的主题数据,以数据中台为中枢的共性数据,打造企业级数据服务能力,实现数据敏捷、高效、安全的交付。
图3 湖仓一体架构图
1.生态一体化。湖仓一体基础是生态一体。湖仓一体,不是数据湖+数据仓库,而是数据湖与数据仓库的有机结合,是一个数据生态。数据湖实现数据粗加工和敏捷接入,为用户提供高效的贴源数据服务,数据价值密度低,数据存储成本廉价,用于数据挖掘场景;数据仓库实现数据精加工,将数据按照主题方式进行设计和存储,为用户提供高效的主题数据服务,数据价值密度高,数据存储成本高,用于企业经营决策场景。湖仓一体是一种开放式架构,通过数据湖与数据仓库架构打通,将数据仓库的高性能与数据湖的灵活性融合起来,具备多数据处理引擎,实现湖与仓技术上的互补,支持企业实时数据查询和分析场景,形成湖仓生态一体化。
2.互通一体化。湖仓一体核心是数据互联互通。数据湖灵活、快速地实现数据入湖,数据仓库规范、稳定的数据加工,二者数据按需流通、融合,实现数据价值最大化。数据互联互通以企业级数据治理体系为指导,按需进行数据流通,实现数据科学与数据分析场景的数据拉通。光大银行利用湖仓集群性能优势,研发数据互联互通工具,实现数据流通的配置化开发,每日7000张表数据在湖仓之间流动,实现数据安全、有序、共享。湖仓数据互通一体化,有利于数据治理能力建设,有利于深挖数据价值,有利于数据敏捷交付,为企业数据中台建设奠定数据基础,全面盘活企业数据资产。
3.服务一体化。湖仓一体关键是服务一体化。在数据中台方面,实现335个共性数据模型、9550个属性、200个联机API,日均访问量81万次;在经营分析方面,支撑财务、信贷、资管等9000多张报表的业务统计分析工作;在数据挖掘方面,面向智能风控、智能营销、智能运营等业务场景提供700个模型的智能化服务。光大银行研发流批一体数据处理框架,建设实时数据湖、实时数据仓库,支持数据实时查询和分析。光大银行探索与开源社区合作,运用Presto技术,实现湖仓数据的联邦查询。光大银行湖仓服务一体化,拓展了湖仓服务能力,加强了湖仓服务深度,构建了光大银行数字化新基座,将在光大银行数字化转型建设中发挥重要作用。
结束语
数据已成为数字经济时代的国家基础性战略资源和重要生产要素,光大银行顺应数字经济时代发展要求,以服务实体经济为目标,在“一湖一仓一中台一实验室”数据战略规划指导下,构建技术、数据、应用的生态体系,汇聚数据资产,深挖数据价值,拓展场景金融,赋能银行业务。未来光大银行将紧跟时代步伐,积极拥抱新技术,将数据融入到银行的生产、分配、流通等各个环节,以优质能力服务社会、客户,用温度、准度和深度,彰显金融国家队责任担当。
(栏目编辑:韩维蜜)
往期精选:
(点击查看精彩内容)
● 实战 | 夯实基础,积厚成势——工商银行大数据服务平台建设实践
新媒体中心:主任 / 邝源 编辑 / 傅甜甜 张珺 邰思琪