实战 | 中小城商行湖仓一体数据服务架构建设实践
欢迎金融科技工作者积极投稿!
投稿邮箱:newmedia@fcmag.com.cn
——金融电子化
文 / 齐鲁银行科技部总经理 张功臣
齐鲁银行科技部 季研
近几年随着大数据技术应用而提出的“数据湖”架构方案和相对成熟的“数据仓库”架构方案,成为商业银行大数据应用建设中两种不同的实现路径。但无论是数据湖,还是数据仓库,在支撑商业银行数据服务需求中,都逐渐显露出单纯技术路线的不足。面对愈加强烈的数字化转型的迫切需要,以大数据技术栈建立的湖仓一体数据服务体系,是中小城商行在数据技术发展到当前阶段的最优选择。
齐鲁银行科技部总经理 张功臣
中小城商行数据服务挑战
1.“灵活”和“稳定”的矛盾。经过近几年的大数据应用系统建设,很多商业银行已经在大数据应用建设上取得了一定的成果。随着Hadoop与对象存储的技术成熟,商业银行大数据应用逐步建设为一种存储各类格式,包括结构化、半结构化和非结构化数据的系统,也就成为了事实上的“数据湖”。然而未经治理的数据湖随着各类数据的归集,逐步成为垃圾湖,数据的分析应用开始面临ETL逻辑复杂、数据变更困难、数据不一致、数据治理困难等各类问题。
1990年,数据仓库之父比尔·恩门(Bill Inmon)提出了数据仓库的概念,强调其数据分析能力,目的是辅助企业决策。经过商业银行多年的数字化建设,数据仓库在商业银行已经有了成熟的解决方案,无论是Teradata的十大主题模型还是IBM的八大主题模型,数据仓库建设的总体思路是形成相对稳定的数据集合。面对当前银行数字化发展经营所需的灵活多变的数据分析需求,传统数仓的数据服务支持能力明显不足。
2.“高效”与“批量”的矛盾。在互联网、移动互联网、物联网时代,个性化服务、用户体验提升、智能分析、事中决策等复杂的业务需求对商业银行数据服务提出了更高的要求。相比互联网领域的客户行为实时分析系统,银行领域将面对更多来自风险管控、精准营销方面的挑战。
银行发展经营中业务服务响应的时效性要求数据服务必须在秒级甚至毫秒级的时间内返回处理结果,并在高效的数据服务时解决以下的问题:首先,在满足实时性指标的同时,具备生产环境下的高可用性和易用性。其次,在数据采集与接入环节,需要能够接入各种实时数据源和各类异构数据。再次,在数据存储和查询环节,需要对用于数据分析产生的指标进行计算和存储,需要具备同时支持热数据、温数据和冷数据查询的频率等。最后,在数据分析与计算环节,需具备实时处理过程中的复杂计算逻辑,包括糅合指标、模型、业务规则等各类计算逻辑。而商业银行传统面向批量数据交互服务的架构体系完全无法响应当前快速发展的业务需求。
3.“广度”和“深度”的问题。中小城商行通过多年的信息化建设积累了丰富的数据,但业务部门和经营单位尚未形成主动利用数据开展业务的意识和习惯,现有的数据分析应用大多是偶发的、零散的、经验性的,业务分析应用中缺乏大数据思维,大数据应用尚未形成体系。一是前瞻性数据分析应用较少。目前大量数据分析应用多数是为了满足考核管理、指标计算、营销统计、审计取数等被动需要,来自业务一线事前、主动的营销或风控数据应用较少。二是跨业务数据分析应用较少。很多数据应用都局限于本部门、本条线熟悉的信息,跨系统数据整合、公私联动、跨渠道联动、跨区域联动、本外币联动、不同类型产品和服务交叉等应用较少。三是深层次数据分析应用较少。目前几乎所有数据应用都是沿袭演绎思维,从已有经验出发,选择几个具体标准,简单过滤、匹配全量数据,获取筛选结果。而典型的大数据方法是归纳法,是在业务经验未知的情况下,通过机器学习,找出潜在规律,继而描述或预测目标。当前中小城商行中数据分析应用的广度和深度尚未充分发挥数据应用的价值。
4.“使用”和“管理”的问题。目前商业银行日常工作中仍以传统报表为主,如何在业务运营中提升数据的使用效率,如何安全合规的使用数据是大数据应用面临的重要问题。尽管城商行普遍已经建立了相对严格的数据管理体系,但是,面对大数据应用后出现的新问题,传统的数据管理体系显然无法涵盖。在数据使用方面数据使用者常会面临要使用的数据分布在哪、数据质量情况如何的问题。数据合规安全应用方面,数据的供给方又会面临数据如何有效认责、有效共享、怎样提高数据资产质量的问题。解决数据应用中的“产”和“消”的问题,优化数据分析过程中“用”和“管”的问题,将会成为解放数据束缚、发挥数据价值的关键问题。
湖仓一体数据服务架构建设实践
齐鲁银行在多年的大数据应用建设中,结合数据架构的不断演进,逐步形成了以大数据平台为基础的湖仓一体架构。基于大数据技术栈构建的湖仓一体数据服务架构实现了多湖融合、数据湖和数仓的融合基础数据支撑。通过离线数据湖、实时数据湖对数据实时集成批流融合,最终以银行业务经营分析为导向湖内建仓,数据的贴源加工、整合关联、主题加工都在湖内,加快湖仓数据加工链路,形成快速迭代、层次分明的数据模型服务。结合BI和AI能力系统建设,应用数据可视化和人工智能模型不断开拓数据应用边界,让数据应用价值看得见、数据服务体验摸得着。通过数据标准化建设、数据分类分级不断完善数据管理手段,通过稳敏结合的数据研发管理方式完成数据能力的不断提升。
图 湖仓一体数据服务架构
1.“湖”与“仓”融合,提供坚实数据基础。基于大数据技术建设的“湖”,支持结构化数据文件和非结构化数据文件的归档,有完整的结构化、半结构化、非结构化数据整合规划设计。能在数据产生周期内快速完成归档任务,支持自由的增量归档与全量归档模式,适应不同系统、不同供数周期的需求。在存储空间占用量、历史数据使用便捷性、归档成本之间取得最佳平衡。通过数据湖提供的低成本、灵活的对象存储,在一个通用平台上统一数据服务、数据分析和AI建模工作,构成了具有成本效益、高度可扩展的湖库。
基于不断治理的“湖”数据上建立的“仓”,大数据“湖”中汇聚全行100多个系统上万张表的数据资源,通过对行内各类数据分析、应用场景的分析提炼,通过对各类结构化、半结构化及非结构化数据不断整合,按照业务场景、重要程度制定不同的分级、分类为全行各类业务场景建设40000余个各类数据分析处理任务,完成了“湖”内数据融合;形成了客户、渠道、机构等10大主题的“仓”,为数据应用、分析等提供了统一的数据基础。有效提升了全行基础数据服务能力,将湖仓一体化数据平台建设成为全行的数据资源中心。
湖仓的融合形成了数据湖和数据仓库优势的新范式,在用于数据湖的低成本存储上,实现与数据仓库中类似的数据结构和数据管理功能。将数据湖的灵活性和数仓的易用性、规范性、高性能结合起来的融合架构,先让所有的数据入湖,便于自由灵活的数据分析和探索,在某个分析逐步成熟时,将其转移到数据仓库,这样就形成了数据湖和数据仓库互补的方式。
2.“流”与“批”互补,支撑全面数据服务。湖仓一体服务中“流”能力的建设,基于实时数据计算技术,实时追踪银行产品和服务的全链条状态,通过对业务行为数据的实时采集和加工计算,形成湖仓一体数据服务体系中的实时数据湖,并提供实时数据服务能力。基于实时数据计算和分析,实时感知到数据需求及时提供产品和服务予以满足,并向实时工作流的下游供数,实现数据化运营、实时监控、实时报表,提高企业的生产效率。
湖仓一体服务中“批”能力的建设,将多个异构系统之间、跨域系统之间提供统一的数据发布与订阅服务,以达到数据的采集、传输、加载、调度、查询、共享等相关数据交换功能智能化、标准化部署,进行统一数据交换服务管理。
通过数据服务能力中“流”与“批”的服务建设,形成具备实时能力的湖仓一体架构,同时满足实时分析、离线分析、实时数据服务、批量数据交换等各类数据服务支持能力。湖仓一体的数据服务已为全行营销、运营、风控等条线提供了全面的数字化支持;目前已为齐鲁银行各类业务提供实时数据服务日均达到2万次,峰值交易量近10000笔/小时。基于湖仓一体的数据服务创新成果以润物无声的方式支撑全行从零售到消贷、从公司到普惠、从线上到线下的全行金融产品和服务创新中,取得了良好的社会与经济效益。
3.“图”与“智”能力,开拓数据分析边界。湖仓一体服务中“图”能力的建设,以面向业务自助数据分析和数据可视化服务为目标。运用图形、图表、地图等多种视觉元素展示数据中蕴含的业务趋势与特点,为管理决策提供全面、精准、直观的数据支撑。所有用户(BI用户、数据科学家等)共享同一份数据,避免数据孤岛,助我行数字化管理运营更上一个台阶。
湖仓一体服务中“智”能力的建设,以湖仓一体服务架构中积累的丰富的数据指标和客户标签为数据基础,引入AI模型建设能力,以人工智能数据模型能力,通过数据的深度应用解决银行经营发展中的业务问题。通过覆盖从数据集成与数据管理、模型探索、应用开发与部署上线等全部环节,形成一站式、端到端人工智能体验,建设基于人工智能的数据深度应用的大闭环系统。
湖仓一体的数据基础是数据分析领域的未来。通过建立数据可视化分析和灵活建模的数据分析应用能力,在存储形态、计算引擎、数据处理和分析、开放性等方面全面领先传统数据分析服务。基于湖仓一体建设的数据可视化服务和AI模型支撑能力,将展现数据魅力、彰显数据价值、演绎数据视觉盛宴,更好地应对AI时代数据服务的需求。
4.“稳”与“敏”支撑,持续优化数据服务。湖仓一体服务中以“敏”的数据交付方式支持数据分析需求,商业银行数字化转型中数据快速分析、指导业务决策方面工作压力持续加码,亟需借助敏捷的组织形式和大数据的分析技术,快速响应、快速建模,实现“敏捷实施、快速投产”目标。基于“湖”中的全方位数据和“仓”中模型化、标准化的数据支撑,按照敏捷管理方法,成立面向业务条线的敏捷团队,实现各条线数据分析支持的快速创新,持续筑牢我行数据分析支持根基。
湖仓一体服务中以“稳”的数据迭代方式持续优化数据模型,结合“敏”态的数据分析成果,运用数据分析、数据建模方式,不断对“仓”中的数据模型进行分析提炼,不断迭代优化数据模型。充分发挥数据的规模效应,推动业务数据化向数据业务化发展。建设面向全行的统一数据模型服务支持,形成全场景应用的数据资产赋能各个业务条线。
湖仓一体的数据服务中,将“敏”和“稳”相互结合,不断优化升级,以数据敏捷小组、持续模型优化等工作形式,充分发挥数据驱动作用,提升数据在营销、运营、风控等金融领域的服务能力。
5.“标”与“类”管理,不断完善的数据管控。湖仓一体服务中“标”能力的建设,建设数据标准管理体系,通过对于湖仓一体服务架构中各层数据的管理,从数据的源头控制数据质量,做好事中过程控制,采用系统自动化校验和人工干预审核相结合的方式进行管理;建立数据标准化模型,进行事前预防控制,对每个数据元素的业务描述、数据结构、业务规则、质量规则、管理规则、采集规则进行清晰的定义,构建数据分类和编码体系;开展事后监督控制,通过设置数据质量检核规则、运行数据检查任务,开展事后监督控制。
湖仓一体服务中“类”能力的建设,通过对数据的分类分析,根据数据的属性或特征,按照一定的原则和方法进行区分与归类,并建立起一定的分类体系和排列顺序,以更好管理和使用数据。对敏感信息进行级别划分,确立适当的数据级别,实施有效数据安全管理。在数据安全可控的基础上持续推广数据应用。
通过数据加工分析处理过程中不断优化数据质量,根据反馈内容以及汇总日常工作实际情况,对数据的规范性、准确性、完整性,通过定制检核任务,出具数据质量检核报告与明细数据;将问题数据和可疑数据建立明确流程机制,不断进行分析纠正,通过提升湖仓一体化服务架构中的数据质量完成数据能力的不断提升。
实践经验总结
中小城商行出于IT建设能力的限制,导致很多事情没法做,但通过对于自身数据应用问题的深度分析,构建一体化的数据服务架构,通过完善的基础平台建设和分步实施的上层应用完善,逐步形成全行整体规划的湖仓一体数据服务架构,让之前被限制的数据价值得以充分发挥。商业银行能够在注重数据应用系统建设的同时,完成数据服务架构的转型,企业也就完成了数字化转型的重要命题之一。
(栏目编辑:魏亚楠)
往期精选:
(点击查看精彩内容)
● 实战 | 夯实基础,积厚成势——工商银行大数据服务平台建设实践
新媒体中心:主任 / 邝源 编辑 / 傅甜甜 张珺 邰思琪