案例 | 数字化转型下的影像平台探索及实践
近年来,随着金融科技与互联网金融业务的快速发展,国内金融机构推行柜面无纸化、档案电子化的业务办理方式,大量的业务过程资料如票据、凭证、文件、合同等转换为图片、电子文档、音视频等非结构化数据,需要在线提交、审核和保存,商业银行非结构化数据呈现爆发式增长趋势。
四川农信是全省业务规模最大、服务网络最广的银行业金融机构。随着业务的快速发展以及办理方式升级,传统纸质凭证逐渐被电子档案替代。在数字化业务发展的带动下,行内的非结构化数据快速增长,原有内容管理平台难以支撑海量非结构化数据存储需求,也面临非结构化数据共享难、处理效率低下、缺乏容灾能力等问题,在一定程度上制约了业务的发展。
数字化转型下的影像平台建设
我社影像平台自2013年上线以来,已为30多个业务系统提供非结构化数据存储服务,随着非结构化数据的快速增长,影像数据已达187TB,共7亿个,日均新增200万个。随之而来的问题也日益突出。
1.非结构化数据处理效率低。原平台采用了“NAS存储+关系型数据库”的传统影像数据存储方案,面对日益增长的海量非结构化数据,原平台读写性能难以满足对非结构化数据“大容量、高并发”的处理要求。
2.数据难共享,业务拓展受阻。原平台的非结构化数据存放在各市州分中心,造成行内非结构化数据共享效率低,客户在异地办理业务中存在诸多限制,体验欠佳,从而制约了业务发展。
3.缺乏容灾能力,需更符合监管要求。因技术难点与成本投入等问题,原影像平台未实施容灾备份,难以满足我社业务连续性要求及监管要求。
2018年四川农信确立了由集中式向分布式全面转型的IT架构发展道路,开始全面拥抱分布式技术。2020年我社启动了建设新影像平台的技术方案调研,最终选用“信雅达影像应用平台+巨杉分布式数据库作为影像后端存储”解决方案。该方案使用分布式存储替代原来的文件系统存储,但保留二级缓存架构。省中心作为主中心存储线上业务影像数据以及全省柜面业务数据归档存储,各个市州设立分中心存储辖内网点的柜面业务影像数据。各分中心之间可以相互访问影像数据,实现各市州影像数据共享。信雅达影像应用平台采用微服务架构、容器云化部署,实现了应用维护轻量化、快捷化,应用资源配置弹性灵活化。
2020年10月,我社新影像平台正式上线,包括1个主中心、20个分中心,整体架构由业务应用(前端)、影像服务(中间)、数据存储(后端)组成,先后接入了智能柜面、贷款业务、电子验印、人脸识别等数十个业务系统。
该平台利用分布式数据库建立二级缓存架构,各市州柜面业务的影像数据暂时存放在本地,再由后台定期迁移到主中心进行归档保存。该方案减少了各行社与省中心之间的网络流量,提高了整个系统的吞吐量。下表是在配置有9台X86服务器、每台12块HDD盘(SATA接口)的环境上,进行并发上传、并发下载的测试结果。
表 新影像平台数据测试结果
综上,基于“巨杉分布式数据库”及“信雅达新一代数字化影像应用”的新影像平台采用微服务架构,体现出轻量、敏捷的应用特征,实现影像元数据与影像内容数据的统一管理,降低开发成本,大幅提升性能容量,具备随需横向扩展能力。采用全部国有化解决方案,符合我社自主安全可控的技术要求。
新影像平台存在的问题及优化改造
新影像平台上线以来整体运行平稳,实现了业务数据实时共享的设计目标,可满足全行的非结构化数据处理需求。但随着业务的快速发展,省中心系统也逐步开始承接业务,且相比各市州分中心的业务量更大。受二级缓存架构耦合性等因素影响,影像数据异地访问延时过大、整体可用性受网络环境影响大、缺乏统一数据生命周期管理、资源利用不均、各分中心对分布式存储运维能力不足等问题随之浮现。
2022年,我社启动了对新影像平台的二次升级改造(如图所示),以此来推进资源整合,实现降本增效。为了向各个业务系统提供更好的影像数据服务,本次升级改造主要包括以下几个方面。
图1 影像平台二级缓存架构
1.采用直连省中心模式,缩短数据访问链路,提升数据服务可用性。随着网络专线资费的下降,影像数据存储去掉分中心缓存,所有非结构化数据统一访问省中心存储,降低系统耦合性,避免系统内部跨中心访问,由省中心存储进行统一数据存取和管理,降低运维成本和管理复杂度。
2.实现数据生命周期管理,提升数据管理效率。所有分中心存放的历史数据将迁移至省中心,并实现影像平台数据的统一生命周期管理。同时,对业务数据进行动态分域管理,在存储资源上进行逻辑、物理隔离,实现集群内业务数据相互独立存储,提升数据管理效率。
3.推进资源整合,提升平台稳定性及安全性。新影像平台通过“2+1”容灾部署架构,实现全量数据访问服务的持续可用,进一步提升平台的稳定性及安全性。
图2 省中心架构图
从整体架构来看,升级后的新影像平台统一部署在省中心,实现了结构化数据与非结构化数据的统一管理,省、市的业务直接访问省中心的影像服务,有效提高跨市业务的访问速度,同时也提高了硬件资源的利用率,大幅降低了运维复杂度。
从数据存储层来看,利用分布式数据库集群的天然优势,将集群划分为若干个数据域,每个域采用独立服务器,分别存放不同的业务数据,实现业务数据的分域管理。对集群元数据划分专用数据域,独立存放。
从数据服务层来看,实现了对影像数据的归档和生命周期管理。通过对硬件资源的差异化配置,新建归档域或归档集群,并灵活设置影像数据的保留期限,超过保留期限的数据自动归档到低成本的存储资源上。在线影像数据访问配置高性能服务器,以提高数据读写性能、缩短响应时间。而超过保留期限的影像数据则自动归档至归档域或归档集群,配置低性能大容量的服务器,归档接口支持SequoiaDB、对象存储、NAS、HDFS等。
总结与展望
经过近年来对新影像平台的探索与实践,我社先后两次对影像平台的建设与升级,一是采用分布式数据库作为非结构化数据存储,二是取消了两级缓存架构。新影像平台优势主要体现在以下几点。
1.打通数据屏障,实现非结构化数据实时共享。新影像平台基于分布式数据库的集群高可用和分域管理能力,各行社直连省中心进行统一存储和管理,极大的提高了跨市业务的访问速度,提升了客户体验。
2.突破性能瓶颈,提高影像平台数据处理效率。基于巨杉分布式数据库的新影像平台解决方案,共部署69台分布式集群服务器,为各业务系统提供统一的影像数据采集、导入、存储、管理、查询等功能,支持高并发、高性能、灵活的数据访问,提升集约化与数字化运营水平。
3.推进资源整合,实现降本增效。新影像平台利用分布式数据库弹性扩展的特性,有效解决了海量非结构化数据存储及未来可以按需横向扩展的需求,实现了对成本的灵活控制。
随着越来越多“金融+”项目的出现,对海量非结构化数据价值的挖掘与释放,也将带来新的思考与挑战。一是平台接入更多业务系统,实现对全量数据统一管理。借助分布式数据库的多模能力,实现对结构化、半结构化、非结构化数据的统一存储和管理,进一步提升在生产业务运行时对于数据一致性及可靠性容灾的要求。二是对于非结构化数据的治理和价值挖掘。结合当下的大数据技术,平台从对非结构化数据的存储留档升级到基于各类AI识别、机器学习技术开展数据比对、复核及挖掘等应用,助力业务发展。
未来我社将继续紧跟时代步伐,充分发挥金融科技在业务创新中的优势,为业务发展提供稳定的技术平台,助力银行业务数字化转型。
(栏目编辑:魏亚楠)
往期精选:
(点击查看精彩内容)
● 案例 | 坚守质量标准,稳步推进转型——重庆银行的 TMMi 创新实践
● 案例 | 以金融科技打造跨境支付基础工具——CIPS标准收发器项目介绍
● 案例 | 建设国家金融基础数据库统计平台,推动金融业综合统计高质量发展
● 案例 | 智能一体,防微杜渐,着眼未来——光大银行数据库平台云创新实践
● 案例 | “玄武”大数据平台,助力公司数字化转型——银联商务基于云平台的湖仓一体建设
新媒体中心:主任 / 邝源 编辑 / 傅甜甜 张珺 邰思琪