案例丨中小银行非结构化数据治理的探索与实践
随着大数据存储和计算能力的增强,云服务、移动互联网,特别是人工智能技术的进步,得益于丰富和多样的信息量,非结构化数据较之结构化数据拥有更大的数据资产化价值空间,开始向着内容服务自动化、文本挖掘、语义分析等方面发展。目前,飞速增长的海量非结构化数据已成为诸多金融机构数字化转型的绊脚石。针对缺乏规则化的非结构化数据,以及对分散在各个存储系统中的非结构化数据开展全面的治理,进一步发挥非结构化数据的资产化价值。
非结构化数据现状
我行于2019年下半年启动数据治理项目,对各类数据资产进行了盘点,发现我行通过各类渠道汇聚了大量非结构化数据,主要有交易影像、录音录像和文档三大类。其中,交易影像主要以协议、凭证、各类证件等影像件为主;录音录像主要是营销过程中记录营销过程的相关影像材料;文档类主要涉及在业务办理过程中契约材料信息件为主。由于非结构化数据往往比较庞杂,具有管理难度大、标准不统一、应用范围广的特点,以及缺乏统一的数据管理体系和治理标准,非结构化数据治理往往存在以下问题需要重点解决。
一是缺乏基本属性和接口定义的标准规范。非结构化数据采集的源头众多,不同业务、不同渠道采集的各类非结构化数据,其基本属性的业务含义、录入规则各不相同,尚未形成统一标准规范。同时缺乏系统性的元数据管理,未严格定义基本属性规范,API接口调用时出现自由定义的字段,无法追溯其性质。
二是未实现统一分类和安全等级管理。针对同一业务批次的影像资料,无法识读同一批次内不同图片或文档所对应的类型,缺乏对单一图片或文件信息的分类管理。无法从分类角度,识读身份证、营业执照、资产证明等具体特征进行数据的分类管理。部分影像涉及个人身份鉴别信息,属于敏感数据,采用明文传输和保存,未能对影像进行安全分级及按不同分级对数据进行保护。
三是缺乏统一内容数据存储与元数据管理策略。非结构化数据建设和治理缺少规划,部分机构通过内容管理平台实现主要影像、档案相关的管理,而其他类型的非结构化数据和半结构化数据,包括XML、HTML、客服系统音频、视频等非结构化数据仍存在各自应用系统中,未实现数据的统一平台存储和管理,缺少统一的元数据管理策略,具有存储分散、建设成本高、查询效率低的特点。
四是缺乏分析型应用场景,数据价值利用率低。沉淀的大量非结构化信息尚未转化为可供识读应用的特征。对非结构化数据的应用,尚处于特征比对与数据转化阶段,用于客户分析、数据探查场景较少,未发挥非结构化数据的业务价值。
非结构化数据治理目标
非结构化数据治理旨在依托技术中台,构建全行级的影像管理基础架构,制定非结构化数据管理的统一标准,实现各种海量非结构化数据的统一管理、集中存储和高效查询,为信贷系统、柜面系统等各类应用系统提供统一的非结构化数据采集、调阅、展现、传输和存储等功能,对外提供统一的非结构化数据支持服务。促进非结构化数据流动共享,普及内容服务场景,助力数据价值变现。拟实现以下目标:一是实现非结构化数据的统一接入规范和标准;二是实现非结构化数据和结构化数据的统一存储、统一运维、统一管理和统一运用;三是实现非结构化数据的数据服务共享,挖掘非结构化数据的业务价值;四是实现非结构化数据管理平台灵活、易扩展,以及高并发、低延时的性能保障。
上海农商银行非结构化数据管理平台
规划及建设思路
我行对于非结构化数据治理统筹考量数据存储、数据标准、数据管理、数据运用和数据运维五个方面。依托技术中台架构体系,结合我行数字化转型战略,拟通过非结构化数据管理平台建设,践行“五个统一”的设计原则和治理理念,最终实现非结构化数据的统一存储、统一标准、统一管理、统一运用和统一运维的目标。
非结构化数据管理平台于2021年6月开始规划,历时一年完成平台设计、开发、测试到上线投产工作。下面具体从平台架构、服务架构和存储架构三个方面阐述。
图 非结构化数据管理平台架构图
从平台架构方面来看,主要分为三大部分,分别是业务接入、内容服务应用和数据存储底座。其中,业务接入层主要包含我行所有使用非结构化数据的业务系统,如柜面、信贷和会计档案系统等。内容服务应用主要起承上启下的作用,提供标准一体的服务,包括管理、服务运用和运维等模块内容,并提供如元数据管理、内容数据管理、生命周期管理、业务标准接口和健康运维等功能。最后是数据存储底座结合数据应用的特点,划分为热数据和冷数据的存储,实现生命周期管理。热数据存储包含结构化元数据存储和非结构化热数据存储。冷数据存储则主要进行非结构化数据冷化归档和大文件存储,如超过10MB的文件的存储。
在服务架构方面,非结构化数据管理由内容管理服务和统一操作配置门户组成。其中,内容管理服务主要提供管理非结构化数据的基础服务,比如上传、查询、更新、检入、检出等,业务系统则通过API或CD进行对接集成。对于系统相关的参数配置、用户管理、运营和监控、数据加工等服务由统一管理操作门户负责实现。
在存储架构方面,可分为统一数据管理、统一数据存储及统一运维与容灾三个部分。首先,统一数据管理方面,基于金融业务的非结构化数据存储需求,平台的底层存储主要采用巨杉数据库存储集群实现对非结构化和结构化数据等多模式数据统一存储和管理。实现影像数据管理的平台化,解决了以前非结构化数据分散存储管理带来的资源浪费、管理困难、接口不统一等问题。其次,统一数据存储方面,数据库集群作为“热数据存储”,承载了平台结构化数据(元数据)和非结构化的热数据存储。同时利用数据库的数据生命周期管理能力定期将结构化数据归档到对象存储冷数据存储中。对象存储集群主要进行“冷数据归档”和大文件存储(超过10MB),存储超过一定时间周期(如5年)的冷化非结构化数据。另外超过10MB的大文件直接通过巨杉数据库的统一接口,直接透传到对象存储集群中进行存储。第三,统一运维和容灾方面,结合数据库的多模存储和集群容灾能力,平台在同一集群中进行双中心部署,简化容灾架构,非结构化数据和结构化数据的同城机房间的数据复制由数据库底层引擎实现和保障。
展望与挑战
非结构化数据应用具有海量存储、高并发、实时性要求高的特点,同时影像数据在金融行业占据非常重要的地位,技术平台建设大幅提升了影像数据的应用能力,主要体现在以下几点:一是性能提升。巨杉数据库的分布式多分区特性,极大地提升了数据的读写性能,解决了当前行内各业务系统对非结构化数据“高并发、低延时”的性能需求。二是按需扩展能力。采用原生的分布式数据库技术,实现了数据的多模存储,解决了当前行内各业务系统对非结构化数据管理平台“按需要进行灵活扩容”的需求。三是容灾、运维能力提升。利用数据库的多模特性,结构化业务元数据和非结构化数据统一存储在巨杉数据库集群中,解决了以往结构化数据与非结构化数据独立存储,带来的“高可用和灾备成本高、难于实施”的问题,也极大地降低了运维成本。四是数据温热分层,实现性能和成本的兼顾。在线数据与近线数据分离存储的方案,解决了在线数据对性能的要求及近线历史数据对容量的要求,同时满足了平台对“性能和成本”的需求。
在持续非结构化数据治理过程中,平台实现了数据的统一集中和分类管理,还需要逐步挖掘非结构化数据业务价值,进一步加强对非结构化数据价值的探索和发挥,包含三个方面:一是在实现质检核验类的业务需求方面,非结构化数据管理平台后续将会与OCR识别平台进行对接,对影像类文件(如票据等)进行智能识别。二是在提升批量取数的效率方面,非结构化数据已有统一的标准规范,后续对于数据批量提取的操作,会借助分布式数据库的能力,进一步优化与完善。三是在挖掘非结构化数据中潜藏的业务价值方面,平台与当前的大数据技术相结合,借助OCR识别能力,以及机器学习等技术助力业务的发展。
(栏目编辑:韩维蜜)
往期精选:
(点击查看精彩内容)
● 案例丨拥抱云原生韧性,提升金融业务安全——光大银行云原生韧性思考与实践
● 案例 | “玄武”大数据平台,助力公司数字化转型——银联商务基于云平台的湖仓一体建设
● 案例|量化巨灾风险管理,提升金融保险韧性——记中国台风巨灾模型项目
新媒体中心:主任 / 邝源 编辑 / 傅甜甜 张珺 邰思琪