实战 | 湖仓一体助力平安产险数字化转型
欢迎金融科技工作者积极投稿!
投稿邮箱:newmedia@fcmag.com.cn
——金融电子化
文 / 中国平安财产保险股份有限公司科技中心 谢文峰
数据大爆发的时代,大数据、云服务、人工智能等前沿技术不断成熟并持续赋能各行各业,同样也加速了保险行业的数字化转型进程。基于对数字化浪潮的前瞻判断,平安产险布局以“场景化”“数据化”“智能化”为核心的数据智能体系建设,坚持“以客户为中心、全面智能化”两大主线,围绕“数字化核保、数字化理赔、数字化服务、数字化续保、数字化运营”五大应用场景,不断深化各业务领域的数字化转型道路。
在近几年的数智化体系建设过程中,建成的数据仓库体系涵盖了客户、标的、产品、服务、财务等10多个业务主题,构建了客户、产品、案件、车辆等方面的知识图谱体系,支撑了AI模型的大规模应用,为全面实现业务数字化和智能化奠定了良好基础。但整个体系仍存在5大痛点。
首先,数据时效慢。时效是数据价值的生命线,时效越高,数据价值越大。以保险营销服务为例,周期较短的营销活动,实时数据可以为业务带来不同产品在不同地区的销售实时分析,使营销活动在很短时间内促成热门产品或爆款产品,而不至于在活动周期接近尾声,管理人员才能全局把握产品的销售情况。
其次,数据不一致。业务数据主要存储在关系型数据库,后续同步到大数据平台进行数据清洗加工、OLAP分析、指标构建、数据决策等处理。然而财产险业务数据量级过于庞大,且数据同步工具对数据一致性保障能力较低,导致业务数据库与大数据平台两端的数据不一致,严重影响数据计算结果的可信度。
第三,存算成本高。存储方面,多状态的业务数据存在重复存储的问题;算力方面,大数据平台仍使用算力低的计算引擎MapReduce。随着业务的不断拓展,数据量不断膨胀,高昂的数据存储、计算成本尤显突出,降本势在必行。
第四,数据利用率低。相当大一部分业务数据未采集入仓,数据未能有效利用。或者数据入仓后缺乏规范化管理,例如元数据信息不准、数据字典不完善等问题,导致数据人员找不到数据,或者是找到数据看不懂、不可信的用数难情况。
第五,大数据与AI应用割裂。数据是AI的基础,而AI的应用又促进业务产生更多的数据。当前平安产险融通多业务多渠道数据,为AI提供深厚数据基础,但AI获取到数据后,缺乏回流大数据的服务环节,数据不闭环导致AI模型准确率难以持续提高。
湖仓一体系统架构简述
结合平安产险数智体系5大痛点,对大数据技术做全面调研,通过对湖仓一体技术的产生背景及其架构原理做出深度剖析,最终选定该项技术来解决以上痛点问题。
随着近些年来业界大数据技术的不断演进,在数据分析利用方面,其广度和深度都在不断地向外延伸,数据的类型、来源和分析场景都更加多元化,同时基于异构数据的融合分析也成为数据价值挖掘重点关注方向。为了满足逐渐复杂的数据分析需求,企业的数据平台架构也在持续演进,单一的数据湖和数据仓库架构已无法有效满足未来数据分析和智能化应用的发展趋势,而湖仓一体打破湖与仓之间的技术壁垒,作为一种新型开放式数据平台架构,近两年来逐渐在业界受到推广应用。
湖仓一体并非简单机械地互通数据湖和数据仓库的数据,而是将数据湖和数据仓库的优势充分结合,其构建在数据湖低成本的数据存储架构之上,又继承了数据仓库的数据处理和管理功能,兼容数据湖数据多样、灵活计算和数据仓库质量安全、高效治理等各自体系的优势,让数据和计算在湖和仓之间自由流动。基于开源生态的主流湖仓一体解决方案,采用存算分离的架构,通过构建统一的元数据管理体系,对上层计算引擎实现抽象,用户可以根据自身需求使用不同引擎进行湖仓数据的统一处理和交互式查询,对外提供不同类型的服务。湖仓一体平台具体架构如图1。
图1 平安产险湖仓一体架构图
通过对元数据的统一抽象,实现海量多源异构数据的统一存储及治理,避免数据在湖仓之间重复存储,并恶化为数据沼泽。在计算层利用统一的资源调度框架来支持多计算引擎的兼容及弹性计算。通过对底层架构的抽象,向上层应用提供统一易用的交互式数据分析查询接口,可以实现多模态数据的融合分析,支持离线、实时多样化的业务处理链路。该架构既能发挥出数据湖的灵活性与生态丰富性,又能兼容数据仓库的稳定性与企业级数据治理能力,帮助企业建立数据资产,实现数据业务智能化,推动数据驱动下的企业数据智能创新,全面支撑企业未来大规模业务智能落地。
湖仓一体在平安产险数字化实践
针对湖仓一体基础建设和生产实践,产险在业务营销、财务、资源、理赔等多种场景下进行了应用,在数据基础生态和平台降本增效等方面的能力得到快速发展和沉淀。
1.提升数据时效,支持业务营销
数据实时应用是产险数字化转型过程中面临的一项挑战,传统的数据加工链路相对较长,数据应用的时效具有一天以上的延迟性,数据的实时加工应用是业务未来发展的必然要求,但实时的技术架构与平台现存的离线架构存在着割裂的矛盾问题。
平安产险在建设湖仓一体架构时,应用具备前后兼容的数据湖组件来同时支撑实时和离线架构,可以有效保护现有数据平台资产,实现资产利旧,并完成对业务应用的基础数据支撑。数据湖和数据仓库采用一体化设计,减少数据加工的链路,关键业务线加工链路时效从1天提升至1小时内。根据业务场景的数据加工和应用特性,其中部分业务线可实现全链路实时计算,其指标结果、报表明细可实时地服务于上层应用的用数人员。
以平安产险518、618等节日营销活动为例,如图2所示,离线计算架构升级为实时计算架构,活动当日实时总成交量、机构队伍实时交易量、活动营销实时转化率等指标,可以实时服务于现场的运营团队,支撑其对活动进度的整体把控,辅助其完成对分支机构和各渠道的活动激励加权,以及实时挖掘爆款产品可能性。
图2 活动运营大数据架构升级
2.数据一致
传统的数据入湖在数据传输过程中难免会出现数据一致性的问题,同时缺乏有效的数据监控校验的手段。以上问题会引起数据丢失的现象,导致全链路任务的重新计算,不仅延迟了数据的应用时效,还将会带来额外的计算资源成本和数据校验的人工成本。
平安产险构建新型湖仓一体平台架构,其数据同步入湖的过程支持使用Flink-CDC(Change Data Capture)技术来实时监测并捕获源端数据库的动态变化,通过解析数据的动态变化来完成数据的同步,为数据开发人员提供一种标准化、一站式、端到端的数据同步方案。并且数据湖使用的Flink-CDC技术支持“精准一次”的语义,可以保证捕获的数据变化信息在传输过程中不会丢失,从而确保数据的一致性。
以平安产险核心财务的业务场景为例,单张核心业务表数据体量达到200亿,且对数据的一致性要求达到100%,以往数据同步出现数据丢失的现象,通常由下游业务人员核对后才能发现,补救措施需从源端数据库进行业务数据的全量抽取,在大数据平台完成数据的覆盖写入,后续加工链路的任务需全量重新计算,数据的应用时效往往延迟几天。而应用湖仓一体架构后兼容新型Flink-CDC的数据同步技术,从源头保证数据计算结果的可信度,降低了后续一系列的数据处理复杂度。
3.资源降本
随着大数据业务的不断拓展,高昂的数据存储、计算成本势必成为平台亟待解决的难题之一。在计算方面,平安产险大部分历史任务仍然是MapReduce作业,不仅CPU算力利用效率低,而且任务耗时长。在存储方面,数据仓库需要对业务数据的多种历史状态进行存储,对于数据量十几亿甚至几十亿的大表来说,多状态、多版本的数据保存往往会带来高昂的存储成本。
平安产险建设湖仓一体架构向上兼容多种计算引擎,通过对湖仓数据构建统一的元数据管理层,实现对多种计算引擎的解耦,高度统一用户的开发体验。数据不仅可以在湖仓之间无缝流转,同时也支持数据开发人员使用多种高算力引擎。例如Spark、Flink、Presto对数据进行提取与分析,极大地提升了任务计算效率,降低了算力成本。同时,湖仓一体架构支持对数据进行多状态版本的存储,避免全量数据的重复存储,降低了存储成本。目前产险数据湖已完成三分之一的作业从Hive引擎迁移至Spark引擎,所属改造任务的时效提升60%以上,其CPU算力成本节约50%以上。
4.提升数据利用率
当前平安产险总数据量级较大,如将每个数据块的价值叠加利用,则应用总体价值十分可观,因此提升数据利用率势在必行。提升数据利用率,则需要优先确认数据来源、数据类型、数据潜在价值等,这样才能确保数据被高效地查询检索、读取加工、分析利用。例如理赔的图片、音视频数据分散在多个存储系统,数据的存放位置、数据结构的复杂程度、数据是否值得挖掘以及参与AI模型训练,以上问题都是理赔数据分析师和算法师常遇到的痛点。湖仓一体技术在理赔业务的落地,较好地解决了这些痛点。首先,具备结构化和非结构化数据集成的平台能力,有统一的元数据为分析师和算法师检索数据,解决查数难的问题。其次,湖仓一体技术与高算力引擎结合度很高,为分析师和算法师提供对数据结构、内容快速探索能力,解决读数难的问题。第三,分析师和算法师了解数据结构及内容后为数据打价值标签,可提升数据的可用率和复用率。
5.大数据+AI提升业务能力
人工智能和机器学习已经在不同程度地影响着各行业的业务模式,AI通过处理和整合数据来支持战略决策的制定,其规模和速度远远超过了传统技术。而平安产险拥有海量数据,将能从“产品+AI”中获得较大的收益。
以平安产险AI外呼为例,从数据收集、数据融通、模型训练、智慧化调优、模型应用5个方面组合成大数据+AI的产品应用环路,如图3所示。
图3 大数据+AI能力在产品上应用环路
数据收集:通过数据采集工具,完成所有产品数据的采集和接入。
数据融通:基于湖仓一体技术,整合了产险内外数据,让数据价值更具体化、信息化,为AI智慧学习提供数据基础。
模型训练:通过不断迭代的数据,持续升级AI的模型,使得AI在海量数据中形成有用的知识,让AI更理解客户的保险需求。
智慧化调优:AI“吸收”海量知识,形成自己智慧,可以“了解”和“读懂”投保人的保险需求。
模型应用:具备“智慧”的AI人,则如同自然人般为客户服务,指导客户完成投保流程;AI的工作效率更高,其出错率相对自然人更可控。
总结和展望
湖仓一体技术在平安产险的成功落地,不但解决了数据时效性、数据准确性、数据成本高等方面的问题,还通过大数据与AI技术的充分融合,大大提升了业务的智能化水平,为公司的数据化转型提供了关键的驱动力。
数字化转型在各行各业正如火如荼地进行着,面临市场和行业格局的变化,唯有不断提升企业自身的经营水平,才能在这场潮流中激流勇进、赢得先机。科技在这场变革中显得越来越重要,“科技是第一生产力”的内涵在新时代的潮流中衍生出了新的生命力。而大数据与人工智能技术,就是赋予这句话新生命力的核心力量。在金融企业的数字化转型浪潮中,唯有牢牢把握住大数据与人工智能技术,并持之以恒地投入和创新,最后必定如一座孕育已久的火山一样,在企业经营中迸发出惊人的能量。
(栏目编辑:韩维蜜)
往期精选:
(点击查看精彩内容)
● 实战 | 夯实基础,积厚成势——工商银行大数据服务平台建设实践
新媒体中心:主任 / 邝源 编辑 / 傅甜甜 张珺 邰思琪