实战 | 深化“湖仓一体”, 夯实数据应用基础
欢迎金融科技工作者积极投稿!
投稿邮箱:newmedia@fcmag.com.cn
——金融电子化
文 / 中国人民财产保险股份有限公司科技运营部
近年来,中国人保财险深入贯彻落实中国人保集团“卓越保险战略”,始终坚持创新引领,持续强化数字化支撑的发展基础,围绕业务信息标准化、核心系统一体化、交易系统客户化,推动企业数据架构“湖仓一体”的转型升级,彻底打破信息孤岛,实现数据集中共享,助力高质量发展转型。
持续实践“湖仓一体”建设
人保财险“湖仓一体”数据平台采用原生分布式数据库,实现海量数据的统一存储管理,具备可扩展、低成本、高并发的特点。在大规模数据接入方面,通过全量数据平台和大数据资源平台统一管理内外部入湖数据,实现存算分离,提升整体架构在容量和高并发方面的可扩展性。在数据加工与处理方面,基于“湖仓一体”的多模数据存储及处理能力,实现数据仓库层面的业务建模和大数据前沿技术落地,支撑上层数据发布与应用需求,通过统一数据交互服务系统支撑数据触达前端交易系统和门户。此外,基于数据治理体系要求,提供统一的数据标准规范和质量检测工具。
1.大规模数据接入。数据湖的数据接入,面临着数据源种类多,数据类型复杂的难点。结构化数据方面,全量数据平台采用基于数据库日志的数据变化捕获方式(ChangeDataCapture),解析源端数据库逻辑日志,提取数据变化流,之后再由数据流消费程序同步到全量数据平台分布式数据库中,实现数据的引流入湖。半结构化数据方面,大数据资源平台采用基于文件的数据入湖,根据数据应用和挖掘建模需要采集和存储影像、语音、图片等半结构化、非结构化文件数据,为下一步加工处理提供基础数据。湖仓建立了统一的数据通道,避免不同的数据使用方频繁从生产数据库抽取数据从而影响交易系统运行。统一数据通道的数据同步吞吐量和并发度可以根据不同库表的数据时效性需求进行调整,精细化地控制投入成本,这种数据同步方式具有低延迟、对源端影响小、增量捕获精确等优点。经过持续积累和优化,目前已经自研实现了PostgreSQL等数据库的全链路同步接入,接入数据源近200个。
2.多模态数据存储及处理。人保财险湖仓平台提供多种数据处理引擎,以满足数据计算需求,同时适配批量、实时、流式等特定计算场景,支持关系型存储、宽表存储、搜索引擎、图存储、键值存储等多种数据模型,数据量达PB级。一是结构化数据采用通用语义层、集市层及用户层的多层结构。通用语义层根据保险行业及公司业务特点完成了面向主题的统一数据分析视图处理,便于支持各类分析、生产辅助系统的数据应用;集市层则是面向应用进行部门级、分公司级别的数据汇总处理,所生产的数据支持用户层的查询、决策等服务需求。二是常规化宽表存储,有效提升数据链完整性。例如,平台建立了“以客户为中心”的客户画像标签,按照客户维度对客户投保、承保、加保、续保、脱保、理赔等保险业务全生命周期的数据进行完整的计算存储和横向拓展,利用湖仓平台行列混合存储特性,极大提升查询和处理效率,提高了客户画像标签服务业务系统的效能。三是采用半结构化方式存储用户层数据。利用PostgreSQL引擎、MySQL引擎和Spark引擎,配合元数据信息,将半结构化数据映射为结构化数据,为最终用户提供统一的使用体验。其中PostgreSQL引擎和MySQL引擎主要用于满足实时的小数据量查询,Spark提供分析能力,突破了传统分析引擎的I/O瓶颈。四是对于非结构化数据,使用对象存储方式,并提供标准应用接口,方便应用对接迁移。
湖仓平台对数据处理的核心功能进行组件化封装,提高了数据加工处理的灵活性和生产效率,同时大幅降低了运行维护成本。通过研究业界的各类分析模型,结合管理重心,逐步建立了完善的企业数据模型,对各类标准数据指标算法进行封装。同时,通过内建企业数据分析模型,有效支撑各类指标数据获取需求,保障数据算法一致性,从而从技术和业务两个层次上夯实数据处理、应用一致性的基础,有效化解了数据孤岛问题。
3.多集群算力架构。湖仓平台采用国产MPP数据库组成多集群算力架构,根据各应用系统在数据计算和分析需求方面的不同特点,提供有针对性的数据服务和数据算力,既充分发挥了硬件设备的性能,又避免了各应用系统在数据计算峰值压力下的相互影响。同时,各集群间通过高性能数据同步框架,支持以分布式方式对各集群的海量数据进行高速同步。一是基于数据平台支持多租户共享,使数据模型和算力可支撑多系统的算力需求。二是基于数据库分布式部署方式,多台X86服务器组成统一的算力集群,随着新设备的加入,集群可实现弹性扩展,有效解决需求增加带来的算力瓶颈问题。三是为用户提供可灵活调配的高性能存储资源,基于数据库本身的备份机制和平台多集群部署方案提高了系统的稳定性。
4.数据分析及应用。基于湖仓开展数据分析与应用是公司经营管理的重要支撑。一是承载BI分析应用。支撑监管上报、经营分析、生产作业监控、数据质量监控、风险预测及控制等多类BI应用。一方面满足监管要求,提供高质量监管信息统计、审核、报送一站式服务,另一方面适应经营转型需要,充分发挥数据服务的经营决策支持能力。二是深化客户数据应用。绘制覆盖客户基本信息、业务特征、资产情况、价值贡献、行为预测等维度的客户画像,基于客户画像构建以“客户为中心”的智能化运营模式,聚焦精准营销、风险识别、理赔反欺诈和精准送修领域,充分发挥客户大数据支撑能力。三是开展大数据应用。“湖仓一体”架构夯实了底层数据基础,提高了数据采集的频率与质量,为大数据模型的研发提供了较宽的、可用的、可信的数据时间窗口,保障了入模数据的质量和可靠性。在大数据模型应用方面,高频次的数据结果反馈可以快速掌握模型结果分布情况,为模型的持续迭代升级提供数据支持。四是外部数据资源价值挖掘。目前已引入企业数据、健康医疗数据、身份核验数据、气象灾害数据、地理测绘数据等,弥补内部数据维度不足,支撑营销销售、产品定价、风险管控、数字化运营等领域的场景化应用。
面临的挑战
“湖仓一体”仍是一个持续发展的领域,涉及面广,专业化程度高,对建设和运维有着更高的要求和挑战。一是需持续提升湖仓的灵活性。随着支撑的各类数据应用数量越来越多,模型计算的复杂度和更深层次数据应用的要求也越来越高,数据服务范围也越来越广,需要更加充分有效地利用当前各类资源,强化服务的灵活性,为上层数据应用提供更加便捷的服务方式。二是需持续加强技术创新。大数据及相关技术的发展已对保险数据应用产生深远影响,与保险行业紧密相关的用户消费信息、用户行为信息、宏观经济数据、行业市场环境等数据的存储量大、种类繁多、实时性强,通过大数据技术洞察有价值信息从而进行更加深入的应用面临新的挑战。三是需不断提升算力能力。多集群、多服务的数据处理需强大的算力支撑,保障持续、稳定的算力还有很长的路要走。
思考与展望
面向未来,人保财险将进一步贯彻落实中国人保集团“卓越保险战略”,围绕数据要素价值挖掘,持续建设完善“湖仓一体”全链路数据服务平台,提升数据获取、处理和洞察能力,以数字化为支撑提升运营服务效率。一是数据层面,持续完善结构化、半结构化和非结构化数据的统一应用和治理体系,尤其是挖掘半结构化和非结构化数据价值,不断提升海量数据入湖的治理能力和应用效率。二是平台组件层面,推进管理视角下的组件产品化,加强数据管道、流程调度服务、指标仓库、元数据中心、维度建模中心、数据质量检核、数据接口中心、数据测试实验室等产品组件的建设,进一步提升服务能力和产品化品质。三是算力层面,合理规划,形成服务集群,有效提升硬件资源的使用效能,提升数据算力引擎的规模化效应。同时,持续加强大数据算力引擎和机器学习计算引擎的投入,有效输出流式计算服务、大数据计算服务、统一数据存储服务和模式识别算法服务,为数据价值的深度挖掘提供算力支撑。
(栏目编辑:韩维蜜)
往期精选:
(点击查看精彩内容)
● 实战 | 夯实基础,积厚成势——工商银行大数据服务平台建设实践
新媒体中心:主任 / 邝源 编辑 / 傅甜甜 张珺 邰思琪