建信金科陈铭新:以数据建模与应用为银行赋能
随着云计算、大数据、物联网、人工智能、区块链、5G等新技术的广泛应用,全球加速进入“万物互联、泛在智能”的数字经济时代。在此背景下应运而生的新金融,是以数据为关键生产要素、以科技为核心生产工具、以平台生态为主要生产方式的现代金融供给服务体系。
在新金融体系下,数据已成为关键的生产要素,通过采集和整合金融机构自身业务系统数据、生态场景中的用户行为数据,以及物联网数据等全域数据,沉淀并形成可共享、可复用的数据资产,充分挖掘其内在价值,尤其是与不同金融场景相结合所产生的价值,并通过平台生态的生产方式,智能合理地配置金融资源,引流至民生环境的改善和弱势群体生存发展领域,以及未来真正需要经济资源滋润的领域,不断提升金融产品的种类和服务的质量与效率。从数据采集、集成整合、数据价值挖掘、共享服务能力四个维度形成数据价值、数据服务和数据运营闭环,让数据来源于生态场景,又反哺服务于生态场景,数据能力建设也因此成为助力金融机构推进数字化转型的主要抓手。
金融机构数据能力建设赋能
近年来,各家商业银行纷纷沉淀金融科技能力,开始建设数据中台,构建可信、一致、准确、完整、及时、好用的数据管理体系,强化自身数据能力建设,全面服务第一曲线和第二曲线的业务经营层面,赋能产品、流程、体验、运营和风控等方面,提升数据要素价值创造力,满足新金融体系数字化转型的要求。
数据中台是提供企业级数据与分析能力的智能中枢,是全域数据供应网的核心基础设施,通过聚合和治理跨领域的海量数据,将数据抽象封装成数据产品和服务,为业务中台和业务前台提供可共享、可复用的数据能力,是集中体现企业的“数字力”(即企业级数据获取、管理和运用的能力)水平的标志性载体,打造开放共享的数据经营文化。数据中台的核心能力包括以下几个方面。
第一,全方位的数据采集能力:支持多渠道、多类型、多方式的数据获取,提供大吞吐量、插件式、可配置的数据采集能力;支持拓展采集社交场景的用户行为数据,以及网点、供应链、普惠金融场景的设备、环境等物联数据;基于多方安全共享,支持工商税务、金融市场行情、互联网舆情等外部数据合作,丰富数据的维度和粒度。
第二,高效海量的数据计算能力:支持海量处理、弹性伸缩,提供高性能数据检核、清洗、转换、加载和多异构数据库的数据集成能力,提升数据供给的时效性;按照统一的数据模型和实施工艺,对内外部多种类数据进行全方位的链接和融通,打通不同部门、层级与不同行业间的数据孤岛,实现明细数据、衍生数据的集成与整合,形成企业级、一致、共享可信的全景数据视图。
第三,灵活的数据服务能力:支持高性能、高并发的数据服务,建立以数据分析挖掘为中心的友好用数环境,支持各类数据用户敏捷地开展数据分析和构建机器学习模型,实现“将数据交给业务人员”的目标,即时赋能业务,打造“衣食住行教娱医公共服务”及社会治理生态样板间,支持扩展客群、营销触达等应用场景。
第四,企业级的数据资产管理能力:基于统一的数据标准和模型方法,从数据的定义、产生/加工、关联、资产盘点、评价与运营等各阶段,将企业的数据资产统一管理起来,实现数据资产的可见、可懂、可用、可评价和可运营,让数据越用越多、越用越好,提升数据价值,最终实现对业务的深度赋能。
第五,数据安全运营能力:支持全渠道、全产品、全场景的客户隐私数据授权管理,建立数据分级、分类授权体系,支持字段级的精细访问控制,支持数据的使用行为分析、异常操作的监控和阻断,构建客户授权统一视图,提供金融级数据安全和运维保障能力。
数据中台的数据模型建设探索
数据中台是把多源、异构、分散的数据进行关联、融通,加工成为重要生产要素的高能转化器,数据建模设计是保证数据完整性、一致性与准确性,并实现数据共享的基础,也因此成为数据中台建设的基础。
建模思路
数据中台的数据模型设计既要满足数据中台全域数据的整合和统一管理、数据应用共性需求沉淀复用的总体目标,又要确保数据可信、数据单点加工、数据路径全局最优的基本原则。
以往的数据类系统(OLAP)较常采用的维度建模方式,可满足多维分析的“上卷、下钻”场景需求,但维度建模并不强调企业“单一业务真相”的概念,缺乏明确的企业级数据建模过程,很难保证数据的一致性和准确性,不适用于数据中台整合数据模型的建设。
基于对数据模型设计经验的归纳,并结合范式模型和维度模型的特点,探索、总结、提炼出一套统一的、体系化的粒度建模方法,以“数据粒度”为核心概念,将来源于各个系统或应用的数据从企业全局的角度按粒度进行定义,并对归属同一数据粒度的数据项(属性)作合并同类项处理,包括同名同义属性去重、同名不同义属性拆分、同义不同名属性合并等,保证数据的单点加工,为数据分析应用提供全局、统一、一致的数据资产。
数据中台模型的构建过程并非从零开始,而是在原有数据模型资产基础上的继承和完善,采用粒度建模方法,整合原生数据及所有应用的衍生数据,对跨业务领域的数据作标准化处理,抽取通用业务逻辑,优化数据路径,解决数据重复计算、数据不一致等痛点,通过模型的共建及共享机制建设,形成完整统一的数据模型。
总体设计思路是,以企业级业务逻辑模型、数据字典、数据标准、数据规范和数据需求为输入,按照数据调研(包括业务调研、需求调研)、主题域模型设计、概念模型设计、逻辑模型设计和物理模型设计逐层细化,最终输出数据中台整合模型(见图1)。
图1 数据中台模型设计思路
模型设计
整合逻辑模型作为数据中台向用户暴露与提供的数据能力和业务能力的总览,是可以直接支持相关人员自主查数、用数的数据资产清单,是数据中台的统一数据视图。
整合逻辑模型按照“一级数据域—二级数据域—三级数据域—数据粒度”的框架进行设计,具体包括数据调研、模型满足度分析、数据域设计、粒度分类设计和属性设计等过程(见图2)。
图2 整合逻辑模型框架
在逻辑模型层面,实体与粒度是一对一的关系。同一数据粒度的所有数据项在逻辑上都属于同一实体,因此每个实体都是数据粒度的“宽视图”(见图3)。
图3 个人客户粒度示例
建设效果
基于粒度建模方法建设数据模型,可以从根本上保证数据的完整性、准确性、一致性和易用性,提升数据时效性,推动数据的整合与共建共享,全面提升数据价值,支持更多用数场景,为数字化经营提供支撑。有如下几个特点。
第一,全域整合:继承、重构和完善金融机构现有的数据模型资产,按数据粒度构建全域整合模型,覆盖应用使用的所有具有业务含义的原生和衍生数据;第二,内外连接:通过各类识别特征,将银行内部数据与集团数据、生态平台等外部数据进行链接和融通,避免数据孤岛;第三,一套标准:整合模型严格遵循企业级数据规范,所有数据项都纳入企业级数据字典管理,实现企业级的“书同文、车同轨”;第四,单点加工:通过挂接属性合并同类项,进行去重、拆分、合并等处理,确保属性定义无二义性、数据单点加工,避免“一个数据多点加工”带来的数据冗余及数据不一致问题;第五,提升时效:遵循整体最优原则,通过路径穿透分析,优化数据加工路径,整合与下沉公共衍生数据,加工前移,确保数据路径全局最优,避免数据间网状依赖及多层依赖带来的时效性问题,提升数据的复用性和时效性;第六,易于使用:根据面向业务的“多级数据域+数据粒度”的设计框架,组织企业级业务对象大宽表,使数据变得可阅读、易理解,方便业务人员直观、便捷地使用数据;第七,敏捷交付:通过公共衍生数据等基础数据能力的整合和下沉,实现应用的敏捷快速交付。
数据中台数据资产建设与运营
数据资产是有价值的、能带来未来经济利益的数据资源,是金融机构开展数字化经营和管理活动的基本生产要素。采用粒度建模方法建设数据模型,有助于从整体视角直观地反映企业级业务活动模式的本质,了解数据的业务规则。而企业级数据资产管理,提供企业级的全面、清晰和易用的数据资产(数据业务规则)的统一管理、分析和共享服务,则有助于创造和提升数据价值。因此,数据资产的建设与运营,是数据中台建设的重点工作。
数据资产体系
根据数据在数据中台架构中的定位、数据的产生方式和应用场景,可以将数据资产划分为基础数据资产、集成数据资产、萃取数据资产、应用数据资产、数据规范资产等。
基础数据资产来源于数据采集层和业务应用,主要包括已采集的原始数据及未采集的系统数据,如贴源数据物理模型、应用物理模型等。基础数据资产须满足业务逻辑模型和企业级数据字典、数据架构管理要求。
集成数据资产主要来源于数据整合层,是把不同来源、格式及特征的基础数据在集成环境中进行集中、整合,形成企业级单一视图的数据,例如整合数据。
萃取数据资产来源于数据产品层,是面向业务对象匹配业务需求,对基础数据、集成数据进行抽象、分类、提炼、加工后产生的,具备同一粒度,且更适用于业务场景的数据,例如指标(定量类)、标签(定性类)等。
应用数据资产来源于数据整合层、数据产品层和数据服务层,是为满足最终业务应用场景,通过对基础数据、集成数据和萃取数据进行组织、封装和再加工等方式,形成的数据驱动应用和服务,例如报表、报告、可视化展示视图、数据服务接口,以及计算逻辑(包括标签的加工规则、指标的统计分析逻辑、复杂计算模型、人工智能模型、图算法模型、分析挖掘算法)等。
数据规范资产是业务数据统一化、结构化、标准化的数据定义和规则,例如企业级数据字典(覆盖所有基础元数据需要的数据标准和数据规范)、业务逻辑模型(覆盖所有业务基础信息的逻辑模型和数据标准)等。
数据资产建设
数据资产的建设内容,包括数据资产盘点、数据资产类目体系构建、数据资产多维画像和数据资产管理平台建设等。
数据资产盘点。基于数据资产体系,逐步开展数据资产的全面识别、采集、梳理和盘点,摸清数据家底,掌握数据分布,解决“数在哪”的问题(见图4)。
图4 数据资产盘点
数据资产类目体系构建。构建数据资产类目体系,从数据内容出发,建立多维度、全域数据资产版图,方便不同类型用户按照用数习惯查找数据,解决“找数难”问题(见图5)。
图5 数据资产类目体系
数据资产多维画像。在构建企业级统一数据资产目录的基础上,给数据资产打上标签,形成数据资产的多维画像,涵盖数据资产的业务属性、数据属性、技术属性等,帮助不同用户找到从自身工作领域去“认知和理解”数据资产的“切入点”,进一步解决“数难懂”问题。
数据资产管理平台建设。建设数据资产管理平台,动态更新维护数据资产的目录和内容;发挥数据可视化的优势,根据业务需求建设系列业务专题的数据资产视图,如普惠金融专题数据资产视图、房金条线专题数据资产视图等,展现数据资产的贡献度、与内部数据交互和相关数据产品服务的支持情况,方便用户“查数、知数、用数”。
全链路数据质量管理。通过对数据库表、接口等数据对象的识别及数据关系的解析构建全链路数据血缘,建立数据从源头到应用的全流程穿透式质量管理机制。根据上层应用(如监管报送等)对数据项的要求,逐层分解落实至对应源系统数据项的质量要求,定期出具质量报告、促进整改,确保为上层应用提供高质量源数据。
数据资产运营
数据资产运营以用户为中心,以发挥数据的业务价值为导向,以“敏捷用数”支持业务开展为目标,依托数据资产管理平台工具的能力,采用“明确目标—多维评估—改进优化”的闭环式迭代管理模式,促进数据资产时效、质量、成本和价值的持续优化,达到资源使用效率最大化与数据价值敏捷变现的效果,支持业务开展。
数据赋能应用拓展
客户画像分析
数字化经营以用户为中心,参考业界多个客户评价维度,结合在业务管理、风控领域积累的业务经验,基于金融机构内外部融合数据,全面分析客户的社会属性、产品属性、行为习惯、风险承受能力等客户商业全貌,形成覆盖身份特质、行为偏好、关系信息、信用记录、经营状况、履约能力、金融特征、风险合规等八大维度的统一客户画像体系。与同业相比,该体系更多地从客户的金融特征、风险合规及企业的经营状况等视角进行客户识别,可广泛应用到业务推广、风险管控等多领域、多业务场景。
知识图谱应用
数字化经营的本质是连接,包括人与人的连接、人与物的连接和物与物的连接。基于丰富的数据资产,建信金科开展了数据线索连接探索工作,累计探索了资金上下游、泛集团派系、控股股东、一致行动人、企业实际控制人、小微企业黑名单关联、基于企业干系人资金交易流水的疑似团伙发现、疑似行外账户识别、失联人关系修复、企业违约风险传导、企业与企业关联紧密度等十几个模型,挖掘出泛集团关系、一致行动人、实际控制人、疑似亲属、企业紧密关联度、小微企业社区标签、疑似账户持有、资金上下游、违约风险传导系数等关系和属性,有效补充了组织机构知识图谱等潜在知识,提升风险管控能力,支撑穿透式监管等场景应用。
普惠金融业务增信
服务实体经济是商业银行的重要使命之一,实体经济中的新兴市场主体大多数是民营小微企业,具有平均生命周期短、技术升级换代快、轻资产且对资金依赖程度高等特点。针对小微企业融资难、融资贵的问题,建信金科基于多方安全共享能力,与产业链合作,融合企业纳税、社保、质检、海关等多维数据进行智能增信,实现客户的智能分层,基于分层结果进行综合信用评价和授信,让优质客户获得更合理的融资额度和贷款利率,拓展普惠业务、服务普惠金融业务(见图6)。
图6 普惠金融业务增信应用
多层次的智能反欺诈体系
新冠肺炎疫情加速了社会数字化进程,线上化已成为常态化生活方式。针对近年高发的网络诈骗等痛点,建信金科构建了多层次的智能反欺诈体系。利用数据埋点与实时数据采集来补充反欺诈侦测的数据源,满足准实时欺诈侦测场景;通过整合模型、指标、标签等能力建设,建立反欺诈指标模型资产,满足反欺诈日常策略、模型的快速迭代和应用建设;利用流计算能力,提高多维实时计算能力,提升反欺诈应用能力;实现包括渠道、客户、产品的事前、事中、事后的欺诈实时预警或阻断,突破传统的“规则+名单”侦测体系,使用“名单+规则+模型”的智能侦测模型,实现首笔实时的反欺诈能力(见图7)。
图7 智能反欺诈体系
作者系建信金融科技有限责任公司
数据业务总监、Big Data中心总裁
文章刊发于《银行家》杂志2022年第6期「专题」栏目
责任编辑:董 治
Yhj_dz@126.com
分享、在看与点赞,全都想要拥有!