作者 |360金融架构总监黄建庭
出品 | AI科技大本营(ID:rgznai100)
本文为CSDN即将推出的《新战场:决胜中台》专刊的第 4 篇文章。自阿里巴巴引入中台概念后,市场对中台的关注度持续“高烧”不退。作为企业的基础平台,数据中台贯彻了整个数据生命周期。然而究其根本,数据中台不是一门技术,而是一种数据治理的方式,是把原来分散在业务系统中的各种数据进行集中管控,统一分发,从而真正的将组织积累的数据变成流动资产,进而变数据为生产力。说起数据中台,很多人会问跟数据平台有什么区别?简单来说,数据中台是数据平台发展的演进结果,二者在业务思维和价值导向上存在根本区别。如果说数据中台的标签是业务导向,那么与之相对的则是数据平台的工具导向。在中台凭借业务需求驱动,为前台业务创造数据产品能力,完成数据的业务价值化的过程中,平台主要建立了一个与实际业务无关的系统。从价值导向来看,数据中台以终为始,基于前台业务系统或BI分析的数据需求,实现寻找和创造数据价值的服务能力,而数据平台则更注重基于现有数据寻找业务价值场景。拆解系统框架不难发现,传统数据中台可以分为数据存储、数据治理、数据开发、数据服务四个部分,通过各环节的有机结合,更好地理解和挖掘数据价值。对于以上框架,我们不妨从功能角度进行解读。数据存储主要具备汇集、存储企业所有业务数据的能力,通过对全域数据收集,完成业务数据化;数据治理提供数据资产化管理能力,主要功能聚焦对数据的规划与治理;数据开发提供数字资产向业务转化的能力,基于数字资产协作与共享进行业务价值的探索,从而实现数据业务化目标;数据服务则提供数据服务化能力,旨在为各业务线提供数据产品的出口,如:BI展示、API接口等。在360金融技术团队看来,数据中台是数据平台发展到一定阶段的必然产物,也是企业级数据能力泛化的服务体系,其最现实的价值之一,是为企业各业务线提供快速复制的数据能力。数据中台的开发与应用,利用对数据的分析与探索,实现了开发多元化数据服务的目的,从而解决了业务的‘烟囱式’建设,带来的数据孤岛及数据价值无法共生协同的问题。这也是360金融涉足数据中台领域的初衷。既然中台化是平台发展到一定阶段的必然过程,那么面临业务向多元化、国际化进行战略调整的360金融,如何将大数据风控能力通过搭建数据中台快速复制到其他业务线?
数据中台是360金融中台化的首个中台建设项目,期望通过快速的数据开发和复制能力,支持业务快速创新,具有从0到1的里程碑意义。业务数据化、数据资产化、数据业务化是360金融数据中台建设的3个目标,从期望实现的功能来看,3个目标彼此支撑并最终实现业务转化。业务数据化:各种业务数据化沉淀和收集,对数据进行加工、清洗、转换,实现业务数据化。数据资产化:对各种业务数据资产化规划与治理,建立ODS操作数据层、DWD/DWS主题域数据聚合层、ODS数据服务层。通过资产大盘,数据地图等形式展现数字资产。数据业务化:基于业务的数据需求,各业务线数据共享,通过对数字资产进行探索与分析,借助AI技术发挥数据价值,最终反哺业务,为在线业务提供数据服务,将数据能力快速复制。通过BI平台为业务运营、战略制定提供科学决策的依据。以上目标落实到具体实施中,大致可将360金融数据中台建设分为三个阶段,即强化数据开发阶段、数据资产化管理阶段和数据服务多元化阶段。在此过程中,360金融技术团队引入精益创业的MVP原则,即验证最小可行产品,集中力量分阶段重点解决不同的问题。强化数据开发阶段的重点是解决数据开发效率问题。如果说利用AI技术进行数据挖掘是360金融的法宝,那么数据中台如何提升AI数据挖掘的效率以及如何提升AI数据挖掘到应用的效率?“工欲善其事,必先利其器”,从数据探索到AI能力上线整个闭环的效能提升,360金融数据中台团队研发了360金融PAI平台和AI应用全链路闭环。360金融PAI是360金融自主研发的AI建模平台,平台功能包含数据探索、AI建模、部署执行等重要模块,这是数据中台的基石。数据探索是360金融PAI平台最重要的一个工具,功能利用数据字典、即席查询、数据抽取等模块,实现了从发现数据到数据分析、加工的作用。以即席查询(如下图所示)为例,即席查询通过友好、便利的操作界面,支持SQL提示、多查询引擎、函数查询、权限控制等功能,并向数据抽取环节输出相关结果,数据抽取通过定时执行SQL,将数据抽取到特征表,从而达到支持DAG流式数据抽取的目的。
区别于数据探索的基建功能,AI建模更注重提升工具的效率与易用性。在工具使用方面,360金融更注重在引用的同时,进行结合平台特征的优化改造,如对JupyterHub多租户方案的采用过程中,在常规设置每个用户固定的实例资源配置的同时,数据中台团队还对其采用了以下几个优化:JupyterHub On YARN:使用JupyterHub多租户方案,并运行在YARN上,所有用户共享集群资源,启动JupyterLab时向YARN提交任务创建实例,使用完后释放资源,使集群资源合理利用。动态设定实例资源配置:默认实例配置统一设置,多用户不同需求下比较浪费资源。每次用户打开JupyterLab开启一个实例时,根据不同需求自主选择实例的资源配置,大部分使用低配置的服务即可,少量用户需要在JupyterLab上做大数据模型训练,可以选择高配置,达到集群服务资源利用最大化。HDFS与本地双向同步更新:hdfscm插件默认读写hdfs远程文件,用户需要在JupyterLab页面读写操作本地文件,通过修改插件,建立双向同步更新机制,确保远程与本地文件一致,对用户使用方式透明。AI应用全链路闭环优化关键在于特征工程,特征工程平台准实时产生特征数据,模型引擎从特征工程平台获取数据执行,结果准实时同步到加密仓库,在PAI平台进行模型效果验证,验证通过后,一键发布到生产环境。极大缩短模型从产生到生产应用的周期,从原来的周级到天级,甚至是小时级。
数据资产化阶段重点解决数字资产规划、资产展示等问题,将杂乱的数据通过规划转换为有价值的数字资产,通过资产大盘界面化的方式呈现出来,可以帮助所有数据业务场景更快找到合适的数据,也可以通过结构化资产衍生出新的业务场景。数据是数据中台的核心要素,数据能力建设的根本之源,做好数字资产规划有利于开发出更多的数据产品服务。寻找数据是这个阶段一个重要任务,深入各个业务环节,将所有业务数据化,输入到中台,形成化学反应,变为数字资产;基于资产规划,寻找缺失数据,创造业务场景,反向推动业务发展。数据服务多元化阶段重点解决多元化数据产品能力开发问题,数据中台的核心价值是提供具有业务价值的数据服务,解决数据孤岛问题,将企业所有数据集中形成协同效应,产生更多有价值的数据产品。这个阶段重点需要挖掘新的业务数据需求,以业务价值为导向,业务思维驱动,中台人员深入各业务线调研交流,了解业务场景、业务数据需求,将需求转换为数据服务能力。企业数据的局限性会影响到数据能力的发挥,跨企业的数据协同也是这个阶段要去尝试的一些事情,目前业界在尝试联邦机器学习、可信计算、区块链技术来解决跨企业数据孤岛问题,让数据安全流动起来,形成协同效应,创造更大价值,创造新的商业模式。 360金融数据中台是从数据平台到中台的演进结果,思路是依据前文所述数据中台概要架构为指导,分多阶段解决不同的问题,在数据平台的基础上不断丰富完善,全景架构如下图所示。数据开发:将数字资产转换为数据产品服务的平台,具备数据的业务价值探索与分析能力。资产管理:通过资产规划、数据治理等手段将数据转换为数字资产,建立数据的安全保障机制,全库加密脱敏,细粒度权限控制。计算层:水平可扩展的计算能力,实时流计算与离线计算,界面配置化管理。垂直领域层:也称为数据湖,汇集各业务领域同构数据,经过加工、转换存储,数据从源头到仓库全生命周期加密存储。主题域层:数据的衍生,根据不同的主题域,将同一实体的各种数据集中在一起,数据的共享与协作,基于此可以产生更大的业务价值。服务层:提供三大服务,为业务产品提供业务数据化的数据资产化服务;为经营决策提供数据智能展示服务;为业务中台或前台业务系统提供数据产品服务,也可以进一步开放,为外部生态提供数据服务。360金融数据中台建设经历了从0到1的质变产出,目前已实现了AI技术应用全链路闭环,并在业务应用中不断进化强大。数据中台的1.0建设,实现了AI技术应用效率的提升,其业务表现从周级缩短至天级,成为里程碑级的成果。与此同时,360金融数据中台团队在实践过程中,对数据中台的理解又进一步加深:数据中台是数据平台进化的产物,是数据平台的一次自我革命。在市场过热的背景下,确保数据中台建设以实际业务为切入点落地,才能避免纸上谈兵的现象。其一,确保优势业务先行。企业如何自然进化为中台?过程来说,应从最强势业务出发,逐步建设好能力,再拓展到其他的业务,甚至赋能行业。360借条是360金融的核心业务,对数据价值能力的诉求最强烈;对于创新业务,将借条的互联网风控能力复制到其他产品线,更是降本增效、降低试错率的最佳途径。因此在定义实施路径的过程中,采用了优先考虑360借条的诉求,兼顾其他产品线需求的策略。其二,组建虚拟组织。中台化建设的核心就是技术业务一体化,对外提供业务价值能力。然而在实际操作中,业务、技术往往属于两个不同的职能部门,无法达成目标的一致性,是中台建设面临的最大难题。360金融组建虚拟团队解决了中台建设过程中的统一组织问题,KPI一致化,数据分析、算法、技术形成一个数据中台组织群,为了共同的目标努力,适合项目制运作。事实证明,虚拟组织形式可以是一种试错模式,其最大价值在于反应的敏捷快速。其三,确保业务价值驱动。中台跟平台最大的差别是输出符合业务场景的数据能力,能力产生过程对业务中台或前台应用透明。业务价值驱动要求中台人员根据业务场景找数据、建设能力,以满足业务需求。在资源投入上更加有针对性,聚集资源解决关键问题。在360金融数据中台的建设过程中,团队优先满足AI能力应用效率优化,并基于业务价值的实现需求,去建设能力,寻找数据,在最短的时间内发挥出数据中台的价值。数据中台未来会演变成什么还不得而知。但从360金融数据中台这一案例的演进可知,数据中台建设一定是基于企业战略,并通过实际业务反复锤炼方可成形。从当前中台建设的情况,以及对未来趋势的判断,360数据中台未来重点会在深入AI化、数据产品多元化两个方面继续发力,实现快速复制数据能力,支持业务快速创新的愿景。AI大规模应用伴随着计算机硬件技术的发展以及大数据的产生,AI是数据挖掘的最佳技术,如何更深入利用AI挖掘数据的业务价值是重中之重。360金融数据中台将在联邦机器学习和迁移学习方面持续投入,一方面在利用联邦机器学习技术解决跨机构之间数据安全共享问题的同时,充分提升边缘计算解决移动端AI建模、计算解决数据安全使用问题的能力;另一方面,利用迁移学习辅助成果的复用效率,衍生其他的AI能力。同时,AutoML也将作为重点领域,全面提升技术自动化学习效率,无监督、无干预的实现机器学习到合适的参数和配置而无需人工。技术的价值在于应用,做“有梦想的数据中台”决定了产品多样化落地的终极目标。360金融数据中台将通过不断完善服务形式,加深BI挖掘,从而为业务决策、战略决策提供更好的支持。数据中台本质上是方法论,通用的方法论并不存在。360金融数据中台的未来目标是定制化的数据服务支持,希望借助中台更好释放数据价值。《新战场:决胜中台》专刊已发布文章链接:
(*本文为AI科技大本营约稿文章,转载请微信联系1092722531)