恒生电子首席架构师章乐焱:金融机构做数据中台,要分几步? | 公开课回顾
怎样让数据产生价值,再回馈到业务场景?
3月28日,恒生电子首席架构师、数据中台发展部经理、恒生研究院首席技术专家章乐焱在雷锋网公开课上,以「智慧金融的新基础设施」为题,深度剖析数据中台在金融领域的应用与实践。
后续将有更多课程上线,添加微信号 LorraineSummer 报名听课,或收看本节课程视频回放。
章乐焱把金融机构的数据分为两处,一边是各种各样的业务系统归拢出来的业务数据中心,也就是数据仓库(数仓);另一边是有着大量外部数据的资讯数据中心,业务系统的关键小数据就是叠加了大量来自外部的资讯类的大数据——数据中台的作用,就是将两大中心串联起来,建立相应的数据标准,让这些数据产生价值,再回馈到业务场景中去。
结合恒生电子的建设经验和最新的技术趋势,章乐焱不仅解释了金融机构数据中台的构建之必要,还给出了颇为详细的中台构建步骤。
以下为章乐焱分享内容节选,AI金融评论做了不改变原意的编辑。
数据中台这个概念最近确实很火,特别是过去的一年。2018年年底,恒生电子就成立了数据中台发展部,专门帮助金融机构搭建数据中台。可能恒生跟蚂蚁金服有一定的关系,我们一直也在讨论大中台这样的概念。
在整个金融行业里面,大家有一个普遍的说法,认为拉长来看,最近的一两百年,技术对金融行业的影响还是很明显的,包括工业革命、信息技术的升级。
拉近到最近的几十年,可以明显地看到整个金融行业数字化、网络化、智能化“三浪叠加”的态势。特别是智能化的基础其实就是数据。因为金融行业本身就有大量的数据,加上互联网技术的叠加之后,产生了更多的数据,有助于我们构建相应的智能化应用。
中国持牌的金融机构,包括证券、期货、基金、银行、保险、信托,再加上交易所,也就是我们所说的整个行业的基础设施,包括登记结算公司、沪深交易所、期货交易所等等。恒生电子20多年来就一直围绕着金融行业在做相应的IT建设。
以恒生电子一直关注的财富资管领域为例。证券公司、基金公司提供金融产品、销售金融产品,就是经常说的财富管理;资金募集起来之后,金融机构如何去做投资,就涉及到资产管理。
细分来看,这两个行业需要以数据为本,来实现相应的业务驱动,包括投资研究、风险管理、客户服务、运营管理等等,都是和数据有关系的。我们看到的变化是也从传统的做法向数字化转变。
例如投资研究里面,需要引用大数据,实现智能投研。客户识别方面,持牌的金融机构有KYC要求,需要对客户的适当性进行相应的清晰判断,否则需要承担相应的法律责任。
比如在参与金融活动的时候,你可能是个投资者,也可能是个金融消费者,作为金融消费者的话就要受到消费者权益保护的相应的法律法规的制约,所以金融机构怎么来理解你的客户也会有很多数字化上的要求。
从整个行业来看,数据上的智能化应用对整个行业的影响越来越大。
数据中台在金融机构里的「角色分析」金融机构的数据,可以分为两块,一块就是各种各样的业务系统归拢出来的业务数据中心,一般传统领域我们就叫数据仓库(数仓)。从上个世纪开始,大家都在做数据仓库的一些建设,到了现在,随着技术的发展,数仓其实也有很多相应的变化。
还有一块就是资讯数据中心,这里的数据大量来自外部,业务系统的关键小数据叠加了大量来自外部的资讯类的大数据。
金融机构要建立数据中台的话,需要同时关注业务数据中心和资讯数据中心。这两方面的数据当然不可能是割裂的,我们观察到,这两方面的数据会通过机构、人、产品,紧紧地联系在一起。我们从经营管理、财富管理业务、风险管理业务、资产管理业务、机构服务业务、经纪业务等这些金融机构的各个业务系统中,把数据抽取出来,建立相应的标准。
这些数据产生价值,需要回馈到业务场景中去。
比如说做数仓有很多BI分析人员,分析公司的经营情况、各项业务的趋势;金融机构有很多金融工程包括行业研究的人员,需要去挖掘各种投资机会,控制相应的投资风险。
作为数据中台能提供哪些服务赋能到各个业务场景,这也是数据中台去做实施建设的时候需要去回答的。
企业画像
在业务数据中心和资讯数据中心之间有个关联,最重要的就两块,我们叫两个画像,一个叫做用户画像,一个叫企业画像。
金融机构都是服务行业,服务行业就是服务于你的客户。如何刻画客户?特别是做财富管理这个领域就很重要,需要从各个渠道包括外部拿到相应的数据来刻画客户,这叫用户画像。
募集资金之后,你投资的标的都是跟一些企业有关系,核心的就是围绕着投资标的企业,所以对这个标的企业怎么刻画也很重要,比如财务数据分析、公告/研报/公文分析、关联金融产品分析、企业图谱-股权风险分析、产业图谱-产业风险分析、新闻舆情分析等等。
这里以企业画像为例。随着技术的进步,我们发现要分析一家企业,有越来越多的新手段,比如分析的不只是一家企业,而会去建立所谓的企业图谱、股权关系,对整个产业链上下游关系进行分析。
在构建知识图谱的时候,会有很多外部的信息是文本信息,不像财务报表可以很容易结构化。在处理大量的外部文本资讯信息的时候,就要用到自然语言处理相应的技术,才能把核心的关键的内容提取出来。
当然,投资的时候,投资者比较喜欢听小道消息,所以新闻舆情大家也会很关注,包括专业性的分析、高管事件、生产安全事故、专业人员对行业事件的解读等等。新闻舆情同样是大家关注的领域,传导过来会影响到整个企业。
阿里在说数据中台的时候经常说一个概念叫One ID,在传统金融机构里面,如果你数据只是来自内部业务系统,One ID是容易实现的,但是如果引入了大量的外部信息,One ID确实是一个很挑战的事情。
例如恒生电子,如果是股票的话,600570是一个明显的ID,但是你到新闻资讯里去看,它可能是中文写的“恒生电子”,可能是全称,可能是简称,包括很多上市公司还有集团公司、股份公司。但是在新闻资讯里讲的时候,如何准确识别出来这个信息说的是这家公司,还是它的关联公司?
这时候要进行One ID的处理,确实是一件很有挑战性的事情,需要通过上下文或者说建立金融大词林,类似于大的词典,这样就能知道恒生电子有哪几种说法,通过上下文分析知道讲的是母公司、股份公司还是子公司。
构建One ID,有时候会用机器去识别,特别是AI 的技术,实际上很多时候最后出来的结果是一个概率的问题,可能要人工和机器结合来实现。
金融机构做数据中台,要分几步?一家金融机构有很多数据资产,首先要理清楚有多少数据资产,只有理清楚了,数据才能成为资产,基于数据才能做一些协同。
各个业务要做协同,有两种做法,一是传统的每个业务系统开放接口,就可以互相协同了。
还有一种,一般来说金融机构会有好多开发商的系统,这些开发商系统的API控制,并不是想要开发商提供就可以有的。API不行的时候如何进行业务协同呢?其实通过数据也是可以做相应的协同的,但这个前提是需要清楚的知道到底有哪些数据资产。
内部的数据资产可能还好理,当你引入大量的外部数据,所谓的大数据很多是大量外部数据,这些外部数据可能还是不同的业务部门买进来的——从整个公司的视角来看,有哪些数据?这就是要梳理的。
数据标准化
有了那么多数据资产,如何应用?很重要的一点就是要有相应的数据标准,否则大家对概念的定义、数据的统计口径、指标的定义都不一样,要实现协同也是很困难的。
首先把所有的资产通过资产地图、资产目录进行管理,通过相应的元素进行描述:哪个数据?在哪个库里?谁负责的?跟哪个业务系统相关?所谓的原数据,要去把它搞清楚,在这个基础上标准化。
所以其实一般讲数据中台,会讲到数据治理很重要的一块就是数据的标准,包括概念的定义、指标定义如何统一口径。
金融领域尤其如此。在金融领域有些指标很重要,因为金融机构需要承担相关的法律责任,一方面是需要向监管机构报送各种各样的信息,另一方面需要向公众披露各种各样的信息,这两方面的数据的统计口径需要保持一致,不然就会出现问题。在这背后需要进行相应的数据标准的制定。
制定数据标准跟制定API接口是类似的,一个是稳定,一个是最小化原则。
数据服务化
数据整理好了、该标准化的数据标准化之后,就是为要使用数据的部门提供相应的数据服务,要把数据服务化,毕竟数据中台是培育业务创新的土壤,也是利用数据促进业务创新的保障。实际上在数据中台项目的实施阶段,很难定义清楚总共需要提供多少数据服务。
所以在建数据中台的时候,我们希望能够为金融机构构建一个相对敏捷、能为下游提供数据服务的平台。在这其中,工具很重要。
当下游业务系统提供取数需求的时候,如何快速地进行相应的实施?原来金融机构在做数仓的时候,下游公司有需求就直接告诉下游公司的表结构,让下游公司直接连上来自己取。
这时候就会发现很多问题:数据中心的表暴露给了多少对象?有多少下游应用与你相关?这其实是很难控制的。如果在中间增加一层所谓的数据服务层,以API的形式、微服务的形式向下游提供,这时候就可以进行对使用对象、使用频率进行相应的控制。
最后,数据都整好了,人工智能的应用如何来体现?做人工智能有很多专业的要求,比如机器学习、NLP、大数据、知识图谱等,这些人很专业,但是下面的应用部门不可能配备很多类似的专业人员,这时候中台部门就要承接这些专业能力的沉淀作用,要去搭建跟人工智能相关的团队、平台,为下游用数的部门提供这种专业服务。
(图片来源:阿里云图库)
这样的数据中台,我们把它叫做新的基础设施。
为什么说新的?从上个世纪开始,数仓我们就已经开始建了,现在说的数据中台有更多的数据挖掘、数据分析的技术引进,有AI的加工能力。我们现在发现很多金融机构确实有传统的数仓技术,当有大量的外部大数据进来的时候,整个技术平台确实也是需要做相应的一些升级。
因为数据格式上来讲,有大量的文本的非结构化的数据进来了,数据量也越来越多,所以需要建立起新的基础设施。
那么,新的基础设施建设的时候,眼前你会看到什么?确实大家对数据治理相应的一些基础工作,数据资产怎么梳理、数据质量怎么保证、数据标准如何制定、智能的应用……还是比较薄弱的。所以我说给金融机构建数据中台的时候,确实有很多眼前的问题要解决。
去年数据中台概念火了之后,很多人都说可以提供数据中台服务,实际上在大部分情况下,提供的是数据平台的一套技术工具。工具是必要的,但在有了工具之后,很多事情还要人去做。
比如资本市场的各个金融机构,他们最关键的核心系统就有三四十套,有时候还包括同一类业务系统找两家开发商来建设,或者同一类业务根据客户属性不同建设不同的系统。
核心业务系统的种类很多,多年来的版本也很多。要把数据收集起来,就需要核心业务系统的对接能力。
对接外部资讯厂商
此外,数据中台也需要对接各种各样的资讯厂商。
整个资本市场,外部资讯厂商也有好几十家,有一些提供的数据比较全面,有些是特色的数据。除了这些主要的资讯厂商之外,有时候金融机构也会根据自己的特色,采购某些数据,比如某个行业网站的数据。这些外部的数据都要进行相应的关联和管理。
而且来自资讯厂商的外部数据还有一个很重要的特点,就是它的数据结构很不稳定,没有一个统一的行业标准,企业需要建立自己的企业标准,否则来自外部的同类的数据,可能会出现某个字段名字一样但内涵不一样的情况。这些数据既然不稳定,就要建大量的检验规则来保障数据的质量。
另外,既然建立了数据中台,不用业务系统、下游应用直接按的指标应该有同样的口径,需要梳理清楚有多少这样的公共指标,保证口径的统一,这也是中台价值的重要体现。这些内容目前来讲就是靠人力。
AI很酷,但AI背后也需要大量的人力投入。例如金融机构要处理很多的资讯信息,也就是文本的处理。中文文本处理里面一个很重要的问题就是,中文的歧义很严重,特别是人民、地名。如何解决?需要建立词林、相应的知识图谱,通过NLP的技术进行上下文的判断,还需要大量的负面样本。这里面需要很多的人工劳动。
知识图谱建设
AI领域另一个很重要的就是知识图谱。比如构建企业链,投资的时候要判断投资标的企业的风险,还要判断它的关联企业。能获得的工商数据可能是几千万级别的,加上相应的属性……这些知识图谱,或者说数据图、数据库的构建和应用能力,前期也需要人力来进行。RPA最近比较流行,在金融领域除了购买资讯之外也需要一些外面的数据,就需要通过一些技术手段对互联网数据进行处理。
数据应用领域也很重要,毕竟花了这么多钱搭建起了数据中台,如果不说做完之后数据中台项目能够支持哪些应用,在企业内部立项也会有问题。
在金融机构,数据中台最主要支撑的应用有四块:经营管理、风险管理、营销管理、投资研究。
经营管理,大家很好理解,公司领导要出报表,是不是还要看各项的数据?营销是以客户为中心,要去服务相应的投资者,营销管理人员需要大量的数据应用做支撑。但是对于投资来讲,风险也是很重要的,所以风险管理、风险合规、风险控制各方面也是数据强依赖的。投资研究就更加需要大量的外部数据了。
所以要建数据中台,很多问题,目前来讲可能要靠人力去应对,这部分占的比重还是比较大的。我们也希望后面的技术进步能很大程度地提升人力处理的效率。
总结一下:底层是数据中台的技术平台,要管理数据,做相应的数据开发,对外提供服务,构建相应的AI能力,搭建AI工具平台。有了这个工具平台之后,帮助金融机构构建各种各样的数据中心,包括业务数据中心和资讯数据中心,也会根据上游的场景分阶段建立,原来的应用可以逐步迁移到新的数据中台的架构上来。在没有数据中台之前,整个金融行业大家对数据也是非常重视的,有大量的应用在用。建数据中台之后,不能简单地把老的应用铲掉,全部重新来过,所以需要有一个把大量的下游应用进行平滑迁移的升级方案。
应用详解之企业画像除了上面说到的这些“脏活累活”,做数据中台还是很多看上去让人觉得很酷的事情。
比如说企业画像,资讯中心里面非常重要的数据是要把投资标的企业描述清楚,描述清楚之后确实会对金融机构下游的核心业务起到很好的支撑。在这其中我们也看到大量AI技术被应用。
比如企业画像里面有一个叫“企业智查”,这并不是简单地买一些工商数据描述一下就结束了,实际上会有更多的另类的数据关联上去。如何关联?这就涉及到后面的知识图谱、图数据库,除了公司数据,还有产业链数据,这些数据构成了企业之间相互关系的核心网络。
在这个网络之后,还可以叠加金融机构自己的研究人员在企业业务发展过程中调研到的、分析到的企业信息,从而形成一个相对完备的企业画像。
这里面的企业数可能是千万级别的,从工商数据、企业之间的相互关联关系、股权关系,通过股权、债券或者说高管,把这些企业连接起来。还有通过产业的上下游、金融机构投资研究人员建立的所谓产业链分析的网络,关联起来。
关联之后就可以查到围绕这家公司有哪些信息,有没有违约,有点像企业的“情报系统”。在这个“情报系统”里面,可以查到一个企业,周边有一层层衍生出来的很多信息。
舆情监测
也许你还会关心当下发生了哪些事情,所以很多公司也在建设舆情监控系统。
恒生从事件的角度来看,把舆情转换成各种各样的事件,比如针对企业的事件、针对企业所在行业的事件、宏观方面的事件等,这些都会对企业产生影响。通过各种事件分类,给企业打上标签,从而形成相应的风险事件预警,其中需要RPA技术去获取外面的舆情。
获取大量的舆情信息之后的处理,需要用到很多自然语言处理相关的技术,需要靠智能文本处理,把关键信息提取出来,在这个过程中,消歧是非常重要的,怎么样消歧、准确地关联到相关企业。
而且企业画像并不是静态地,特别是金融领域有很多持续数据,随着时间点不同,数据都会改变。同样的一个事情,也有发酵的过程,大家要知道事件的前因后果是什么,所以这是一个动态的、持续发展的过程。
(图片来源:阿里云图库)
财务报表
很重要。有些企业会存在财务造假的问题,通过很多粉饰性的内容,造得天衣无缝,包括隐瞒坏账、商誉问题、不务正业等等。
如何识别财务造假?除了传统的财务分析之外,也会通过机器学习来进行。但是机器学习需要负面样本,负面样本不够,特征就找不到?所以需要搞一些另类的指标出来。我们需要去分析已有的数据,找到里面的负面样本。
比如商誉暴雷,我们就去看看最近几年商誉暴雷的公司,把他们的财报拿过来,看看是什么样子的,然后把他们放到机器学习的模型里,看看能不能把问题找出来。
当然,如果专业人员本身就有一些规则,那就更简单了,可以把一些原来没有结构化的数据提取出来,然后专业的分析人员写一些规则,就能直接进行判断了。一般来说,我们会把这两种方式结合起来使用。
关联分析
是说做一些关联关系的挖掘,包括整个的风险网络。关联分析图看起来是平面的,但实际上这是一个立体的网络。在立体的网络上如何进行快速地搜索响应,特别是复杂的几度以上的搜索?在图上做搜索,最简单的就是明确告诉我们一个实体,沿着实体做浏览性的搜索是很容易的,但是你要做几度以上的这种分析,对水平的要求就很高了——当网络很大的时候,要找出几度以上的相互关系的时候,能不能实现秒级响应,还是说要跑很久?
股权穿透,相对来说是一个比较简单的关联关系的分析,但其中还有一些规则。如何确定一个阈值多少是合适的?有些法律法规本身就有定义,有些不行怎么办?可能就需要使用统计学的手段,找一些负面样本。穿透一般要求穿透到自然人,或者说国资委,一层层穿透下去。
数据中台作为一个新基础设施,在构建过程中确实是比较有讲究的,要有基本的数据治理和IT治理。从传统的关系数据库到有些地方要大数据技术、AI技术,技术与业务的结合也很重要,不然花了很大成本建了这个中台却不知道该怎么用,或者不知道上层的分析模型该怎么建,这就很难发挥数据的作用。
在做金融行业数据中台的时候,我们内部会进行分层,一层是偏技术的,一层是偏业务的。数据过来之后,偏技术层的会进行基本的处理,比如打个标签、关到图数据库里取,这对业务的要求貌似不高,对技术基础的要求会高一点。数据结构化处理之后,业务团队就要上来发挥作用。比如刚才提到的财务分析有很多模型,这种模型不一定是IT团队所擅长的。
比如说像恒生,我们也做债券违约的预警,要做数据分析。第一,分析现状是什么。第二分析原因,比如增长的原因是什么?一个投资挣钱了,到底是哪个部分挣的钱,这叫绩效归因。第三是预警,能预测到后面的要做预测。包括刚说到的做原因分析的时候,实际上是有很多专业的模型的。
这些一般是我们偏业务的团队会来做,我们会找金融工程相应的人来做上层的模型,才能支撑到下游的场景。偏技术和偏业务的人,对数据处理的深度确实不太一样。比如债券预警的模型怎么做?看起来都很简单,是个多因子的积分卡一样的东西,但是关键是每个因子怎么选,权重怎么附,这些都需要一些专业的人员来做。
金融AI技术投入
为什么数据挖掘能排第二?
展望未来,数据挖掘在金融AI技术投入中,排名第二,图像识别排名第一。我觉得比较好理解,因为现在图像识别确实相对来讲是应用比较成熟的领域,准确度也很高。但是我们发现数据挖掘竟然是在整个的技术投入中排名第二?我们感觉到现在用的好多手段还是比较传统,为什么它会排名第二?
如果把Gartner分析报告里的这一页上列的这些技术也算在数据挖掘的技术里的话,确实可能投入就上去了。这是Gartner去年对数据技术发展趋势的分析,我挑了几条。
到 2020年,将有50%的分析查询是通过搜索,自然语言处理或语音生成的,或者将自动生成。
到 2021年,自然语言处理和对话分析将把分析和商业智能的采用率从35%的员工提高到 50%以 上,其中包括新的用户类别,尤其是前台工作人员。
到 2021 年,持久化内存(非易失性内存条)将占内存计算内存GB 消耗的 10 %以上。
到 2022 年,图分析和图数据库的应用将以每年 100 %的速度增长,以不断加速数据准备并实现更复杂和适应性更强的数据科学
到 2022 年,通过增加机器学习和自动服务级别管理,数据管理手动任务将减少 45 %。
为什么会要有这样的技术研究?其实数据的运用越来越普遍了,不是说只有一些专业的分析人员才用它,整个生态里的各个环节的业务人员,可能都需要数据。对这些人员来说,你不能把数据的获取、分析的要求提得很高,所以会引用一些自然语言技术去处理。
我们之前提到的知识图谱,实际上它的技术底层有2种,一个图数据库叫图的存储,还有一个图的分析,这块的话Gartner预测也是说每年是百分之百的速度增长。
你要做数据分析,最重要的就是关联,要把数据关联起来才能做更多的分析,这确实是图数据库比较擅长的。关联大量数据的时候,你也会发现说数据结构是很难提前预定、预测好的,那图数据库的好处就是,相应的结构、属性增加一些,对原来的分析是没有什么影响的。
最后一条,其实这个是我比较希望看到的,因为我刚才说到无论是建数据中心也好,做数据中台也好,还是需要大量人力投入。
但是Gartner也预测,其实我们实际上也看到大量的利用机器学习的方式,利用各种自动化在整个数据管理或者数据准备上。当对业务不熟悉的时候,机器学习可以很大地减轻负担。当你换个行业去分析人家的数据的时候,或者一个新人进来,有大量的自动化手段来帮助你做数据管理、做数据的准备,可以有效提升做数据中台的效率。
【后续将有更多课程上线,添加微信号 LorraineSummer 报名听课,或收看本节课程视频回放。】