查看原文
其他

中科软左春:深度剖析保险科技下的新一代数据架构(原理分析+案例分享)

联盟小秘书 中关村互联网金融研究院 2022-05-11


3月26日,在中关村科技园区管理委员会、北京市海淀区政府指导下,中关村金融科技产业发展联盟、北京市银行业协会、中关村互联网金融研究院与金融科技会客厅联合推出的中关村金融科技大讲堂第八期圆满结束!中科软科技股份有限公司董事长兼总裁、中关村金融科技产业发展联盟副理事长左春围绕“保险科技下的新一代数据架构”展开了精彩的分享,并获得广泛好评!本次分享内容分为四大部分,分别是新一代数据架构参考模型、新一代数据架构的底层变革、参考模型下的保险应用层变革与新一代数据架构的保险行业应用。


中关村金融科技大讲堂系列公益讲座至此暂时告一段落,关注本公众号(中关村互联网金融研究院)后,点击菜单右下角“直播课堂”栏目,观看所有回放!未来,还会继续推出大讲堂系列活动,敬请期待!


扫描上方图片二维码,观看第八期回放!


本期精华观点


  • 随着业务和技术的发展,在保险信息化参考模型中,数据架构成为重点,并且面临大的变革。

  • 新一代的数据架构由新一代的NewSQL数据库引擎支撑,对传统数据库引擎的改进集中在分布式、动态可扩展和多信源等方面。

  • 数据库引擎的选择,进入到了与业务场景关联的非通用时代。

  • 新的NewSQL数据库引擎由于过于底层,需要用中间层补充,以便进行大规模的行业应用集成。新的应用开发者和集成者需具备设计规划的能力。

  • 新一代的数据架构是支撑保险行业应用软件进行全面知识管理的主要技术。


本期主要内容


在第一部分,首先,左春老师讲解了行业参考模型,提出:行业参考模型最底层是通用的,包括操作系统、数据库、中间件和网络通讯平台;上层是与各服务行业具体业务密切相关的系统,包括核心业务系统、财务系统、积分系统等。不同行业具有不同的核心业务系统。金融行业的核心业务系统是合同管理,而保险行业的核心业务系统是保单综合管理系统。

 

核心系统的初级形态是综合业务系统,随着业务的演变与应用的复杂化,它逐步被拆分——比如将综合业务系统中的客户或营销部分拆分出来,形成客户或营销管理系统;把与客户接触的系统分离出来,就形成了所谓的CRM系统;把合作者、代理人、渠道等提出来,就变成了渠道管理系统;再比如,保险行业里的积分系统是由积分公式支撑演变而来。可以看出,每个行业的核心系统均会经历由综合业务系统向各个子系统演变的过程。

 

在底层和上层之间会有通用的组件,目的是提高应用系统的共享性,典型的组件有工作流引擎、规则引擎等。现在很多子系统共用一个工作流引擎或者一个ID引擎。

 

保险行业的参考模型可以根据下图逐层细化,参考模型类似一个知识体系,基于参考模型,可根据不同的公司情况、不同的客户情况和行业演变的情况,提供不同的子系统集合选择。


接下来,左春老师介绍了传统行业应用软件的数据模型。他认为,传统行业应用软件的数据模型聚焦结构化。从业务角度看,业务管理通过表单进行,表单作为结构化数据,因其结构和结构之间具有共同属性,所以具有推断功能。基于此,通过表单等结构化数据可以做汇总、计算等众多管理性工作。但随着业务的发展变化,信息越来越丰富,变成了多信源的体系。这个多信源的体系包括声音、 图片、还有图像等,比如,在车险理赔的时候,会有一些照片录像、声音作为数据源。数据格式越来越复杂,信息量越来越大,信息处理的焦点也因此发生改变,保险合同管理也越来越复杂多变。

 

同时,信息的并发性变强,这源于客户对保险服务的频率和质量要求越来越高,保险服务需要覆盖的面也越来越广:像是年金险,由原来的一年交一次变成了半个月交一次;除此之外,购买同一保险产品的人数也明显增多。在这种新态势下,信息处理逐步转向知识处理,在开展相关业务的时候,保险公司不再仅仅基于传统的结构化数据进行处理,而是需要从保险赔款计算书等材料中提取相应信息进行加工。

 

谈及在技术层面如何做应用软件时,左春老师提到从业者有三个核心要素(即核心能力)需要把握:一是做系统群、功能集,提升用户体验。二是熟悉软件开发组件平台、编程脚本以及脚本规范。三是掌握数据架构,包括数据结构和内容。在应用软件开发过程中,数据架构相对比较重要,也比较稳定(特别是结构化数据的关系数据模型),所以左春老师此次演讲,重点围绕数据架构进行展开。

 

 

第二部分,左春老师介绍了数据架构的变革。他提到数据架构的变革分为底层变革和上层变革。底层包含操作系统、数据库和中间件等,其中与数据架构关联最大的是数据库。传统的应用软件需要用到关系模型或结构化数据,比如Oracle等,如果是开源软件就需要用到MySQL。但是,随着数据结构的非结构化演变,图片、声音、图像等各式各样的数据会放在一类数据结构里存储(比如MongoDB,以及目前又出现了新的图数据库引擎Neo4J等)。我们可以看出,底层数据架构会随着上层的业务需求做出变革。

 


底层数据架构特别重要的变革趋势是开源。原来的Oracle等数据库产品具有一定的技术垄断,而开源数据库作为一种开放的结构,在技术上面是公开的。因此,开源数据库的受众很广,也比较流行。从闭源数据库到开源数据库,二者的知识产权要求不一样,后者对知识产权要求相对比较低,降低了使用者的软件使用费成本。未来,在底层平台领域,开源软件,尤其是是流行的开源软件,将会起主导作用。但是,开源软件的使用有利有弊,开源软件的“利”体现为用户成本下降,“弊”则在于开源社区针对用户使用的弱友好性及弱针对性,与此同时,这也带给了技术公司一些商机。技术公司可以去社区学习开源软件,然后为客户提供“现场服务”及技术支持。由此,引发了客户由开发商或者是订阅服务商提供二次开发的迫切需求。

 

左春老师认为,作为开发者,需要对上层的业务需求和底层平台的变化均做到十分熟悉。目前,聚焦开源软件的使用,客户需要的是具有针对性的现场服务。提供现场服务的有两类厂家,一类是开源社区的配套厂家,比如红帽公司,来提供订阅服务;另一类是中科软等软件公司,通过学习新一代数据库,为用户提供详细、个性化的服务——比如怎么做一些索引?怎么做一些有特色的监控,有特色的复制和故障恢复?还有法律指导等,以解决开源软件使用过程中的法律纠纷问题。这些个性化服务的提供,需要开发者既要熟悉底层技术的变革,又要熟悉用户现场的特征,从而为客户提供平衡各方面问题的解决方案。

 

同时,左春老师提到,图数据库比传统的关系数据库在处理特定功能的时候有一定的优越性。最典型的是几度关联:比如生活中,经常会需要通过多个中间人找到目标人,这类的寻找若采用传统的关系模型,则效率不高;用图数据库的方法,则相对比较快。

 


开源软件具有一定的风险,那么软件公司为客户提供服务时最需要解决的问题是什么?如何才能降低风险?如何满足客户需求,为客户提供针对性的建议?如何为客户提供服务指南,明确服务范围?左春老师认为,诸如此类的问题都是软件公司在为客户提供订阅服务时需要重点考虑的问题。

 

 

接下来,左春老师介绍了数据架构的组成关系。他认为,目前的数据架构是混合结构,以关系模型为主。未来文档型数据库、图数据库会增多,关系模型会减少。所有的底层数据架构技术遵循CAP定理。CAP定理有三个要素:一是分区容错性,即分布式系统在遇到任何网络分区故障的时候,仍然能够对外提供满足一致性和可用性的服务。二是一致性,分为严格一致性和最终一致性。严格一致性,是指在分布式系统中的所有数据备份,在同一时刻具有同样的值;最终一致性,是指不保证在任意时刻任意节点上的同一份数据都是相同的,但是随着时间的迁移,不同节点上的同一份数据总是在向趋同的方向变化,也可以简单的理解为在一段时间后,节点间的数据会最终达到一致状态。三是可用性,指系统提供的服务必须随时都处于可用的状态,保证每次请求都能获取到非错的响应。但是,每个应用软件不可能同时满足上述三个条件,没有最优解,只能舍弃其中一个给出最合适的解。这是因为软件管理系统是一个复杂系统,具有开放性,无法预知其中的哪些模块会发生变动,具有极大的不确定性。

 

 

第三部分,左春老师介绍了参考模型下的保险应用层变革。他认为数据结构设计需要有参照模型,使数据在变化过程中正常扩展,系统内容正常叠加。半结构化数据非常灵活,未来会大量使用。而非结构化数据有很多取值,未来会对其进行约束。


 

 

在做保险应用的时候,平台针对文档数据库等引擎会做一些适配性的通用组件。关于保险应用的数据结构设计,需要考虑到纵向扩展和横向扩展的融合、数据结构兼容性设计、保险公司功能和性能扩展的需求等。数据架构关心数据结构的同时,也关心数据区的特征等方面。

 


第四部分,左春老师围绕新一代数据架构的保险行业应用进行展开。首先,他讲解了数据架构的原理,提到目前信息技术领域对“数据湖”的特性表述比较强,但对其内容表述比较弱。在数据架构里,对数据湖或数据架构表述清楚的关键是区分其数据结构和数据区。数据仓库大量属于结构化数据,数据湖区别于数据仓库的关键在于,数据湖是把结构化数据和非结构化数据统一存储起来。数据湖未来的关键是对非结构化数据的结构化约束。

 

 

从数据区看,非结构化信息在方法论5WH的指导下,有更全面的信息。参照5WH(Why, What, Where, When, Who, How)进行模型设计和规划时,对重点内容进行强调,能够确保采集数据的完备性;与此同时,原始表单的记录文字也需遵循5WH设计原理,强调目的、对象、地点、时间、人员、方法等内容,对文字进行规划,形成大量的原始数据,提高数据可用性,当相关数据丢失时,表单的记录文字采用高可用数据设计保存下来备份,便于快速恢复。

 

 

总之,在保险业务中,保险公司越来越需要通过各种数据进行风险控制,通过人员关系查找存在的问题,如在保险案例中可以采用图像、声纹等特征信息数据,由人工智能精准计算来确定一个人的身份,还可对个人和其相关人员的关系进行查询,降低欺诈风险。因此,未来在后端进行数据湖,或者是非结构化数据的规划,变得十分重要。

 

最后,左春老师为大家讲解了新一代数据架构下具体的保险应用场景,如下图所示。



问答环节


提问1:新一代数据架构的建设能够帮助保险科技往开放保险方面转变吗?


当然。保险肯定是越来越开放的。保险有了数据架构技术支撑,会让客户更加方便。比如过去客户要签字,或者客户要一个图像,以后可能采用各种各样的方法,比如客户的声音或者指纹,还有一段录像等新技术,这肯定是变化。


提问2,目前强化学习能否应用到新一代数据架构中,能达到什么样的效果?


数据架构就是把数据结构做清楚,把数据存起来以后才能进行学习。因为所谓的学习是建好数据架构,然后用场景数据去训练模型的参数,这叫学习。比如我们不知道扔一个硬币,它是正面多还是反面多?可能有人会说,肯定各50%。这个不一定,因为它厚度材质都不一样,这一枚硬币扔的时候正面和反面不一定是各50%,这个怎么得来?有大量的数据来训练参数,比如这枚硬币的参数是0.6,它正面的概率是0.6,这就训练了参数。当把这个参数训练完了以后,就能预知下一次再扔硬币的正反面的概率的过程。


提问3:新一代数据架构如何赋能中台模式变革?


中台实际具有管理特征,如果从数据仓库看,它是一个特定的数据集市,针对某一类应用做的数据架构,叫数据中台。常规的概念中台在数据仓库里的是数据集市。现在不一样,现在的数据集市是带着非结构化数据。数据中台和新一代数据架构有什么关系是:数据中台是扩展了传统的数据集市中的非结构化部分。


提问4:对于大型保险集团和新型保险科技企业,建设新一代数据结构的应当分别从哪里入手?


一开始主要还从结构化数据入手,一定要严格评审数据结构。之后,再加上和MongoDB相关的非结构化数据,非结构化数据有结构和半结构化。然后再规划所有结构中的非结构化的字段,比如赔款计算书、报案记录、医疗病症表述等,这些非结构化的字段,在大型保险集团需要形成标准。大型保险集团和新型保险科技企业在参考模型上的取舍不同。


近期好文


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存