查看原文
其他

模型赋能下的数据安全合规管理

张森森 DataFunSummit
2024-09-11

导读 本文将分享平安在数据安全合规管理方面的实践。数据安全合规管理是整个数据管理中的一部分,其理念和思想是一脉相承的。标题中还提到了“模型赋能”,文中也将探讨与大模型应用相关的问题。

主要内容包括三大部分:

1. 平安数据管理价值主张

2. 基于大模型的数据安全合规场景应用

3. Q&A

分享嘉宾|张森森 平安科技 高级经理 

编辑整理|徐谦

内容校对|李瑶

出品社区|DataFun


01

平安数据管理价值主张

首先来介绍一下数据安全相关背景,以及平安数据管理的价值主张。

2021 年,国家颁布了个保法和数安法,在国家层面上,对数据安全合规提出了一些新的要求,并对未来数据的高效应用提出了方向。现在有了国家数据局这一部门,对于数据的要求可能会往上走到一个更高的台阶。

为了应对于国家相关法律的出台,平安集团委托科技成立了数据管理部,来负责对国家战略的衔接。

数据管理的工作并不是从国家法律出台才开始的,而是已经经历了不断地完善和演进。

平安数据管理的演进主要包括三个时代:
  • 第一个时代是信息化时代,主要任务是数据质量提升、监管报送等。平安有大量的保险和金融行业的数据应用,需要做监管报送。
  • 第二个时代是以数据资产为核心的数据管理体系的建设。不仅在集团层面上推进,在各个子公司里面也都会做自己的数据资产管理和数据价值挖掘。
  • 第三个时代是以数据合规为基础的全域数据管理体系。即今天在讲的,在符合外部监管对于数据安全的要求的前提下,建设能够保证数据高效流通,并对改善资产运营提出了要求的质量管理体系。

发展过程中,我们需要逐步解决各个痛点:

  • 数据责权及能力评估:包括数据战略、考核、组织、能力、制度和领域的建设。

  • 数据价值的衡量运营:包括数据价值的转化、量化、展现和运营。

  • 保障体系的科学完备:做好整个合规的规划、体系建设,以及运营和保障。

整个合规体系,包括合规的数据保障和高效的数据交互两大部分:

  • 首先,数据的合规保障,包括客户隐私协议,委托共享协议,授权鉴权管理等。我们会在这个体系之下,对国家法律进行整体统一解读,然后进行考核,实现协作机制。

  • 另外,在合规的基础之上,要保证数据有高效的交互,为此我们做了统一的数据资产管理、分级分类,推动数据的交互以及统一的价值资产评估。

面向外部监管、企业赋能和资产治理的数据管理的业务理解包括以下几大方面:

  • 最底层是技术平台的支持,包括数据资产管理平台、运营监控平台、数据加密的共享平台,以及客户授权管理平台。

  • 向上是企业赋能,包括数据工作的落实,日常的监测,以及专项的一些检视工作。在此基础上是数据合规保障和数据资产管理。

  • 最后是对接外部监管,过去是中国银保监,现在是金融局,还有一些银行自己的监管部门或证券的监管部门。要有相应的组织流程和制度,以及考核指标,对外进行披露和暴露。

上图中展示了平安十年来构建的数据管理解决方案,包括 1 个平台、4 类规则库、5 项服务和 6 类客户。

  • 1 个平台,指的是数据管控平台,包括资产、运营、加密和授权管理。

  • 4 类规则库包括合规规则库、合规知识库、数据资产库和系统工具库。

  • 5 项服务是提供数据管理机制、数据合规保障、数据资产管理、数据运营管理和技术工具实施。

  • 6 类客户包括企业高管、数据管理人员、业务人员、IT 人员、法务人员和财务人员。

我们需要面对平安集团十几家专业公司的治理和管理,所以与只有一家公司的数据管理不太一样。我们的工作完成之后,会下发到各家专业公司,专业公司再进行相应的执行和反馈。

02

基于大模型的数据安全合规场景应用

下面介绍平安基于大模型的数据安全合规场景的应用。

我们的应用场景主要包括数据合规管理、数据资产管理和数据能力评估。在这些场景中,我们也在利用大模型做一些尝试。LLM 任务主要包括分类任务、摘要任务、评估任务、问答任务和 SQL 任务。

模型分层包括基础层、决策层和执行层。基础层主要是做一些问答,以及对知识库的完善。决策层,会对模型进行二次训练,做一些微调,与知识图谱结合,支持合规检视预审、材料总结、内容判断、成熟度评估等专项场景。执行层,有一些工具和能力的下沉。我们现在也在尝试利用大模型进行决策之后,驱动工具去进行相应的解释,并依据解释的结果,再进行评价。

整体的技术架构如上图所示。采用了多模态大模型。从信号端来看,包括文字提取、PDF 转图片,之后通过 index 向量存储和检索文本化的向量化,再经过指令路由,传到模型端。在模型端,平安有自己的 GPT,专业公司也会有自己的 GPT,所以是多 GPT 的存在。在多 GPT 之上,进行指令的处理,通过 Prompt 和 Job 的分发,最后在应用端通过对整个模型的结果进行组装和格式化的数据提取,驱动上文中提到的三个业务的开展,建立好知识应用中心、能力应用中心和指标应用中心。

针对数据合规的场景,主要包括如下一些工作:首先是制度的下发;接着,我们会对制度进行合规检查;检查完后,下发到专业公司,专业公司会对整个信息进行申报;我们根据专业公司的申报进行评价;评价后,进行风险检测;针对国家近期出台的法律法条,我们可能会开展一些专项检查,比如 PIA 的评估、出入境的评估等等。

这些工作中,制度下发的难度是比较高的,因为合规的工作从国家开始立法,很多事情是没有细则的,需要企业不断探索,找到工作的方向。所以工作量非常大,非常耗时,难度非常高。有时对法律法条的解读,不仅需要对法律的了解,还要有对整个技术的深入理解,所以对人的综合要求较高。

合规检查的工作中,常常缺少指引,我们要基于人的主观经验判断能力,形成比较规范化的工程化的指引,应用到整个合规的解释过程中。

关于信息申报,可能一个检查申报上来的材料会有上百份。甚至有些我们对接接口过来的数据,虽然都已经格式化好了,但每次的数据形态和状态可能也不是完全一致的,可能还需要再做一些清理,审核的工作量是非常大的。

风险监测,要计算大量指标,并上报给集团领导,同时也要提供给各家专业公司,为其提供风险指引。

最后是专项解释,PIA 的评估。平安会对出境数据做审查和审核,这个工作量也是非常大的。因此我们借助大模型,将整个知识库沉淀下来,通过多模态的方式做好智能的审核,以及异常监测报警,从而大幅提升工作效率。

我们的资产管理和专业公司的资产管理之间类似的地方是,数据都是从采集到治理、到盘点,再到使用。但我们的资产管理更侧重于资产的使用,促进不同的专业公司之间合规地进行数据交互。

在数据采集部分,主要工作是推进集团各家专业公司做好 DataOps 工具的使用和规范的推进。

在数据治理部分,要做好数据标准管理和数据质量管理。我们不太关注每家专业公司具体的命名等细节,而是关注其最终结果,是不是他自己所做的指引产生的结果。

资产盘点方面,主要关注分级分类,对于重点数据做重点的考察和审计。还要做好数据认责,一旦数据发生了泄露或者出现其它风险,可以有责任人去追查。

最后是资产的使用。资产使用要经过审批链,要有对于交互的申请,合规的审核。敏感数据是不能被使用的,可能需要对使用申请进行整改,要做一些掩码或者加密。

整个过程中,最主要的工作包括利用AI 分析做分级分类,以及通过知识图谱做数据认责等。

第三个场景是基于大模型的数据能力评估。随着数据管理和数据治理在企业中不断被强化,数据化已成为公司发展过程中必不可少的一部分。信通院也会有大量的评审工作开展。在评审工作开展之前,很多专业公司对自身当前的水平都不是很清楚。所以我们在内部会做一些初评,包括 DCAM 的评估、安全能力的评估、数据状态程度的评估等等。

评估的工作是非常繁杂且庞大的,仅靠人工的审核是无法完成的,因此我们会基于知识库去做内容的审核并提出整改建议。

以上就是本次分享的内容,谢谢大家。

03

Q&A

Q1:大模型分类分级的能力是如何实现的,效果如何?合规管理中,对合规的风险是怎么理解的,规则库有哪些?大模型在合规管理中扮演怎样的角色?

A1:首先回答第一个问题,关于分级分类,金融行业有一个专业的指引,我们刚开始会去找一家专业公司,推行其做法,再将分级分类的成果沉淀。对于比较好的元数据治理的专业公司,就可以通过知识图谱等方式,快速识别出高风险数据,避免高风险问题的爆发,再对其它数据做分层处理。这是我们现在分级分类的做法。

关于大模型,目前主要尝试用来识别高风险数据,当然后面的数据可能对于我们的知识库会有更大挑战。

平安的大模型工作不是一个 Team 在做,平安自己就在做自己的大模型,他们做 L1 层,我们在做垂域,所以相当于我们是需求提出方,他们在做通盘的平安体系的大模型的过程中把我们的需求加进去,做好调优,输出给我们用就可以了。

未来,我们考虑将知识库的搭建过程工程化,将调参、finetune 等操作相结合,这样使合规领域的大模型与金融领域的垂直大模型发生一些关联。

Q2:大模型做出来的结果如何进行检验?怎样做好与人的相互协调,既减少人工的投入,同时又保证准确率?

A2:集团层面,场景会稍微单纯一点,简单一点,因为是各家专业公司上报的数据资产,干净程度是有保障的,所以我们在用大模型去做审查时过程是相对简单的。但其实这个应用在专业公司是没法用的。在知识库建设的最后一步,应该写一个 case,之后去验证这个 case。比如传统过程中数据治理或者元数据的质量校验结果,要和大模型的结果做对齐,这是我们未来要去做的,并且考虑将其平台化,这样整个对齐的过程只需要在平台里面去看一下结果是不是 OK 的,如果是 OK 的话,就把大模型的这个功能固定下来,未来专注去做这件事就可以了。

Q3:分享中风险监测模块包含的指标计算的展示具体是怎么做的,输出会放在哪里,面向的用户具体是哪些人员?这些数据应该都是来自于平安的各个专业公司的底层业务系统,集团拿到这些数据之后应该是会有一个整体的数据库,那么给到专业公司的赋能体现在哪里?输出数据的价值体现从外部和内部看分别是什么?

A3:这是个非常好的问题。大家都在讲指标,特别是风险指标。最关注风险指标的是管理层,所以指标最终的展现方式会是一张大屏或者一个 board,上面可以看到比如个人信息保护有没有做到,隐私协议的签约有没有做到,资产交互的合规流程有没有做到等等。基于 70 多个指标,最后浓缩为十几个指标,展现在 board 上,提供给管理层。

第二个层面是给到各家专业公司的领导,帮助其了解自身的合规工作做到了什么样的程度,比如下面的 App 是不是都已经做好了协议的更改,分级分类处于一个什么样的水平,让各公司心里有数。

第三个层面是给到真正在做数据管理这件事的运营层面上,他们可能更加关注的是我这件事情所反映出来的结果,比如交换的某个材料有没有实际的风险,是否需要整改。

相当于下面关注点,中间关注面,而到了领导层则关注得更加立体。

Q4:数据安全部分提到了数据认责,数据认责和数据使用效率之间的平衡是如何处理的?比如有些业务数据可能会分配一些责任人,但是对于数据分析人员、数据模型人员,可能不太去接触业务,但他需要使用数据,可能需要认证、审批等流程,那么工作效率如何保证?

A4:这也是个非常好的问题。数据认责其实是一个非常难解决的问题,业界也没有一个能够完全解决数据认责问题的最佳实践。“数据二十条”提出,数据的角色要分开,生产者和拥有者有不同的职责。我们对每一个数据会指定一个所有人,负责该数据是否共享,并为合规负责。对于加工者,比如这个数据 A 公司分享给了 B 公司,那么 B 公司就有权使用这个数据,每一个数据加工的背后还有一个特定的场景,数据责任人只负责在这个数据场景之下,这个数据该不该被使用。我们通过这样的以场景驱动的方式来处理认责和合规。
以上就是本次分享的内容,谢谢大家。


分享嘉宾

INTRODUCTION


张森森

平安科技

高级经理

电子科技大学硕士毕业,曾服务于中通服,TeraData 等知名公司。现就职于平安集团科技会安保中心数据管理部门,任技术平台组负责人(高级经理),曾负责引领集团数据中台的规划、建设,现负责集团数据技术管理运营工作以及集团数据管理平台的建设。

活动推荐

往期推荐


音频表征大模型在音乐冷启的应用

Al Agent--大模型时代重要落地方向

金融大模型数据治理与应用创新

字节跳动系统智能运维实践 | DataFun大会分享回顾

实时智能全托管-云器Lakehouse重新定义多维数据分析

Blaze:SparkSQL Native算子优化在快手的深度优化及大规模应用实践

数据赋能实战:企业产品与业务的升级之道!

Spark 内核的设计原理

LLM+Data:大模型在大数据领域应用新范式

沐瞳指标管理与智能分析


点个在看你最好看

SPRING HAS ARRIVED

继续滑动看下一个
DataFunSummit
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存