拒绝“盲人摸象”,数据分类分级方法论与实战总结
数据作为新型生产要素、重要战略资源,其价值与安全的重要性不言而喻,在数据保护和价值利用间的博弈中,数据分类分级作为一项前置性基础工程,也愈发受到广泛重视。
近年来,关于数据分类分级相关的法律法规及国家、各地方、各行业标准陆续出台。《中华人民共和国数据安全法(草案)》明确提出,国家根据数据在经济社会发展中的重要程度以及篡改、破坏、泄露或非法获取、非法利用造成的危害程度,对数据实行分类分级保护。“十四五”规划纲要也重点强调数据安全保护和数字经济安全保障,提出要“推动完善适用于大数据环境下的数据分类分级保护制度”。
数据分类分级的重要性和复杂度
■ 为什么重要?
数据分类分级是数据领域的基础工程。只有对数据的业务归属和重要程度有了明确认知,才能详实的把握敏感数据情况,从而有针对性的采取不同策略来保护管理数据;
数据分类分级是数据治理的前置工作。分类分级工作及过程中所开展的数据资产盘点,为数据资产管理提供最核心也是最基本的元数据信息及数据分类信息,我们可在此之上构建数据资产管理的基本面。
数据分类分级有助于组织间的数据共享和开放。清晰的数据分类目录可供交换双方查阅海量复杂的数据,根据数据分级制定共享条件可以保证数据在流动中的安全性。
可见,数据分类分级既是数据安全治理过程的重要环节,也是数据精细化管控的依据。
■ 为什么复杂?
一方面,数据分类分级工作是一项涉及大量业务知识和数据专业工作的交叉性课题,但目前大部分行业并无通用的标准和方法论,机构缺乏数据分类分级体系、人才、技术支撑,面对庞杂的业务数据难以进行合理、有效、全面的分类分级。
另一方面,机构在业务开展的过程中积累的数据量呈指数级爆发式增长,数据复杂且海量。而目前来看,业界大多数数据分类分级系统实现思路是“先梳理现有数据,再结合人工方式进行分类分级”,这种方式既不够全面,又效率低下、周期长,且主观性比较强,无规范依据。
数据分类分级方法论与实战总结
设计原则
数据分类和数据分级是两种不同的概念。数据分类是指根据组织数据的属性或特征,将其按照一定的原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序,以便更好地管理和使用组织数据;数据分级则是按照一定的分级原则对分类后的组织数据进行定级,从而为组织数据的开放和共享安全策略制定提供支撑。
为满足国家所提出的数据分类分级要求,保证分类分级的规范性,同时有效提升分类分级的准确性和效率,美创科技在结合自身数据安全经验及对相关法律法规、国内外标准研究基础上,形成了一套可操作落地的方法论和配套软件工具,总体设计原则如下图:
模型体系规划先行
结合国家、行业及自身特点,确定数据分类分级策略,包括数据分类分级规范、行业数据分类分级标准、数据安全防护规则等,形成数据发现模型和分类分级模版;
建立数据分类分级组织保障
推动机构信息、业务等部门对工作的深度参与,由美创数据与行业专家组成数据工作组和标准体系制定组,统筹数据分类分级实施工作;
选择成熟的软件工具
美创数据治理产品能够覆盖机构(暗)数据发现、数据分类、数据分级的全流程需求,沉淀行业模板,减少实施周期并确保交付质量;
分步实施,有序推进交付
考虑实际落地过程中的多种因素对分类分级标准和规则进行变更,对增量部分持续进行发现和结果优化,保持产品功能迭代更新。
项目流程
数据分类分级是长期、复杂的工作。具体实现共分为三个重要阶段,即:前期咨询、项目实施和产品沉淀。从规划到落地,美创将确保数据分类分级结果与机构的数据战略、业务战略和谐统一,符合数据安全治理的长远发展需求。
第一阶段:前期咨询阶段
美创科技专家团队和咨询团队组成项目小组,对接机构相关资产部门,对各类数据资源进行全面的收集、整理,确认数据(字段级)的业务含义,合并形成统一的基础数据资源列表。
进而结合国家和行业的标准以及机构业务情况和数据特征,制定数据分类和数据分级标准,确定数据分类分级策略,并交付咨询文档。
第二阶段:项目实施
实施阶段主要通过美创(暗)数据发现和分类分级系统,实现自定义的数据含义识别和分类分级,并输出发现结果。
在部署和使用产品进行资产梳理之前,需要先将制定的分类分级策略关联和内置到产品中,形成行业数据发现模型和分类分级模版,流程如下:
实施人员现场部署产品后,通过创建资产发现作业,由系统自动化完成数据源发现、数据含义的解析,并根据内置模版输出分类分级结果,对于发现的结果由实施人员进行调整,机构业务专家协助确认,确保资产梳理和分类分级的准确性。
通过不断优化识别效果、调整分类分级模版,以达到全面梳理,策略贴合实际的数据分类分级效果,最终形成资产发现清单,并提供结果导出和接口对接的能力,方便机构将分类分级结果输出到资产管理平台、安全管控平台等,实现数据分类分级的最终落地。
第三阶段:产品沉淀
在整个实施过程中,美创根据项目的推进和要求,同步完善产品功能和输出结果,实现产品的持续性使用。
一是通过工具加人工的方式持续对数据分类分级标准进行完善和更新,并补充数据标准和发现规则;二是对于增量数据资源及时的整理到资源列表,并归纳到分类分级中;三是考虑如数据体量的变化、数据所在业务系统发生变更、数据时效性变化以及因业务需要从外部机构获取或者将数据提供给第三方时等情况时,对分类分级标准的变更。
数据分类分级方法
数据分类分级方法主要从业务条线出发,首先对业务细分,其次对数据细分,形成从总到分的树形逻辑体系结构,最后,对分类后的数据确定级别,同时,推荐考虑确定数据形态:
参考图来自:《证券期货业数据分类分级指引》
数据分类
按照科学性、规范性、实用性和拓展性四大原则,根据数据的来源、用途、内容、业务以及管理对数据进行归类,公共数据分类维度主要有以下四类:数据管理、业务应用、数据安全和数据对象。
以安全保护维度为例,根据《信息安全技术 数据安全分类分级实施指南》要求,将数据分为三个大类,包括重要数据、个人信息数据、其他业务数据,如下表:
再根据《信息安全技术 个人信息安全规范》中对个人信息的定义,将个人信息分类为:
数据分级
当完成数据分类之后,按照可执行性、时效性、合理性和客观性四大原则,根据数据价值、重要性、敏感度、影响范围、影响程度、影响对象等要素对数据进行分级。公共数据一般分为极敏感数据(5 级)、敏感数据(4 级)、较敏感数据(3 级)、低敏感数据(2 级)、 不敏感数据(1 级)。除敏感级别外,可增加重要程度、更新影响等维度,以更好的支撑数据分级。
实践过程中,根据实际情况在每个类别可对数据进行分级,并根据各级的安全管控需求,梳理安全控制点,提出分级分类的安全管控规则,常见的分级原则有以下三种:基于等级保护的数据分级、基于风险防控的数据分级、基于数据敏感性的数据分级。
实施效果
实施交付效果-分类分级发现结果总览
实施交付效果-分类分级标准-个人信息(例)
实施交付效果-数据分类分级报告
暗数据发现和分类分级产品优势
丰富的数据源支持
支持多种数据源接入(包括关系型数据库、大数据平台、云数据库等),自动探查数据存储位置,自动发现数据库的数量、IP、端口、类型等信息;
自动化数据含义识别和数据分类分级
引入自然语言处理、统计模型、特征分析、机器学习等方法,可自动化识别语义内容、解析数据含义、发现数据内部关系快速完成数据分级分类,输出多维结果报告;
行业模型沉淀
内置包括医疗、港口、金融、社保等行业的业务模型,还可以通过增加语料完成业务模型自学习,快速适配行业数据,完成业务模型与数据模型的自动映射;
动态扩展能力
适用于组织内部不同数据形态、不同分级分类需求和不同的应用场景需求,包括敏感数据发现规则的动态拓展、元数据管理的动态扩展、指标自定义的动态扩展等;
上下游系统对接能力
数据分类分级的意义在于对分类分级后的数据如何进行精细化安全管控,系统拥有丰富的接口,可对接资产管理平台、安全管控平台等。
请输入标题