数据分类分级的概念、方法、标准概述
数据战略上升为国家战略,数据资产成为国家各行各业的核心资产。在数字化时代,数据分类分级成为数据资产管理的重要组成部分。
通过数据分类分级管理,可有效使用和保护数据,使数据更易于定位和检索,满足数据风险管理、合规性和安全性等要求,实现对政务数据、企业商业秘密和个人数据的差异化管理和安全保护。标准成为数据分类分级管理的重要抓手,为特定范围内的数据分类分级提供标准支撑,在国际、国家和各行业均取得了一定成效。
本文从数据分类分级概述、数据分类分级在国家层面、国际层面、行业层面和地方层面的实践、以及数据分类分级的方法等方面阐述数据分类分级的必要性和在国家、行业和地方的数据改革和数据治理中发挥的重要作用。
一 建设背景
1.1数据分类分级概念解析
1.1.1数据分类概念及解析
数据分类:根据数据的属性及特征,将其按一定原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序的过程。数据分类一定是以各种各样的方式并存的,不存在唯一的分类方式,分类方法的采用因管理主体、管理目的、分类属性或维度的不同而不同。
1)业务开展使用数据的视角--看到的是数据的业务特征,比如某企业内有研发、制造、销售、人力资源等部门,大量数据的产生天然就具备业务相关的特征,很自然的数据分类方式就是按业务分类:研发数据等等
2)IT部门/数据管理部门视角--关注的不是业务分工,而是数据自身在IT系统里如何承载、管理、呈现,所以有IT/数据管理部门将数据分类为结构化、非结构化数据,主数据、交易数据、元数据等。
1.1.2数据分级概念及解析
数据分级:按照公共数据遭到破坏(包括攻击 、泄露 、篡改 、非法使用等)后对国家安全 、社会秩序 、公共利 益以及个人 、法人和其他组织的合法权益(受侵害客体)的危害程度对公共数据进行定级 ,为数据全生命周期管理的安全策略制定提供支撑 。
1)《数据安全法》第二十一条 国家建立数据分类分级保护制度,根据数据在经济社会发展中的重要程度,以及一旦遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益造成的危害程度,对数据实行分类分级保护
2)《GB/T 25069-2010信息安全技术术语》依据访问数据或信息需求,而确定的保护程度,同时赋予相应的保护等级。例:“绝密”、“机密”、“秘密”
1.1.3数据分类和分级间的关系
分类和分级并非简单并列的关系,分类是外延更广、应用范围更广泛的概念,分类可以有很多种依据;在安全管理的视角、开展工作层面来说,不论是分类还是分级,目的都只是一个,区分出保护等级。
分级是安全管理部门、为了安全保护和管控的目的,依据重要性和影响程度而进行的分类,这种分类结果有等级差异;
其它管理主体为了其它管理目的,依据其他属性和特征进行分类是一般意义上的分类,这种分类结构是没有等级差异的;换个表达方式说,依据数据的重要性和影响程度进行的分类就是分级,分级是多种分类方式中的一种
首先从分类分级的目的和概念上,跳出安全管理范畴站在更高的视角来说:
1)在安全管理视角下,只谈分类或谈分级,这种场景下的分类默认是安全分类,谈分类等于谈分级
2)在安全管理视角下,将分类和分级视为两个不同的活动,那么这种场景下分类是过程或方法,分级是结果或目的。
对于数据分类和分级概念造成比较混乱的原因
1)一方面是缺乏明确的有共识的定义
2)另一方面是英文大量使用的classify/classification这个词本身就有多重含义
谈论分类还是分级时必须要看场景,必须有相比较的对象,然后从其比较依据来确定是分类还是分级
1.1.4分类常见的方法
1)MECE是(Mutually Exclusive Collectively Exhaustive)的缩写,指的是“相互独立,完全穷尽”的分类原则。通过MECE方法对问题进行分类,能做到清晰准确,从而容易找到答案。
按照系统化思维和结构化方式,通过对业内已经实现的需求进行全面梳理,找到基于业务本身的“原子级”需求,将大量看似个性化的需求概括、提炼为共性需求,形成符合MECE原则的全需求。在此基础上,根据具体企业情况进行删减,形成企业在今后一个阶段需要的需求全集。
业务指标梳理(MECE)范例
第一,按照业务线一通到底,基于最底层业务进行梳理,而不是分层梳理。(以下为主,上下结合)
第二,按照行业一流构建指标全集,然后根据具体企业情况进行删减,而不是按照企业现状进行梳理。(全指标、做减法)
2)线分法和面分法及混合分法
线分类法、面分类与混合分类法差异
3)数据主题域:比较适用于从业务应用维度进行划分,建议采用以业务为主的1+N+1数据主题域划分方法
各级主题命名应能准确表达主题的含义和功能。业务主题域命名一般采用动宾结构的短语(动词+名词,或名词+动词),为动词化的名词,动词为业务的概括说明,名词为过程或对象。同时主题命名应遵循以下规范:
1)高度概括;
2)简明而不含糊;
3)不要加入描述性说明或嵌套概念;
4)全主题域具有唯一性。
数据主题域模型
4)技术选型维度,如按存储方式、数据稀疏程度、处理时效性,数据交换方式;
5)以业务应用维度:如业务数据产生来源、业务归属、流通类型、行业领域、数据质量;
6)信息安全隐私方面的分类法。
1.2国际和国内相关标准介绍
在国际上,对数据分类分级统称为数据分类,是指按照相关类别组织数据的过程,根据需要对分类的级别和类别进行分别描述,可以更有效地使用和保护数据,并使数据更易于定位和检索。目前,国际上通用的分类方法主要有《杜威十进分类法》(DDC)、《国际十进分类法》(UDC)、《美国国会图书馆图书分类法》(LCC)、《冒号分类法》(CC)、《书目用图书分类法》(BC)等,其中,《杜威十进分类法》(DDC)、《国际十进分类法》(UDC)、《美国国会图书馆图书分类法》(LCC)是世界三大分类法。与此同时,国际上也发布了数据分类的相关标准,比如ISO/IEC 27001:2013《信息安全管理体系要求》。
在国家层面,我国将数据分类分级进行了区分,分类强调根据种类的不同按照属性、特征而进行的划分,分级强调对同一类别的属性按照高低或大小进行级别的划分。在国家层面,出台了相关法律法规、政策文件、标准规范等提出了对数据分类分级的要求和建议,国家标准GB/T 21063.4—2007《政务信息资源目录体系 第4部分:政务信息资源分类》给出了政务数据的分类方法和主题分类类目;GB/T 38667—2020《信息技术 大数据 数据分类指南》,给出了数据分类过程、数据分类视角、数据分类维度和数据分类方法,指导大数据分类。GB/T 36073-2018《数据管理能力成熟度评估模型(DCMM)》是给出了结构化数据资产的分类方法,这是通常我们在企业大数据集成、应用、分析处理领域,以及数据资产管理角度关注的数据分类方法,该标准把数据分成:参考数据、主数据、指标数据、数据元。
在行业层面,工业、金融等领域以明确提出了行业数据分类分级管理的具体要求。2020年2月,工业和信息化部办公厅印发《工业数据分类分级指南(试行)》中建议结合行业要求、业务规模、数据复杂程度等实际情况,围绕数据域进行类别梳理,形成分类清单并将数据划分为3个级别;2018年9月,中国证券监督管理委员会发布JR/T 0158—2018《证券期货业数据分类分级指引》中给出了证券期货业数据分类分级方法概述及数据分类分级方法的具体描述,并对数据分类分级中的关键问题给出处理建议;JR/T 0197—2020《金融数据安全 数据安全分级指南》金融行业标准,给出了金融数据安全分级的目标、原则和范围,明确了数据安全定级的要素、规则和定级过程,并给出了金融业机构典型数据定级规则的实践;此外,国家标准GB/T 4754—2017《国民经济行业分类》从国家宏观管理角度对全社会经济活动从门类、大类、中类和小类四个层次进行分类。
在地方层面,针对政务数据分类分级,目前贵州、上海、青岛、浙江等出台了相关标准或文件,对本地区的政务/公共数据分类分级提出建议或要求,贵州发布了DB52/T 1123—2016《政府数据 数据分类分级指南》;浙江省杭州市发布了DB3301/T 0322.3—2020《数据资源管理 第3部分:政务数据分类分级》;上海市出台了《上海市公共数据开放分级分类指南(试行)》;青岛市出台了《青岛市公共数据分类分级指南》。
二数据分类分级必要性
数据分类是数据管理的第一步,是数据治理的先行条件。当前,数据应用方兴未艾。“数据”作为新的生产要素资源,支撑供给侧结构性改革、驱动制造业转型升级的作用日益显现,正成为推动质量变革、效率变革、动力变革的新引擎。但与此同时,数据管理中存在问题日益显现:
2.1缺乏对数据保护重要性的认知
没有认识到数据分类分级在数据治理和数据管理工作中的基础性作用,对分类分级投入产出不高,对此项工作优先级排在其他业务事项之后,忽略了数据安全问题与个人和社会息息相关。
2.2缺乏数据分类分级的技术和方法
由于数据分类分级正处在探索发展阶段,尚未形成成熟的分类分级体系,导致企业和行业无法掌握合理的分类分级方法,从而无法在实践中应用,缺乏有效的建设、管理和使用方式。
由于企业业务和管理的多样性、差异性和变化性,对数据的采集、统计、分析造成很大困难。在数据标准方面:没有统一规范数据的定义、范围、单位、格式、频次、责任部门。在数据采集方面:金字塔辐射式采集,重复要数、多头要数、频繁要数,同数多值、反复改数、人变数变等现象十分普遍。
数据分类分级项目难点与挑战
——业务分类问题
——业务指标问题(每类业务应该有哪些指标,以及指标的定义、范围、格式、频次)
——不同层级企业对同一业务的指标要求不同
——同一层级企业对同一指标的管理颗粒度不同
——同一指标的统计口径不同
2.3缺乏数据管理的制度
数据管理过程中,存在执行不到位、开发利用不深入、流通共享不充分、缺乏有效应用和管理流程等问题,尚未完全发挥对数字经济的放大、叠加和倍增作用,使数据失去了价值。
国际上发布了数据分类的相关标准,ISO/IEC 27001:2013《信息安全管理体系要求》指出信息分类的目标是确保信息按照其对组织的重要程度受到适当的保护,并对信息分类提出了明确要求。
在国家层面,2021年施行的《中华人民共和国数据安全法》第二十一条中提到“国家建立数据分类分级保护制度,根据数据在经济社会发展中的重要程度,以及一旦遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益造成的危害程度,对数据实行分类分级保护。”各类政策文件也明确提出了数据分类分级的要求。中共中央、国务院《关于构建更加完善的要素市场化配置体制机制的意见》中明确提出:推动完善适用于大数据环境下的数据分类分级安全保护制度,加强政务数据、企业商业和个人数据的保护;《中华人民共和国数据安全法》明确规定:根据数据在经济社会发展中的重要程度,以及一旦遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者公民、组织合法权益造成的危害程度,对数据实行分类分级保护。
在行业层面,工业和信息化部办公厅印发《工业数据分类分级指南(试行)》(工信厅信发〔2020〕6号),从促进工业数据的使用、流动与共享等角度,对工业数据分类维度、工业数据分级管理和安全防护工作提出了明确要求,指导企业提升工业数据管理能力,促进工业数据的使用、流动与共享,释放数据潜在价值,赋能制造业高质量发展。2018年中国证券监督管理委员会发布JR/T 0158—2018《证券期货业数据分类分级指引》指导证券期货行业机构、相关专项业务服务机构、相关信息技术服务机构开展数据分类分级工作。2020年中国人民银行发布JR/T 0197—2020《金融数据安全 数据安全分级指南》指导金融业机构开展数据安全分级工作,以及第三方评估机构等参考开展数据安全检查与评估工作。
在地方层面,数据分类分级保护制度、实行分类分级保护等规定逐渐渗透到了地方日常的数据管理中。公共数据资源的开放和利用是培育数据要素市场的重要举措,因而针对其分类分级制度的探索也已在多地展开。日前,贵州、上海、青岛、浙江等出台了相关标准或文件,对本地区的政务/公共数据分类分级提出建议或要求。
后续本公众号会陆续介绍分类分级等相关内容,欢迎关注。