重要数据 | 数据分类和分级概念解析
编者按:
关于《数据安全法》,本公号发表过的相关文章包括:
关于数据要素治理,本公号发表的相关文章包括:
提要:
数据安全法确定了数据分类分级是数据安全的基本制度,但没有定义什么是分类什么是分级,不同的法律法规、标准中对分类和分级有不同的表述,也引起了众多不同的解读和探讨,比如重要数据是一种分类还是分级?分类和分级是什么关系。本文从相关的法律法规、标准指南分析出发,深入分析和探讨数据分类和分级的内涵和关系,尝试解答这些问题,供参考了解。
1.1 众说纷纭的数据分类和分级
数据安全法提出”国家建立数据分类分级保护制度“,确定分类分级是国家治理数据安全的重要制度。在组织实务中,分类分级也是数据管理的重要基础性工作,但在数据安全法及条例征求意见稿中,并没有定义什么是分类什么是分级。看了不少谈论数据分类分级的标准、文章,发现目前对分类分级的认知还处于一种众说纷纭的状态,比如,有认为重要数据是分类的,也有认为是分级的,对敏感个人信息、一般个人信息有认为是分类的,也有认为是分级的。
在各种数据分类分级的标准中多数直接谈论如何分类分级,但对什么是分类、分级也缺乏明确的定义,包括这两个词对应的英文翻译也是各种各样,如:
可以看到,同一个英文词汇classification,有标准将其对应到分类,也有标准对应到分级。我为什么特别提到英文翻译呢?我个人认为,对分类、分级概念的混乱一方面是因为缺乏明确的共识定义,另一方面也和英文中最初的用法有一定关系。
美国政府在总统行政令EO 13526里将国家安全保密信息分为Top Secret、Secret、Confidential三个级别,统称为classified information(这里的information和data,以及本文其它地方提到的个人信息和个人数据,information和data两词在没有可影响其内涵的区别场景下不做区分),不涉及保密的数据称为unclassified。中国的保守国家秘密法也是将“国家秘密的密级分为绝密、机密、秘密三级”。这里问题来了,分为三个密级数据的行动或过程是数据分级呢?还是数据分类?按中国语境,显然是分级;美国语境下含义也是分级,但其用语表达是classify/classification,对classified information翻译有直译为分类信息,也有意译为机密信息的。
看看牛津英汉双解词典里classify/classification的解释和翻译:
classify - to arrange sth in groups according to features that they have in common 将 ...分类;将...归类
classification - the act or process of putting people or things into a group or class 分类、归类、分级
可以看出classify/classification主要是分类,其次也有分级的含义。由于美国在安全领域的极大影响力,做信息安全工作的基本都学过或受美国NIST或其它标准指南的影响,这很可能是对分类分级概念混淆的源头之一。
接下来,我再来分析一下到底应该如何理解分类和分级。
1.2 理解数据分类
在数安法和条例(征求意见稿)里都没有对分类和分级进行定义,在一些标准或指南里也是直接提出分类和分级的方式,但没有对其进行定义。我梳理了一下有定义的一些标准,有:
标准 | 相关定义 |
ISO 15489-1:2016 信息和文档-记录管理-第1部分:概念和原则 ISO/DIS 4669 文档管理-信息分类、标记和处理 | classification: 依据逻辑结构约定、方法和过程规则,系统化地对业务活动/记录/信息资产进行识别和/或安排到类别中 |
国家标准《GB/T 38667-2020 信息技术-大数据-数据分类指南》 | 大数据分类big data classification: 根据大数据的属性或特征,将其按一定的原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序的过程 |
贵州地方标准《DB 52/T 1123-2016 政府数据-数据分类分级指南》 | 政府数据分类 government data categorization: 根据政府数据的属性或特征,将其按照一定的原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序,以便更好的管理和使用政府数据的过程 |
综合以上的定义或表述,可以将数据分类的定义归纳为:根据数据的属性或特征,按照一定的原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序,以便更好的管理和使用数据的过程。
因为数据天然具备不同的属性和特征,也必然存在不同的管理主体,出于不同的管理目的、基于不同的数据属性或特征对数据采用不同的分类方法。例如:对于一个打工人的数据来说,有毕业学校及专业、工作部门、户籍地址等等各种各样的属性,出于不同的管理目的,可以用不同的属性来作为数据管理的主分类方式:
就学校来说:院系、专业、班级等可以作为学生管理数据的一个主分类方式;
就工作单位来说:工作部门的层级(一级部门、二级部门…)可以是员工管理的一个主分类方式;
就社区来说:居住省份、地市、区县、社区、居委会可以是居住人员管理的一种主分类方式。
因此数据分类一定是以各种各样的方式并存的,不存在唯一的分类方式,分类方法的采用因管理主体、管理目的、分类属性或维度的不同而不同。
因此,我们在实践中可以看到各种各样的分类,例如:
从业务开展使用数据的视角,看到的是数据的业务特征,比如某企业内有研发、制造、销售、人力资源等部门,大量数据的产生天然就具备业务相关的特征,很自然的数据分类方式就是按业务分类:研发数据、制造数据、销售数据等等。
从IT部门/数据管理部门视角,关注的不是业务分工,而是数据自身在IT系统里如何承载、管理、呈现,所以有IT/数据管理部门将数据分类为结构化数据、非结构化数据,主数据、交易数据、元数据等。
工信部《工业数据分类分级指南(试行)》里提到的分类方式是:”工业数据分类维度包括但不限于研发数据域(研发设计数据、开发测试数据等)、生产数据域(控制信息、工况状态、工艺参数、系统日志等)、运维数据域(物流数据、产品售后服务数据等)、管理数据域(系统设备资产信息、客户与产品信息、产品供应链数据、业务统计数据等)、外部数据域(与其他主体共享的数据等)“
在组织内,业务部门有业务部门的数据分类方法,作为安全管理部门来说,数据分类必然也是要服务于安全管理的目的,而最重要的安全管理目的就是能够指导对数据进行分级,然后基于分级进行相应的安全防护和管控。
1.3 理解数据分级
先看看分级是如何定义或表述的:
数据安全法
第二十一条 国家建立数据分类分级保护制度,根据数据在经济社会发展中的重要程度,以及一旦遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益造成的危害程度,对数据实行分类分级保护。
网络数据安全管理条例(征求意见稿)
第五条 国家建立数据分类分级保护制度。按照数据对国家安全、公共利益或者个人、组织合法权益的影响和重要程度,将数据分为一般数据、重要数据、核心数据,不同级别的数据采取不同的保护措施。
在国家标准《GB/T 25069-2010信息安全技术术语》中,没有定义信息或数据分级,但有安全分级的定义,其内涵实际上是包括了信息的分级:
安全分级(security classification):根据业务信息和系统服务的重要性和受损影响,确定实施某种程度的保护,并对该保护程度给以命名。依据访问数据或信息需求,而确定的保护程度,同时赋予相应的保护等级。例:“绝密”、“机密”、“秘密”。
单从分级的定义和表述来看,非常明确,数据分级就是依据数据的重要程度和影响程度进行的,分级的结果就是区分出了不同等级,进而进行不同等级的保护。
但将分类分级放在一起谈的时候,就引起了分类和分级之间关系的争议和分歧。
1.4 探讨数据分类和分级间的关系
看上面引用的关于分类分级的条文,不知是否注意到了一个细节,同样是在讲分类分级保护制度:
数据安全法里第21条的提法是分类分级
而到了网络数据安全管理条例(征求意见稿)的第5条里,只提了分级而没提分类
另外,在网络安全法提到数据保护时,以及个人信息保护法里,都是没有提分级,只提了分类。
网络安全法第21条第四款:采取数据分类、重要数据备份和加密等措施
个人信息保护法等51条第二款:对个人信息实行分类管理
可以看到在法律法规、标准指南里有时提分类、有时提分级、有时分类分级并提,这正是对于分类和分级引起困惑和讨论的地方。
从本文前面的分析得出的结论:分类是根据数据的属性或特征进行的,也必然存在不同的管理主体,出于不同的管理目的、基于不同的数据属性或特征对数据进行不同的分类方法。再看一下数据安全法第21条和网络数据安全条例(征求意见稿)第5条的表述,都提到了依据数据的重要程度和影响程度,重要程度和影响程度正是安全监管部门(对于国家来说)和安全管理部门(对于组织来说)关注的,重要和影响程度是数据的众多属性之一,分级的目的是分等级保护和管控。因此,我认为可以得出结论:
1. 首先从分类分级的目的和概念上、跳出安全管理范畴站在更高的视角来说:
分类和分级并非简单并列的关系,分类是外延更广、应用范围更广泛的概念,分类可以有多种依据;
分级是安全管理部门、为了安全保护和管控的目的,依据重要性和影响程度而进行的分类,这种分类结果有等级差异;
其它管理主体、为了其它管理目的、依据其它属性和特征进行分类是一般意义上的分类,这种分类结果是没有等级差异的;
换个表达方式说,依据数据的重要性和影响程度进行的分类就是分级,分级是多种分类方式中的一种。
基于上面的认识,当我们默认是在安全保护语境内谈论数据安全问题时,分类分级实质上是一回事,安全分类=分级。这或许正是有时讲分类、有时讲分级、有时合并一起讲分类分级,虽然没有定义,但都知道在说什么的原因。
“分级是分类的一种方式”的看法,从DAMA (国际数据管理协会)的DMBOK (DAMA数据管理知识体系)里的表述可以得到印证。DMBOK没有对数据分类进行定义,但在说明数据分类时表示:
任何管理系统都需要对被管理对象进行分类,数据可以依据数据类型 (type of data,例如:事务数据、参考数据、主数据、元数据等)、或数据内容(例如:数据主题领域)、或数据格式、或数据所需的保护级别,也可以依据如何以及哪里保存和访问数据来分类。
从上面这段话可以看出,DMBOK认为分类可以有多种依据,其中之一就是数据所需的保护级别。DOMBOK说的依据数据所需的保护级别,与前面分析中提到的依据数据的重要性和影响程度实质是一回事,如果实在要说区别,可以说依据重要性和影响程度可以得出所需保护级别。总之,这里的含义就是:依据数据所需保护级别进行分类就是分级,分级是多种分类方式中的一种。
既然说安全分类=分级,是否可以只谈分类或分级?我认为这涉及到另一个视角的问题了。
2. 其次,在安全管理的视角、开展工作层面来说,不论是分类还是分级,目的都只是一个,区分出保护等级。
场景1:在安全管理视角下,只谈分类或只谈分级,这种场景下的分类默认是安全分类,谈分类等于谈分级
例如在个人信息保护法中,只提出了要对个人信息进行分类管理,虽然没有明确说如何分类,但实际是分了两类:一般个人信息、敏感个人信息。从对敏感个人信息的定义上可以看出,本质上是依据对个人影响程度的等级差异,因此这个既是分类,也是分级,其结果也是需要进行分等级的保护和管控。如处理敏感个人信息需要取得个人的单独同意就是比一般个人信息要求更高的管控;在实践中,对敏感个人信息通常也会采取比一般个人信息更高等级的安全保护措施,包括更严格的访问控制、加密等。
场景2:在安全管理视角下,将分类和分级视为两个不同的活动,那么这种场景下分类是过程或方法,分级是结果或目的。
例如在美国的国家安全保密信息总统行政令里,对于classification有两个概念,一个是classification categories(分类目录),文件中给出了军事、情报、科技等8个类别;另一个是classification level(分类级别/分级),就是绝密、机密、秘密3个等级。并且明确指出将政府信息列入classified必须满足的条件之一就是落入8个指定目录类别中的一个或多个。在这里,分类显然是分级的一个条件或前置步骤。这8个分类目录显然并非是政府信息的目录类别的全部。比如,在受控非机密信息(CUI,Controlled Unclassified Information)中,信息的分类目录就有20个大类(如能源、金融等)和125个子类。因此,我认为,从安全管理视角的分类目的是为了方便将业务数据进行分级的一个步骤或过程,其分类和业务的总体分类有很强的相关性,但不一定完全等同。
根据数据安全法的要求,各地区、各部门需要制定重要数据目录,可以认为,这个目录就是分类目录。因为后来又出来个核心数据。那么对于组织来说,根据核心数据、重要数据目录去识别具体的数据是核心数据、重要数据还是一般数据的过程就是定级过程。
通信行业行标《YD/T 3751-2020 车联网信息服务-数据安全技术要求》中,是先将数据分类为基础属性类、车辆工况类、环境感知类等以及若干子类,然后每类数据中都再分了一般数据、重要数据、敏感数据三个等级(注,此重要数据非数安法里的重要数据)。
对于个人信息保护方面,通信行业行标《YD/T 2781-2014 电信和互联网服务-用户个人信息保护-定义及分类》中将用户个人信息先分为用户身份证明类信息、用户数据和服务内容信息、用户服务相关信息等3大类6子类13细类,然后在《YD/T 2782-2014 电信和互联网服务-用户个人信息保护-分级指南》里对每个细类分配给5个不同的敏感等级,比如用户身份证明细类中的身份证复印件分级为最高的敏感等级5级,用户级别资料细类中的身份证号分级为到敏感等级4级。
分析过数据分类和分级的关系,再来看数据分类和分级对应的英文,我个人认为如果单独谈分类、分级,用classification是没有问题的,但如果把两个放在一起谈论的时候,分类用categorization、分级用classification比较好。
1.5 小结
对于数据分类和分级概念造成比较混乱的原因一方面是缺乏明确的有共识的定义,另一方面是英文大量使用的classify/classification这个词本身就有多重含义。
数据分类是根据数据的属性或特征,按照一定的原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序,以便更好的管理和使用数据的过程。依据数据的重要性和影响程度进行的分类就是分级,分级是多种分类方式中的一种。
分级概念比较单一明确,分类概念外延更广,分类在不同场景下有不同的内涵,谈论分类必须结合场景。在安全管理视角下,如果只谈分类或只谈分级,这种场景下的分类默认是安全分类,谈分类等于谈分级;如果将分类和分级视为两个不同的活动,那么这种场景下分类是过程或方法,分级是结果或目的。
最后,现在再来看”重要数据是分类还是分级“这个问题就比较清楚了:谈论分类还是分级的时必须要看场景,必须有相比较的对象,然后从其比较依据来确定是分类还是分级,如果依据是重要性和影响程度,则是分级,否则是分类。
在网络安全法里,并列提及重要数据和个人数据的时候,重要数据和个人信息之间是一种分类,这个分类不能表示两者之间谁更重要,只是表示需要监管的两类数据;但把重要数据和个人信息作为需要监管的数据整体来和一般数据比的话,就是分级。
在网络数据安全管理条例(征求意见稿)里提及核心数据、重要数据、一般数据时,重要数据是一种分级,它和其它级别数据相比,重要程度、影响程度不同因而需要有不同的保护级别。
参考资料
网络安全法
数据安全法
网络数据安全管理条例(征求意见稿)
工业数据分类分级指南(试行)
ISO/IEC TS 27100:2020 Cybersecurity -Overview and concepts
ISO/IEC 27032:2012 Guidelines for cybersecurity
ISO/IEC 27000:2018
Information security management systems — Overview and vocabulary
GB/T 29246-2017 信息技术 安全技术信息安全管理体系 概述和词汇
GB/T 25069-2010 信息安全技术 术语
The President Executive Order 13526 Classified National Security Information
ISO 15489-1:2016 信息和文档-记录管理-第1部分:概念和原则
ISO/DIS 4669 文档管理-信息分类、标记和处理
GB/T 38667-2020 信息技术 大数据 数据分类指南
YD/T 3813-2020 基础电信企业数据分类分级方法
JR/T 0197-2020 金融数据安全 数据安全分级指南
JR/T 0158-2018 证券期货业数据分类分级指引
DB 52/T 1123-2016 政府数据-数据分类分级指南
YD/T 2781-2014 电信和互联网服务-用户个人信息保护-定义及分类
YD/T 2782-2014 电信和互联网服务-用户个人信息保护-分级指南
YD/T 3751-2020 车联网信息服务-数据安全技术要求
DMBOK (DAMA数据管理知识体系)第2版
洪延青:重要数据 | 级别概念 vs 类别概念
【小贝说安全】数安条例百问7、8:关于数据分类分级保护制度和管理
域外数据安全和个人信息保护领域的权威文件,DPO社群的全文翻译:
DPO线下沙龙的实录见:
个人数据与域外国家安全审查系列文章
围绕着TIKTOK和WECHAT的总统令,本公号发表了以下文章:
第29条工作组/EDPB关于GDPR的指导意见的翻译:
关于美国出口管制制度,本公号发表过系列文章:
供应链安全文章:
传染病疫情防控与个人信息保护系列文章
关于数据与竞争政策的翻译和分析:
健康医疗大数据系列文章:
网联汽车数据和自动驾驶的系列文章:
关于中美与国家安全相关的审查机制的系列文章:
美国电信行业涉及外国参与的安全审查(一):基本制度介绍
美国电信行业涉及外国参与的安全审查(二):国际性的第214节授权
美国电信行业涉及外国参与的安全审查(三):建立外国参与安全审查的行政令
美国电信行业涉及外国参与的安全审查(四):FCC对中国企业的陈述理由令
网络空间的国际法适用问题系列文章:
赴美上市网络、数据安全风险系列文章如下:
人脸识别系列文章:
关于欧盟技术主权相关举措的翻译和分析:
关于保护网络和信息系统安全的相关文章包括:
数据执法跨境调取的相关文章:
关于人工智能安全和监管,本公号发布过以下文章:
数据的安全、个人信息保护、不正当竞争等方面的重大案例:
中国个人信息保护立法的相关文章包括:
《数据安全法》相关的文章包括:
数据要素治理相关的文章包括:
《网络数据安全管理条例(征求意见稿)》系列文章:
个性化广告系列文章包括:
数据执法跨境调取的相关文章:
业务场景中的数据跨境流动文章如下:
数字贸易专题的系列文章有: