直播回顾｜大话数据安全：分类分级不简单

Original 绵总安在 2022-10-30

收录于合集 #新榜直播 19个

今年6月，《2022中国网络安全产品用户调查报告》正式发布，报告一经问世，就引发了热烈的讨论。为此，安在新媒体特别开展了一系列直播活动，在阐释读者疑惑，解答众多争议的同时，也进一步围绕报告中所盘点的热点技术及呈现的重要趋势，邀请行业资深专家和大咖，进行更加深入的交流和探讨。

数据安全是近两年安全行业的新的增长点。数据安全不同于网络安全的是，数据是流动的，围绕着数据全生命周期所施加的保护措施注定与网络安全不同。随着企业数字化转型进程的加快，《数据安全法》等法律法规的实施，数据安全对于企业的重要性也显著提升。即便行业和市场都在积极探索数据安全，但其最基础的工作却始终未能做好，那就是数据分类分级。

数据分类分级应该怎么做？怎样才能不让分类分级制度“挂在墙上”？业界又有哪些成熟的解决方案和实践？8月6日，安在特别邀请中银证券信息安全负责人蒋琼，平安科技信息安全总监郑太海，安华金和事业中心总经理杨海峰，安在新媒体合作人及安在新榜出品人张威，齐聚线上直播分享。本次直播由安在创始人张耀疆主持。

（由左至右，自上而下分别为张耀疆、张威、郑太海、蒋琼、杨海峰）

从报告看数据分类分级

张威介绍到，今年安在发布的报告中得出一个结论，数据安全已然成为网络安全中一个非常重要的子类。前两年发布的报告还并未将数据安全和网络安全的产品区分开，今年的报告已经单独区分，并且数据安全产品大概占到12个种类，占全种类安全产品的10%。数据安全已然成为企业最关注的领域之一，《数据安全法》、《个人信息保护法》是目前让企业合规压力最大的两款法律法规。另一方面，很多企业在业务方面涉及到大量的数据交换，对数据安全的需求就格外的高。

此次报告还显示出，数据安全中的DRP产品成为跌幅较大的产品种类，这意味着传统的数据保护方式已经发生了变化，变成更加精细化的管理，针对不同类型的数据和合规要求，进行不同的管理方式，因此，数据分类分级是目前企业和厂商都需要面对的机遇和挑战。

为什么要做数据分类分级？

张耀疆表示，企业在做风险管理及风险评估之前，第一件事就要做资产梳理。过去资产的概念比较宽泛，梳理起来也很艰难。安全行业虽然在不断创新，但是很多基础性的工作并没有做好，其中一条就是资产梳理，也就是数据的分类分级。数据的分类分级对于安全行业而言究竟代表着什么？

对此，郑太海表示，最初的网络安全是以边界为核心，目标是让攻击者无法进入，确保内部安全。但后来大家发现，内部人员泄密更加难以防守，并且概率更高。实际上为什么要对资产做分类分级，因为那时候大家意识到数据是存在于资产上，要根据资产所存储的数据的重要程度进行分类分级。但渐渐的大家发现，流动的数据才有价值，而且由于数据具有复制性，因此对于数据的观点和视角就要发生改变。当前无论是监管层面还是企业治理层面，都会围绕着数据的生命周期来进行数据保护和治理。

在此基础上，无论怎么治理和保护，无论采用人工还是自动化工具，最终还是要有一个策略化的方式落地。而策略化的前提就是分类分级。另一方面，围绕着数据各周期的保护策略也有所不同，对于这些策略也需要进行分类分级。所以，分类分级就是信息安全最基础的工作。

蒋琼认为，分类分级还有一个前提是确保数据的充分和完整，CMDB看似很简单，但实际做好的并不多，这还仅仅是运维数据，将企业中的所有数据梳理完整还是一件非常难的工作。从合规监管的角度，数据的分类分级是企业必须要做的，但更多企业还是将它落在制度层面，每一家企业或许都可以说有对应的分类分级制度，但实际落地的、产生价值的并不多。

数据分类分级和以往相比的变化有三个方面，第一是现在与传统相比，数据相对动态，因此过去定期的进行分类分级可能并不能支撑现在的数据流动模式。第二是过去更多的是提升管控的效能，即分类分级后要进行风险评估等，现在则是考虑如何做价值发现，牵涉的范围更加广泛，也意味着体系化的必然性。第三是数据驱动，通过数据来促进企业发展，来寻求更高的价值。

杨海峰认为，数据安全与网络安全最大的区别在于数据是流动的，数据是源源不断产生的，而网络具有边界。网络安全的核心是守护好边界，数据安全则是让数据自由且安全地流动。数据流动产生的价值，就是分类分级的基础和目标。

资产的分类分级和现在数据的分类分级的目的是一致的，但数据分类分级还有一个问题就是要保证流动。而流动就意味着变化，形态的变化、内容的变化都会干扰到分类分级的策略，最终影响企业的业务。数据的分类分级是一个基础，能够让企业数据安全能力快速提升，对企业业务发展和数据价值呈现方面都会有很好的影响。

最初，数据分类分级只是数据发现的一个模块，其目的是为了帮助客户梳理资产，并进行相应的管理和安全措施，后来在2016-2017年前后，Gartner提出了分类分级作为单独的产品，各厂商也发现单一的模块已经很难解决问题，需要更加细粒度的定义数据，所以提出了分类分级，后来逐渐发现分类分级占据了数据安全很核心的位置，于是将战略分级和数据发现融合，成为独立的产品。目的是让客户在数据识别和梳理时能够节省更多的精力和人力，通过技术的手段和经验的积累，让这项工作变得简单。

分类分级存在哪些误区和困境？

郑太海提到，分类分级分为挂在墙上和落在地上，很多企业认为这是个技术难题，大家要么将其作为制度束之高阁，要么全部交给技术部门做自动化。实际上，数据分类分级这项工作企业交给IT，IT交给安全，安全再交给厂商，这样的一个循环就是最大的误区。另一方面，数据分类分级要深入业务，而不是找一个咨询公司或厂商来解决，因为模板式的解决方案并不能完全贴合企业，比如财务部门的预算数据、报表数据等动态的数据，是很难通过模板来分类分级的。

第二点，数据的完备性是业务视角，但数据分类分级恰好相反，不能追求一步到位，而是要按部就班，比如先从IT部门开始，不要贪多求全。想要在短时间内将业务数据、客户数据、经营数据、企业知识产权以及IT配置数据等等全部梳理好是不可能的，需要一个部门一个部门的深入。

第三点是不能头痛医头脚痛医脚，需要一个顶层的设计和全局的视角，很多企业要么是监管驱动，要么是事件驱动，他没有站在全局的角度去考虑如何分类分级，这也是不对的。

蒋琼认为，数据分类分级在很多时候明明知道不能毕其功于一役，但还是有时间限制该怎么办。所以数据分类分级有三个难点，第一是组织级的保证，很多企业看似成立了一个委员会，但实际上的职责是不清晰的，而且人力资源的不足也让这项工作难以完成。在深入了解企业某一领域的过程时，分类分级的标准和数据的形态也在发生变化，了解的节奏跟不上变化的节奏，而且追溯机制并不健全，这就让分类分级很难实现。第二点是建标快、落标难，分类分级并不是一个环环相扣的工作，部分企业的数据质量可能并不高，即便进行了分类分级，也不一定能产生价值。最后是缺乏通用性，没有通用性的理论指导，每个人的分类分级措施也就不同，到落地时就会存在差异。

杨海峰表示，数据安全的起点是数据发现，发现之后，再参照法律法规或行业的标准进行分类分级。对于企业来说，如何完备的收集业务数据是个难点，因为一个数据特征所涵盖的业务数据太少，相对而言个人信息就很简单。经过了一段时间后发现，业务数据的产生是一个正向的过程，可数据分类分级是逆向的，各部门对业务数据的定义是不一样的，所以如何能够快速识别业务数据，并自动建立分类是很多企业实际面临的问题。

所以，厂商会先用一些相对智能的方法将业务数据快速归类，然后将业务数据导出后，提取关键字，并去和业务部门沟通各个关键字所表达的含义。最后以业务部门的视角去进行分类分级，这是安华金和近几年来总结出的方法论。另一方面，还要尽可能的自动化，因为人工会因人而异，企业数据的不断流转意味着分类分级工作也会持续不断，重复性的工作如果依赖人工，那么就会导致结果的差异。

数据分类分级如何体系化建设？

杨海峰举了一个例子，银行分为农商行、城商行和股份制银行，针对农商行，因为其业务系统并不复杂，字段数较少，因此在1-2周时间就可以完成核心业务数据的分类分级，准确率在90%以上。股份制银行往往有几十个业务系统，并且都属于核心系统，针对这些数据在识别之后还要提取关键字，并需要业务人员进行备注，但这个过程并不复杂，一般上百万的字段最终会提取出4000-8000左右的关键词。在经过一周多的时间后回收业务人员的备注。然后根据业务理解采用工具进行自动打标分类，整体时长在两个月左右，但这只是建立数据分类分级的基线。

在此基础上还会添加一些学习的能力，形成知识库。让客户可以在后续的分类分级工作中，围绕着核心系统所衍生出来的其他系统进行配对。最后还要对准确率进行打分，准确率如果低于80%，就会再进入一轮数据识别，并结合人工达标，完善AI。这个过程是一个周期，大概半年左右就要进行新一轮的迭代。

一般情况下，数据分类分级工作会由安全部门牵头，通过工具、厂商的服务来完成分类分级工作，但随着数据资产的变化，安全部门就需要通过流量的接入，无论是之前的系统还是新建设的监测系统，通过流量接入后来决定是否做一些新的打标工作。另一个场景是数据管理库牵头，数据管理库能保证数据的完备性。

对此，郑太海提出了几点疑问，第一是加密流量如何解决？第二是落在终端的非结构化数据如何分类分级？第三是企业自建和厂商应该如何协作？

杨海峰表示，首先会采用镜像流量。其次对终端并没有很好的解决方案，这还是当前的一个痛点。最后厂商会在产品发布时同步发布对接接口，一般会有对接第三方和以及对接客户办公系统的接口。用尽可能少的设备去解决尽可能多的流量，对此，安华金和会采用采样等方式。但另一个问题是能否准确的将资产的库、表、字段准确地识别，这其中设计到数据库交互等很多的领域。

蒋琼认为，产品的通用性和差异性是普遍存在的，但哪些内容应该由厂商提供，哪些内容由企业自建是一个问题。

对此，杨海峰表示，这确实是一个普遍的情况，并且很难综合性概括。在很多实际的案例中，厂商会和企业自建的数据资产管理平台对接，对接不仅是要获得企业的数据，还要将企业源数据的信息和结构、动态发现以及分类分级的结果交还给平台进行互补。在这种情况下，企业的资产自研的平台也会体现出很多价值，能够不断发现新资产的同时还会和已有的资产管理结果进行核对和检查。

另外，还会有一些场景是企业将业务数据识别和核心模块和激励学习的核心模块与资产管理系统整合，相当于形成了一个独立的模块，厂商不再获得数据，但要将分类分级和业务数据识别的能力整合，去支撑数据资产管理平台的能力。

安华金和产品演示

在直播过程中，杨海峰对安华金和的数据分类分级产品进行了演示。演示分为几个部分，一个是基于安华金和早期采用和在项目中积累的通用性规则产生的产品能力，另一个是基于智能分析提取业务数据等等。

观众互动问答环节问题精选

提问：数据分类分级是否需要两套标准？一套面向业务应用，一套面向安全？

杨海峰：实际上确实会存在多套标准，但还没有把业务和安全独立出两套不同的标准。一般会分成2C和2B这两种，即个人信息和业务数据。企业往往会同时面临多个法律法规和行业监管的要求，有时个人信息又属于业务数据时，标准就会不同。我认为可以这个想法值得考虑。

蒋琼：我认为很有必要，因为最终的目标是一致的，站在安全视角的分类分级并不是要和业务完全区分，而是在此基础上进行二次加工。

提问：如何解决结构化数据基于内容的自动化分类分级准确率不高的问题？

杨海峰：这我认为是一个误区，最早的分类分级就是对结构化数据中的内容特征加以识别，并进行分类分级，这对于非结构化数据的准确率确实不高。现在应该基于业务数据，行程业务视角的识别，通过字段来对应业务，而不是完全依靠内容识别。

提问：数据安全的分类分级，往往会与实际数据状况产生矛盾，数据治理与数据安全治理同步需要的时候，是否有好方法解决各类共享边界问题？

郑太海：我认为数据治理应该包含数据安全治理，安全治理是其中一个子集，用安全视角去看，数据治理要把安全的管控要求加进去。实际上数据管理部等要求不仅包含安全，还包含很多法律合规、审计方面的要求等等，

蒋琼：我认为这不是矛盾，企业中负责数据治理和负责安全并不一定是同一个组织，这就需要对明确职责。我认为更多的是协同。