数据=新生产要素,数据安全之墙如何建?
点我
❑ 导 读
将数据作为生产要素,在社会上的探索已经开展多年了。
全文共计7833字,预计阅读时间10分钟
来源 | 数据观(转载请注明来源)
作者 | 陆宝华 方兴 白小勇 钱晓斌 李科 苏欣
编辑 | 蒲蒲
中共中央、国务院2020年3月30日公开发布了《关于构建更加完善的要素市场化配置体制机制的意见》(以下简称《意见》),在意见的第六章中,就数据作为生产要素提出了明确意见。
将数据作为生产要素,在社会上的探索已经开展多年了。以贵阳为核心的贵州省对大数据产业进行了探索,BAT等网络服务商、电信与网络运营商等近几年也都有不错的建树和积累,同时,对数据在生产过程中的安全也有不少探索,比如DSMM数据安全能力成熟度模型国家标准;全知科技(杭州)公司提出了“数据作为生产资料”和“数据在生产过程中”的安全观点及相关解决方案等。这些都是非常有意义的探索,可以作为对数据生产要素研究工作的基础。
但是,我们以往对数据的保护,从等级保护体系到风险评估体系(注:这两个体系没有本质上的区别),从国内到国际,普遍是以对“资产”的保护态度,侧重以保险柜模式进行保护。因此,我们在数字经济新阶段要面对和解决新问题,比如传统数字资产保护思路是否会影响到数据作为“生产要素”,是否需要提出一个适应于数据作为“生产要素”的保护体系等。
实际上,早在2016年,笔者在贵阳探索“大数据安全的顶层设计”时,就已经开始遇到了这样的问题。当时在对大数据的挖掘中,发现了基于数据安全属性的访问控制将失效,利用大数据挖掘,可以发现个人隐私,通过已知数据,可以推导出未知数据等带有生产性质的问题,但是当时还没有明确将数据作为生产要素,也没有从数据作为生产要素这一命题出发来思考,也不够系统化。
数据作为生产要素的思考
1.1数据与其他生产要素的关系
“生产要素”概念的提出还要回溯到马克思历史唯物主义对“生产力”与“生产关系”的论述,生产力有三要素:
1)劳动力(或劳动能力),是“人的身体即活的人体中存在的、每当人生产某种使用价值时就运用的体力和智力的总和”。
2)劳动资料(也称劳动手段),是劳动过程中所运用的物质资料或物质条件。
3)劳动对象,即劳动过程中所能加工的一切对象,包括自然物和加工过的原材料。
而五大生产要素本质是生产力的构成:人、物(土地)、财(资本)、技(知识)、数,自古以来都有。“劳动力”是人,“劳动资料”是物、财、技、数,“劳动对象”是物、财、技、数,只是当社会发展到一定阶段才成为单列必要。比如狩猎时代生产要素只有人;农耕时代突出了土地;工业时代突出了资本和技术;而数字经济时代突出了“数据”,所以《意见》中的观点,本质上是人类社会发展到新阶段的“生产力范围延伸”。
作为生产要素的数据,即有劳动资料的属性,即在生产过程中要运用的物质资料和物质条件,同时也是劳动对象,即对数据本体进行加工和再生产。
从这五大要素上来看,其他四项要素都具有相对的独立性,并且这些要素的改变随着时间一般来说是渐变的过程,一般不会发生突变。
数据与其它要素之间,既具备独立性特点,也存在着明显相互作用。一方面其他四要素可以作为数据的来源,另一方面数据又可以反作用回其它四要素。同时,这种作用可以是渐变的,也可以是突变。
1.2作为生产要素的数据的分类与场景分析
数据作为生产要素具有广义性的特点,因此对社会的服务与治理,也可以认为是一个生产过程。
1.2.1 数据的类别
数据作为生产要素,可分为若干多的类别,首先从国民经济行业划分。
第一产业(比如农业):包括气象、水利、土地、土壤、种子、肥料、劳动力状况、农业机械、相关能源、产业政策、相关地区历史性数据、植保、粮食价格、国际形势及粮食价格、医疗卫生等,这些数据可能直接作用于统计决策,对从事农业生产的各类主体会有比较大的影响。相应的安全需求,仍然可以考虑将原始数据作为资产进行保护,而对于统计、分析的结果数据仍然可以作为资产进行保护。特别应该关注的是原始数据的准确性。
第二产业(比如制造业):分为离散制造业和流程制造业,这两大类企业在将数据作为生产要素时,数据的应用过程,数据对产品的影响,以及生产出的新的数据产品会各有不同,相应的应该根据具体的生产情形进行进一步的安全需求分析。不过工业类企业的数据的复杂度,并不是特别的高,往往是与产品的技术、销售、企业管理等相关的数据。一般的不会包含企业之外的涉及个人隐私数据。
第三产业(比如服务行业):包括政务、公共服务业、专门从事某一类服务的产业。之所以把政务也纳入到服务性产业当中,是因为政府就是为人民服务的,当然还存在着对社会的管理和治理,但是对社会的管理和治理,从对大多数人的利益上来说,也是服务;具有公共服务性质的事业机构:如医疗、教育等;再有一类就是在政府指导下的公共服务类行业,如公共交通、水、电、气、暖等;还有一大类是属于纯产业性质的企业:如软件的定制开发、网络运营商、电商、物流、商品零售业等。各种类型的服务,大到对其他企业和政府部门的服务,小到对个人的服务。这一类的数据是最为复杂的,既包含了大量的个人数据,也包含企业和政府自身的数据、合作关系的其它机构的数据等。这个行业的数据的作为生产要素的情形也会最为复杂,其安全需求的分析应该是不容易的。
当然,还有其他很多不同类别的分类方法,去分析数据的类别,进一步研究数据分类角度,对深入理解数据要素是很有意义的。特别是,我们不仅要考虑数据的当前的资产价值,还要考虑数据增值(未来价值)。而对数据增值的分析和评估,也是我们对数据的安全保护所要考虑到的。
1.2.2 数据的生产场景分析
数据作为生产要素形成产品可以分为两大类,一类是将数据作为物质资料和物质条件生产的实体类产品;而另一类则是再生的数据类产品;所以组合后可能会有四种基本情况:
一是输入数据,数据不改。数据直接服务于生产,包括对传统产业的改进,或者是直接作用某一种传统的产品。而这种产品的产出,并不会对数据产生任何的改变。在这样的情况下,数据仍然是资产的属性,不过是对数据的直接应用罢了。
二是输入数据,数据改变。数据应用到生产,作用于某种产品,同时根据生产过程中的反馈,导致数据也要发生修改。从这一点来说,数据仍然可以考虑其资产的属性,等于是修改数据的权限,赋予了生产过程。生产过程是主体,可以利用智能的手段,或者人工的手段对数据进行修改。
三是输入老数据,生成新数据。要通过对原有数据综合、分析、挖掘等,生产出新的数据(包括预测分析、语义引擎、聚类、分类、统计、可视化、描述性分析、诊断性分析、指令性分析等的结果),而这些新的数据带来的价值的增殖。
在这种情况下,对原有数据就不能简单只看到数据的资产属性了,原有的数据,既有其资产的属性,也有作为生产原料的属性,同时还有劳动对象的属性,其保护思路是要改变的。而新生产出来的数据,则仍然具有资产的属性。
四是数据共享与协同。数据共享不产生新的数据产品,也不会生产出其他的产品,但是可以避免重复性的工作,提高了效率,降低的费用。社会成本的降低也应该认为是增值价值的,减少投入就是收益。
如病人在一个医院的检查结果,共享到其他的医院,对病人来说是降低了费用,对于医院来说,提高的相应的检查效率。对于一个人的从生到死,相关的政府部门都要掌握相关的数据,如公安的人口管理、社会保障部门的服务、民政部门的服务、其他相关的部门的服务等。
在数据共享中,有些是必然相关的,还有些是属性随机相关的。有些数据属于基础数据,而另一些可能是具有情报学意义的数据,特别是一些商业性的企业,对各类数据的情报分析对于相应的销售行为是有非常重要的意义的。
对数据保护的思考
一个完善的保护体系方案,必须建立在对安全需求充分理解的基础之上。安全需求,则需要我们对可能的安全事件及影响进行充分的识别。无论是从风险评估体系,还是等级保护体系都面临了相应的挑战。
从风险分析的观点出发,与风险相关的三个基本因素是:资产的价值、威胁和脆弱性。
2.1.1 数据资产价值分析
对于作为生产要素的数据,不仅要考虑作为资产的当前价值,还要考虑其增殖价值,如何来衡量,是一个需要解决的问题。风险评估中,对资产价值的赋值是依据数据当前的安全属性,根据其保密性、完整性的安全要求,来决定给其进行相应的赋值。在等级保护中,GB/T22240[参考资料1]也明确提出依据业务信息(指的就是数据)的机密性和完整性进行赋值,以决定数据的安全等级,进而确定所承载系统的安全等级。并且无论是风险评估,还是等级保护我们都是对一个一个的单个数据客体进行这样分析,从中取最高值。
当数据作为生产要素后,我们对数据的赋值,即要考虑当前数据安全赋值,还要考虑这些数据的增殖效应,而这个增殖效应是未来的。并且这个增殖效应是有不确定性的,由于运用这些作为“资料和条件”的劳动力(或劳动力团队)的知识水平、分析判断能力、使用的加工工具等因素的不同,增殖的结果往往会不同,其价值当然也不相同。
并且这个价值的评估,不应该简单仅仅依赖于数据的保密性、完整性,还要考虑这个增殖的结果本身的其他价值,比如对国计民生的意义,对国防的意义等。如何来衡量这个未来的价值,虽然需要结合到具体的数据集群,劳动力集群等进行分析评估,但是最终应该给出一个相应指导方法来才行。
在以将数据作为资产来保护时,我们是对单个数据进行这样的赋值的,而对于作为生产要素的数据往往是一个数据集群,单个数据的价值并没有那么大。
数据的增殖价值,还体现在共享这些数据劳动力(或者是劳动力团队)。有一种说法,数据越共享,产生的价值越大。我们先不讨论这一命题,需要分析的是,数据共享出去以后,共享团队所产生的增殖价值,对当前团队的意义是什么,对当前团队的利益是增加,还是受到侵害。这就不可能不涉及到共享范围和对共享对象的评估问题了。
2.1.2 数据威胁分析
作为风险的第二个因素,是对威胁的分析,威胁源与应用的场景是密不可分的。对于作为资产进行的保护,我们可以用隔离的办法,将相当一部分威胁源隔离出去。而对于作为生产要素的数据来说,这种隔离是不容易实现的。并且由于共享的团队的加入,会导致威胁源的攻击入口增加。
2.1.3 数据脆弱性分析
作为风险的第三个要素,是自身的脆弱性问题。对于传统的结构化数据保护,由于数据的量小,一般一台独立的服务器,及这台服务器的上操作系统、数据库和应用程序所构成的计算环境,可以提供对这个数据的基本保护(授权机制),但是对于作为生产要素的数据,会有大量的非结构化数据,而这些数据首先是“量”大,某些应用数据已经达到TB级别,未来可能会达到PB级甚至更高,此时,一台服务器及相关的计算环境是无法对这个数据进行基本保护的。同时,生产的过程,数据处于流动状态,动态化,多用户都构成了相应的脆弱性。
我们对数据作为生产要素存在的风险,应该说认识还是初步的。更多更细的问题,还没有认识到。
利用生产,是可能生产安全风险的,主要是利用已知条件,推导出未知因素。主要是两大方面,一是个人隐私的泄露问题,另一类是敏感信息的泄露。
利用已知推导未知是大数据的普遍的分析方法,这也是一个生产过程
利用导航定位数据为一个人的活动进行画像,并不是一件困难的事情;通过手机联系人的关联,很容易分析一个人的朋友圈等。如果这些仅仅是为了商业利益,并且有适度的管控,问题还不大。但是,如果被恶意利用,就可能导致重大的安全问题。有人说,“把大数据利用得最好的是诈骗犯”是有一定的道理的。
同样利用已知的公开数据,是有可能推导出一个机构的未知数据的,如果是这个机构的敏感数据,那么对这个机构来说威胁就大了。
安全解决方案的思考
【参考资料2】中,提出了负信任的问题,这是一个针对近期被炒的“零信任”概念所提出的,笔者并不认为“零信任”是新理念,而认为是在新包装下的正确安全理念的回归。可这个回归,仍然还是将数据作为资产保护的基础。
负信任的提出者认为:零信任体系是我信任我赋权的主体对象,但我无法信任当前登录的这个用户就是我相信的那个主体,因此我需要结合很多维度的信息来识别对象,比如结合登录设备指纹,用户的登录方式,同时根据登录场景和工作需求给与用户最小化的授权,并在以后各自变化中持续验证这个主体对象。负信任是对零信任的进一步深化。
而“负信任”是因为在生产过程中,从效率和成本角度,我们很难将生产交给完全可信的主体对象去完成,很多时候我们必须依赖不那么可信的人来完成我们生产的过程,也就是我必须给予不可信任的对象权限去完成生产,我确定了你是你,但我还是无法相信你,我又不得不用你,因此要以一种“监工”的身份,对主体对象的行为遵从性进行监督,同时还要观察数据对象的各自状态变化来确认安全状态。
数据作为生产资料的情形下,负信任的问题是我们必须面对的。在零信任条件下,我们还可以建立起一个主体对应一个客体的细粒度的依据数据属性授权访问控制机制,而在生产的情形下,这种细粒度的访问是做不到的。
如在数据的挖掘过程中,一个主体面向的是一个数据集群,而不是一个单一的数据客体。这个数据集群,虽然各个客体都有自己强调的安全属性,但是为了挖掘的实现,我们不能依赖于这些数据的属性,而必须将这些数据一块交给一个挖掘主体。而这个主体,正常情况下所关注的,应该是这个数据集群中的某些具有特征信息的量,而不是每个数据客体中的全部。
同样,对于一个数据集群,所面对的也不是完成某一任务的单独的一个主体,单一任务就可能面向多个主体,同时还可能面向多个任务。
在这样的条件下,提出“负信任”的概念是有合理性的。
参考资料2中,还给出了一个七步的RPCMART安全模型,参考资料3中了提到了生产安全和生态安全问题。本文暂不进一步展开解读这些内容,而是要提出我们对安全解决方案的一些思考,当然这只能还是停留在思考的层面上,还不是一个完整的解决方案体系。
3.2.1 数据的分区管理
在现实社会中,一个生产型的企业,会将原料、半成品、加工车间和成品分区分域的进行管理,相应的库房也是材料库,半成品库,成品库等,这样就非常方便的进行管理了。并且材料库还可以再细分一般性的原材料库和重要的原材料库,加工原料,是要有相应的“领料”手续的,而在生产过程中,还要有过程上的管理,包括质量的管理和材料的管理,甚至有些“废料”都是要进行管理的。
网络空间的安全的规则和方法,可以认为是现实社会安全规则与方法在网络空间中的映射,相应的对于“数据作为生产要素”我们也完全可以参照现实社会中的一些规则和方法进行分区管理。
我们建议按照图1的方式作基本的分区:
图1:数据的分区管理及基本的安全方法
对于数据的其它区域,仍然可以按照数据是资产这一思想进行保险柜式的保护,相应的国家的等级保护制度及相关的各类安全标准,是能够解决。我们讨论一下生产区安全方案的几个重点问题:
1、对主客体的评估。对于客体的评估,一是要考虑到当前的价值,二是要考虑增殖价值,而增殖价值,不能简单的依据数据的安全属性进行分析,还要考虑这个数据集群整体蕴含的价值,还要考虑这个蕴含的价值,会对国家安全、经济建设、公众利益、社会秩序、公民与法人的利益产生的影响。
对主体的评估,主要是分析这些主体将当前的数据集群作为生产资料时的目的,及这些主体团队的背景等进行分析,去年出台的关于DSMM的国家推荐标准《信息安全技术数据安全能力成熟度模型》(GB/T37988-2019)可以作参考。
2、对生产过程的监控,我们将在3.2.2中进一步说明。
3、隐私计算场景。同态加密、多方计算等方式的引用,可信第三方的引入,使得数据可用而不可见。数据挖掘的访问控制模型,这是一个还没有公开发表的模型,是TBAC的改造模型,目的也是数据的可用而不可见。
3.2.2 生产过程的监控
在将数据作为资产进行保护的情形下,计算环境中一个非常重要的安全模块是访问监控器[参考资料4],这是在操作系统安全子系统的核心,许多应用程序,也会参考这个模型进行设计具体应用的访问控制问题。如图2a,但是这个访问监控器,只能做到一个主体访问一个客体,而对于将数据作为生产要素的生产过程,这个访问监控器将无法完成相应的监控和授权机制。为此笔者提出了图2b的思路。
图2:生产过程中的对数据加工的监控和管理
首先访问控制规则,在图2b中,是不可能规划成细粒度的,经过对主体评估后,应该允许这个主体(可以是用户也可以是用户组),对数据池(数据集群中的子集或者是全部)具有访问的权力,当然,数据池可以是数据集群的全部,也可以是一个子集。导入到生产用的数据池中的数据,应该是经过各种治理过的数据。
操作主体,也可能是多个主体同时进行的。
增加一个基于行为监控规则库,这个规则库,是应该根据数据集群中的数据进行评估后,提出的一个最低的限度。当违背规则的行为发生时,规则库是可以进行干预的。
应该说明的是,审计并不能代替基于行为的规则进行对操作的控制,审计是对操作的记录,而不是控制。
还要利用区块链技术对数据的去向进行跟踪,包括计算结果数据,也包括运算主体使用过的数据。
结语
人类正在加速进入新的数据时代,自古有之的数据正在成为社会核心生产要素,所以需要体系化的构建数据新要素,包括理论和实践。
本文分别从数据要素、数据安全、整体安全等方面提出一些思考,探索将数据作为生产要素情形下的安全体系设计。我们的目的是引起产业对数据作为生产要素情形下的安全体系设计的关注,逐步形成相对完善的数据生产要素安全体系。
参考资料1:《信息安全等级保护定级指南》(GB/T22220--2006)
参考资料2:方兴《数据流动时代大数据风险如何管控》
(https://mp.weixin.qq.com/s/GPSUEvT7lrP1wIJld-ySrg)
参考资料3:方兴:《从生产安全体系视角看数据安全》
(https://mp.weixin.qq.com/s/OS4iCYjqG7fW2ti9NN9f2w)
参考资料4:《操作系统安全2.5.1》(卿斯汉等著清华大学出版社)
陆宝华:雄安新区首席网络安全顾问
方兴:全知科技(杭州)信息技术有限公司创始人
白小勇:北京炼石网络技术有限公司创始人、CEO
钱晓斌:贵阳经开区大数据安全产业顾问、贵州国卫信安科技有限公司首席技术官
李科:北京观数科技有限公司创始人、CEO
苏欣:雄安新区党工委管委会宣传中心
“新基建”赛道开启,谁是下一个时代的“弄潮儿”? “十三五”收官之际,新基建能否带动产业逆势上扬? 数字基建:通向数字孪生世界的“铁公基” “新基建”数据中心助力“新冠”战役 业界首份 |《 “新基建”发展白皮书》发布 “新基建”专家谈|中国工程院院士、阿里云王坚:“新基建”提速,工业互联网大数据发展迎新机遇 百度中标合肥市“新基建”标杆项目
▐ 5G
▐ 人工智能