(大)数据时代:安全和隐私问题解读
—背景—
前几天多年未见的老朋友送给我一套由美国国家标准与技术研究所NIST出版的《NIST大数据互操作框架》的书籍,主要从大数据的定义、架构设计、安全与隐私、标准与路线等多个角度阐述在数据时代如何对数据和大数据进行治理。虽然书籍翻译的有点生硬,并且是2019年出版的,但是结合当下我国的形式,美国在基础研究和新方向预研层面的体系建设和取得的众多成果很值得我们学习。另外,值得欣慰的是很多观点和作者以往文章所提及和设计的内容很多是吻合的,这也更坚定了作者继续思考、设计、分享的信心和动力。
结合《NIST大数据互操作框架》的观点以及作者的认识,本篇文章重点从安全和隐私入手和大家简单梳理一下,重点聚焦相关观点,具体内容不做展开,供从业者参考。
—安全和隐私内容简述—
数据时代的安全和隐私主要包括数据保密性、数据起源、系统健康状况以及公共政策与社会四部分内容(如下图),前三个内容大致与传统的保密性、完整性和可用性(CIA)分类对应,以下从这四个层面进行说明,请大家重点关注与以往认识 的差异:
数据保密性:
1、传输中数据的保密性(比如TLS)
2、静止数据的保密性(基于凭证的访问数据策略:a、通过访问控制策略列表、虚拟机边界等系统构建执行策略;b、借助pki、基于身份IBE/属性ABE加密等密码技术执行策略。请大家注意,pki仅是密码技术的一种,在国内外出现了众多的密码技术供特殊场景选择)
3、计算被加密数据(a、搜索和报告 支持搜索和报告被加密数据的密码协议-功能加密,保证隐藏有关不可以从搜索;b、同态加密,支持在所涉加密明文上进行操作的密码协议,保证隐藏有关明文的任何信息)
4、安全数据聚合,数据聚合是数据时代的最大的特点之一,但是数据聚合就更容易带来隐私问题,所以保证安全数据聚合成为必要
5、数据匿名化,保证数据相关关联的隐藏,确保隐私
6、密钥管理,密钥管理是数据保密的重要保障措施,一方面要扩大密钥管理的范围,一方面要在位置、规模、拥有权、保管权、起源和审计方面做更深层次的设计
起源:
1、断点验证,保障输入的数据是否来自经过认证的验证
重点包括语法和语义两个层面,如下重点说明语义验证:
语义验证通常验证典型的业务规则,如到期 日期等。有意或无意违反语义规则可能会锁闭应用程序。如果使用的数据转换器无法识别特定变体,也有可能发生这种情况。协议和数据格式可能会被生产厂家改变,例如厂家为了使自己的产品拥有其他厂家产品所不具备的功能而使用了一个预留的数据字段。这种问题还可能因消费者设备(包括移动设备)系统版本的不同而出现。一条消息的语义和将要传输的数据应该接受验证,至少证明它们符合任何适用标准。数字签名将非常重要,它可以保证,来自一个传感器或数据提供者的数据经过了验证器或数据输出校验器的验证,因此是有效的。这是一项重要能力,尤其当数据要被传输或用于数据保管的时候。如果数据没有达到要求,它可能被弃用,如果数据持续表现出一种问题,其来源可能会被限制提交数据的能力。这些类型错误要记录到日志中,以防止传播给消费者。数据签名将在数据系统中扮演极为重要的角色。
2、通信的验证,保障传输数据的完整性
3、数据计算的验证,确保针对数据关键片段的计算,可以通过可信平台和加密执行的方式来保障
4、有价值资产控制,保障其生命周期管理、对应的保留和销毁、数字版权管理等
系统健康状况:
1、系统健康适合一大关键要素,要做到抵御拒绝服务攻击,可通过密码协议的方式构建(从加密、签名和其他密码完整性检查基元角度开发)可主动抵御拒绝服务
2、提升系统的免疫力,从安全情报分析 、数据驱动的滥用检测、对日志-网络-物理事件-智能代理的数据分析、安全破坏事件检测、犯罪取证等层面入手
公共政策、社会:
安全和隐私一方面设计技术问题,一方面涉及很多的政策和社会问题,这些问题是很重要的,不同的部门需要要根据实际情况来梳理相关问题。如下给出可能涉及到的内容:
1、涉及计算机的滥用和犯罪
2、与计算机相关的公共隐私健康系统
3、伦理(在数据科学范畴 内,但也跨专业)
4、人类安全
5、知识产权和相关信息管理
6、监管
7、跨国界数据流动
8、权力的使用/滥用
9、残疾人辅助技术(这一人群中子群可能需要有增加或不同安全 /隐私措施)
10、就业(适用于工作场所 法律层面的监管可能还涉及对雇员产生或管理的数据 的正确使用)
11、电子商务的社会方面
12、法律:审查制度、税收、合同执行、执法的犯罪取证
—安全和隐私的落地操作简述—
数据时代针对如何落实安全和隐私的问题,在操作层面有很多的分类,每一种都站在不同,作者站在实操层面,比较赞成NIST的建议,相关内容摘抄如下:
设备和应用注册:
1、设备、用户、资产 、服务和应用注册:包括在机器到机器(M2M)和物联网网络中注册设备、受数字版权管理的资产、设备、应用和用户角色。
2、安全元数据模型(a、元数据模型保留了受保护系统所有元素之间的关系。它保留了所有低层存储库之间的连接。数据因其较长的生命周期、更广的用户群体或其他方面而需要这种增加了的复杂性b、数据模型必须处理数据速度等方面的问题,以及数据和安全模型组件生命周期等时间方面的问题。
3、保障策略执行,重点包括环境搭建、部署策略、治理模型、细粒度策略审查、角色特有的行为轮廓。
身份和访问管理:
身份和访问管理重点应该包括虚拟化层身份、应用层身份、最终用户层身份管理、身份提供者等,这些作者就不一一展开了,感兴趣的可与作者交流。
数据治理:
数据治理涉及的内容较多,本文重点聚焦移动层面的数据治理,也是后续有发展空间的方面:
加密和密钥管理(静止状态、内存中、传输过程中)、隔离/集装化、存储安全、数据丢失预防和检测、web服务网关、数据转换(聚合数据管理、经过认证的计算、对被加密数据的计算)、数据生命周期管理(处置、迁移和保留策略;“处于危险中的”个人可识别信息微数据;去身份标识和匿名化;重新恢复身份标识风险管理);端点验证 ;数据版权管理;信任;开放;公平和信息伦理。
基础设施管理:
基础设施管理涉及与硬件运维相关的安全和隐私因素,重点包括威胁和漏洞管理(抵御DOS的密码协议)、监测和报警、抑制(为数据作出的破坏抑制规划可能在质量或数量上都有所不同)、配置管理、日志记录、硬件监视和补救、网络边界控制、弹性冗余和恢复等多个方面,具体情况作者就不做展开。
风险和追责:
1、追责:信息、流程和角色行为追责可通过各种方式实现,其中包括透明入口和检查点、向前和向后起源检查两种方式
2、合规:数据的合规横跨安全和隐私分类的多个方面,其中包括隐私、报告和国家和行业特有法律
3、犯罪取证:可采用数据支持的犯罪取证技术和用于数据安全故障场景的犯罪取证手段
4、业务风险层面:需要包括数据风险评价应该映射分类的每个元素以及业务风险模型可以纳入隐私方面的考虑因素
—总结—
数据时代,安全和隐私问题是至关重要的,必须全方位的研究和设计,现在各个国家都在开展这方面的工作,NIST的工作组织和工作成果走在了前面,有很多值得从业者学习的地方,希望大家多关注这方面的进展,一定会有不一样的感受。
另,上述内容多次提到密码技术,通过对NIST多项研究成果的研究,作者对密码技术有了更全面的认识,将在下篇文章中重点梳理。