查看原文
其他

李凤华:泛在共享环境下数据安全与隐私计算的发展趋势及应用

The following article is from OpenHarmony TSC Author 李凤华

        
随着现代计算机技术的飞速发展,信息安全的重要性日益凸显。中国有14亿人口,是互联网应用和消费大国,数据量近年具有暴涨趋势。国家出台的多项政策和战略中均强调了数据安全能力建设的重要性。目前,在操作系统领域存在哪些数据安全挑战,又有哪些应对策略呢?近日,在开放原子开源基金会OpenHarmony技术峰会的安全及机密计算分论坛上,中国科学院信息工程研究所二级研究员、副总师,中国科学院“百人计划”学者李凤华作了以《泛在共享环境下数据安全与隐私计算的发展趋势及应用》为主题的精彩分享。
01数据生产要素与数据流通

早期数据是少量、分散地流通与使用,但随着数据广泛集中,出现了大量的泄露、侵权等问题。因此,国家一方面促进数据流通,另一方面通过健全相关法律对数据进行保护。最早于2017年出台的《网络安全法》对网络运营者保护网络信息安全提出了明确要求;党的十九届四中全会提出将数据作为独立的新型生产要素;《中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见》提出了“数据二十条”。国家的一系列关于数据安全能力建设的举措,既保护了头部、大规模企业的合法运营,也在一定程度上抑制了小规模企业对数据的非正常使用。

从数据本身的角度来看,数据是指围绕产品设计、生产、销售、售后服务,以及服务业等经营活动中产生的全流程数据。其中,具备“六性”( 可用性、机密性、隐私性、可控性、交易性、仲裁性)的数据才能成为生产要素。数据可信指确定数据的所有权、使用权、管理权和交易权等,并确保存储和传输的机密性、防篡改、不可否认性,以及计算可控性、可信可控审计。

02数据安全的挑战和对策
数据安全的全生命周期包含数据采集、数据传输/保护、数据存储、数据利用和数据销毁。全生命周期中,各阶段都需要进行数据保护:(1)数据采集要保障本地源数据的安全;(2)数据传输/保护要保证数据的传输安全、机密性、完全性以及不可否认性;(3)数据存储要保证数据的存储安全和正确的访问控制;(4)数据利用要保证数据的流转管控与监管、延伸控制;(5)数据销毁要保证数据自动删除、按需删除和删除确认。在全生命周期中,需要在每个环节做到数据保护,才能让数据安全流通。
全生命周期数据安全

2.1CoAC访问控制

CoAC(Cyberspace-oriented Access Control)访问控制模型是泛在互联环境下数据全生命周期可管可控的理论基础,本质是网络接入的访问控制与信息系统的授权/鉴权进行关联,实现泛在接入场景下细粒度控制。CoAC具备泛在接入场景下授权管理、同一主体在不同系统的权限映射、场景适应的权限可伸缩等能力,同时也能够提供移动和远程访问场景下的数据流动细粒度边界控制。在终端领域,终端是CoAC的发起方,还能够支撑身份认证、口令和密钥存储等。
CoAC访问控制模型

2.2数据控制

数据控制与访问控制不同,强调在数据操作、传播、留存、交易、销毁等方面的控制,本质是数据和控制策略不可分离,支撑全生命周期应用。通过数据控制,可以解决泛在传播的权限控制、移动业务的数据使用、多副本完备删除以及全生命周期各操作环节的使用情况存证与合规审计等问题。在终端领域,数据控制能够支撑发起者的数据确权。
2.3密码按需服务
密码强调按需服务,对于终端规模海量、服务高并发的环境,支持随机交叉加解密的高性能密码按需服务是数据安全的关键。密码按需服务需要根据服务类型、计算能力以及性能需求等判断密码是否符合系统要求,并提供相应的监测分析手段。基于密码按需服务,通过对并发服务的密码运算状态高效管理,能够有效解决多App并发服务对临界资源高效使用的技术瓶颈;通过对海量并发服务的密码运算状态高效管理、性能线性可扩展,也能够解决海量并发服务时后台密码运算的技术瓶颈。在终端领域,密码按需服务能够支撑密码作业调度,同时能够充分利用终端算力。
2.4机密计算
机密计算是在数据处理过程中将敏感数据隔离在受保护的区域(如可信执行环境)中再使用数据的方法,其本质是安全依赖于可控环境,解决参与计算的数据安全。通过机密计算,能够保证计算环境的可信性、可控性以及机密性。具体的做法有:通过执行环境隔离,提供可信执行空间,未授权参与方不能进入该空间;参与主体能监控该环境的数据使用的合规性;参与的主体都不能窥探到在该环境内的数据、代码和操作,但可获取计算结果。在终端领域,可信执行环境(TEE)能够提供可信计算环境,供操作系统调用。
2.5多方安全计算
多方安全计算通常采用不经意传输(Oblivious Transfer)、秘密分享(Secret Sharing)、混淆电路(Garbled Circuit)、同态加密(Homomorphic Encryption)等密码算法实现,支撑联合统计、联合建模、隐私集合求交和隐匿查询等功能的实现,本质是原始数据不出域、结果安全交换,支撑计算结果安全共享。通过多方安全计算,能够保护消息接收方的意图,并保障原始数据不出域。
多方安全计算平台2.6联邦学习
联邦学习是一种分布式的模型训练模式,合作方利用自身数据完成部分的模型训练,中心节点完成模型汇集。合作方之间交换训练中间结果和模型参数,而不交换数据本身,自然而然地不存在数据出域而导致的原始数据泄露,但中间结果的交换没有防泄漏的机制,仍然存在部分数据泄露的问题,其本质是原始数据不出域、算力分布利用。通过联邦学习,算力不需要集中,可以充分利用分布式算力,减少最终模型需求方算力设备的资金投入;数据也不需要出域,迎合了原始数据不出供给方本地的愿望。
2.7数据安全态势感知
数据安全态势感知能够对各个环节的数据状态进行采集与融合分析,本质是无遗漏、及时的精准采集,支撑准确研判与有效处置。通过数据安全态势感知,能够对单位内部数据、行业数据、区域数据、全国数据等安全态势进行精准判断,支撑风险的有效处置,也能够为终端的数据确权和数据操作合规性提供佐证。
03隐私保护的挑战与对策

大数据时代背景下,终端APP频繁超范围采集个人信息;后台信息服务系统中的隐私数据越权使用、大数据杀熟、个人画像结果滥用、个人信息过度留存等问题与日俱增。目前针对单一系统提出隐私保护技术不能解决泛在受控共享,隐私信息跨系统共享难以确保多系统的隐私保护方案具有同等效果、一损俱损,需要从计算角度研究全生命周期的隐私计算框架、延伸控制。当前隐私保护方案多种多样,且随着时间的推移和隐私数据的类型不断变化,需要考虑多算法融合,最终在“时间-隐私信息-隐私保护需求”三维空间中提出一种统一的描述方法,使隐私保护方案从零散的点形成连续演化的面。

隐私保护三维模型

3.1隐私计算2015年李凤华、李晖等学者在国际上率先提出并首次精准定义了隐私计算(Privacy Computing)的概念、定义和学术内涵,并提出了隐私计算理论与关键技术体系。
隐私计算定义
隐私计算是面向隐私信息全生命周期保护的计算理论和方法,是隐私信息的所有权、管理权和使用权分离时隐私度量、隐私泄露代价、隐私保护与隐私分析复杂性的可计算模型与公理化系统。隐私计算具体是指在处理视频、音频、图像、图形、文字、数值、泛在网络行为信息流等信息时,对所涉及的隐私信息进行描述、度量、评价和融合等操作,形成一套符号化、公式化且具有量化评价标准的隐私计算理论、算法及应用技术,支持多系统融合的隐私信息保护。隐私计算涵盖了信息搜集者、发布者和使用者在信息产生、感知、发布、传播、存储、处理、使用、销毁等全生命周期过程的所有计算操作,并包含支持海量用户、高并发、高效能隐私保护的系统设计理论与架构。隐私描述隐私信息可以由六元组集合(𝐼,𝛩,𝐴, 𝛤, 𝛺, 𝛹)进行描述:
  • 隐私信息向量 𝐼:信息𝑀中语义上含有信息量、不可分割、彼此互不相交的原子信息
  • 约束条件集合 𝛩:隐私信息分量对应的约束条件向量,用于描述在不同场景下实体访问所需的访问权限
  • 隐私属性向量 𝐴:隐私属性分量,用于量化隐私信息分量及分量组合的保护程度
  • 广义定位信息集合 𝛤:隐私信息分量在信息中的位置信息及属性信息,可对隐私信息分量快速定位
  • 审计控制信息集合 𝛺:隐私信息传播过程中的审计控制向量,用于记录隐私信息分量在流转过程中的主客体信息和被执行的操作记录
  • 传播控制操作集合 𝛹:描述隐私信息分量及其组合可被执行的操作
此外,隐私计算还具有延伸控制性、原子性、一致性、顺序性和可逆性的5个重要特性。
隐私信息流转的延伸控制
隐私感知与动态度量
隐私感知包括智能感知与压缩感知:智能感知通过预先构建的隐私识别模板或隐私知识图谱匹配实现,压缩感知利用隐私信息特性,使服务提供者采集最少信息前提下,达到满足个性化服务的效果。隐私动态度量的核心是确定量化操作函数,该函数随场景、时间、隐私信息主题的主观看法动态变化,量化操作函数可以通过设计表达式连续赋值,也可以通过指定离散赋值。
通过隐私感知与动态度量,在终端能够为操作实施者提供场景适应的差异化智能感知、场景适应的动态度量,为监测实施者提供对App采集行为的监测,支撑数据安全态势感知。
动态度量
效果评估隐私计算效果的评估主要关注以下5个方面:
  • 可逆性:隐私保护算法执行前后,隐私信息的被还原能力
  • 延伸控制性:跨系统交换过程中接收方隐私信息保护效果与发送方保护要求的匹配程度
  • 偏差性:隐私保护算法执行前后,隐私信息分量ik和隐私保护后发布出去/攻击者或第三方可观测到的隐私信息分量ik′之间的偏差
  • 复杂性:执行隐私保护算法所需要的代价,即隐私保护复杂性代价
  • 信息损失性:信息被扰乱、混淆等不可逆的隐私保护算法作用后,对信息拥有者来说缺失了一定的可用性。
隐私泄露风险评估模型
算法设计准则隐私计算中,保护算法的设计准则主要有以下5项:
  • 准则一:预处理,确定数据分布特征、取值范围、数据隐私保护敏感度、隐私操作次数的期望值、隐私操作结果的社会经验值等
  • 准则二:算法框架,确定隐私保护算法的数学基础;给出算法步骤及步骤间的组合关系;隐私属性向量与隐私信息向量之间的关系
  • 准则三:算法参数设计,确定隐私保护算法中相关参数的具体取值
  • 准则四:算法组合,在算法内部实现不同步骤的组合,或在相似算法间实现排列组合
  • 准则五:算法复杂度与效能分析,算法的时空复杂度;隐私保护效果的期望值;隐私保护算法的实现代价

3.2隐私计算内涵
隐私计算学术内涵具体分为九大方向:隐私计算框架、延伸控制、隐私感知、动态度量、迭代按需脱敏、保护效果评估、多副本完备删除、溯源取证、隐私计算语言。在此基础上,可分为37个研究点。隐私计算是泛在网络空间隐私信息保护的重要理论基础。要利用好隐私计算,首先要准确把握隐私计算的学术内涵,还要清晰的理解隐私计算的涵盖的各个环节以及数据全生命周期,并正确实现延伸控制。

隐私计算的学术内涵

04总结

我们要正确理解不同技术所能解决的问题,并针对不同环节选择合适的技术方案,这样才能正确利用不同技术解决泛在共享环境中不同环节的数据安全与隐私保护问题。

我们还期待业界能够以历史责任感的高度正确诠释不同技术的内涵及其作用。让我们携手共同促进生态链健康发展,为数字经济发展提供有力支撑。




嘉宾简介

李凤华,中国科学院信息工程研究所二级研究员、副总师、中国科学院特聘研究员、博士生导师。曾先后任计算机系主任、研究生处长、科技处长、副总工程师等。国务院学位委员会网络空间安全学科评议组成员,中国科学院“百人计划”学者,国家重点研发计划“十三五”和“十四五”项目负责人、国家863计划主题项目首席专家、NSFC-通用联合基金重点项目负责人等;中国网络空间安全协会理事,中国中文信息学会常务理事、大数据安全与隐私计算专业委员会主任,中国通信学会理事、期刊与出版工作委会副主任、学术工作委员会委员等;《网络与信息安全学报》执行主编,《WWW》、《CJE》、《电子学报》、《通信学报》编委等。主要从事网络与系统安全、隐私计算、数据安全等方面研究,获2018年网络安全优秀人才奖、2001年国务院政府特殊津贴,近年来获国家技术发明二等奖1项、省部级科技进步(或技术发明)一等奖5项。点击下方阅读原文获取演讲PPT。END

热门文章:




隐私计算头条周刊(07.17-07.23)


招标 | 近期隐私计算项目招标中标41(中原工学院、沧州智3.慧城市、恒丰银行、数字广东、云南大学、湖南大数据)


2023全球各国隐私计算发展最新动态盘点


社区招募丨OpenMPC隐私计算课程课代表征集


加入我们丨OpenMPC社区招募实习生

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存