彭长根:密态计算,让数据可用不可见 | CNCC专家谈
在即将于今年10月26-28日在沈阳举办的CNCC2023期间,在129个涵盖人工智能、安全、计算+、软件工程、教育、网络、芯片、云计算等30个热门专业领域的技术论坛上,包括国际知名学者、两院院士、产学研各界代表在内的700余位报告嘉宾将着力探讨计算技术与未来宏观发展趋势,为参会者提供深度的学术和产业交流机会,当中不乏在各领域深具影响力的重磅学者专家亲自担纲论坛主席。
本专题力邀CNCC2023技术论坛主席亲自撰稿,分享真知灼见,带你提前走进CNCC,领略独特专业魅力!
本期特别嘉宾:
彭长根:CCF杰出会员,CCF贵阳主席,贵州大学二级教授、博导
作者:CNCC2023【密态数据可控计算技术与应用】技术论坛主席:彭长根
数据利用与数据安全的博弈与平衡
信息技术迅猛发展,新技术和新业态可谓是层出迭见,云计算生根落地,大数据应用稳步推进,人工智能再次高潮迭起,伴随而来的是新业态和新模式应运面生,产业数字化和数字产业化在快速推进,数字社会也不期而至,数字经济已上升为国家战略,数据悄然成为了一种新型的关键生产要素和数字经济时代基础性的关键战略资源。
近几年,当我们受益于信息化、数字化给全社会带来便利的同时,我们也感受到了各种安全风险。例如,在网上购物时,遭遇到过个性化推荐算法的骚扰、消费行为诱导、个人隐私泄露、误导性搜索排序和智能杀熟等;还有就是各种门禁的人脸识别,几近到了被滥用的存在。特别是以机器学习为基础的人工智能广泛应用,我们的个人隐私几乎受到了空前威胁,数据投毒、对抗样本攻击、深度伪造技术让我们总是担忧机器人的决策偏离,担心给我们带来的巨大风险,AI深度伪造制作的虚假广告、虚假新闻、不良信息极有可能不断地侵扰着我们的生活;大模型的到来和应用,让我们面临更大的安全风险。总之,在我们享受新一代人工智能给我们带来的便利的同时,必须正视人工智能技术缺陷带来的安全风险和社会伦理问题。
图1 大数据应用中的隐私泄露风险
数据价值利用与数据安全保障俨然成为了一对矛盾,致学术界和产业界不得不去面对的现实,也到了必须提出鱼和熊掌均可兼得的解决方案,应该在数据分析利用时兼顾数据安全问题,不能等到吃胖了才想到减肥。
图2 数据价值利用与数据安全保障的平衡
密态计算破冰数据利用与数据安全之间的矛盾
如何破冰数据利用与数据安全之间的矛盾,寻求一种平衡解决方案,以实现“可用不可见”目标,是近年来学术界和产业界高度关注的研究问题。隐私计算是一种隐私保护技术方案,其目标是在不泄露数据敏感信息的情况下,实现数据处理需求。隐私计算技术是各界比较认可的方法,目前主流的解决方案有:
基于密码技术的隐私计算。代表性方法包括:同态加密、安全多方计算、加密搜索、零知识证明等,其在解决数据不泄露的情况下,实现各种数据的密态计算及访问,即在密文状态下进行各种数据处理,甚至包括基于密文进行机器学习。从理论上来说,这是目前实现“数据可用不可见”目标的一种较佳方式。
数据不出本地的联邦学习。联邦学习是在数据不出本地的情况下,各参与方利用本地数据训练局部模型,然后周期性地将模型参数安全上传至服务器以更新全局模型,通过聚合就可以获得在大规模全局数据上建立决策优良的机器学习模型。联邦学习的原理天生具有保护数据隐私的特性,具备了大规模数据机器学习的新范式。
基于可信执行环境的机密计算。机密计算是基于硬件的可信执行环境(TEE)来保护正在运行状态的代码和数据,通过软硬件方法在计算平台上构建出一个安全区域,在此安全区域内部加载的代码和数据能实现机密性和完整性,这是一种兼顾安全和效率的隐私保护技术。
细粒度访问控制的数据管控。访问控制的任务是保证数据资源不被非法使用和访问,因此可以通过对数据敏感的分类分级和访问策略的细粒度设计,将用户访问权限与数据敏感级别进行关联,以实现对数据的细粒度访问管控。甚至进一步针对密文数据,实现更加安全的细粒度访问。
数据脱敏技术。利用对数据敏感信息的泛化、随机扰动、差分等方法,掩盖原始数据真实特性,并仍能够进行数据计算处理。尤其是是差分隐私保护技术是学术界和产业界一直关注的热点,它可以将本差分隐私保护技术与联邦学习的结合,实现效率和安全性相对较高的隐私计算。
图3 密态计算关键技术
针对数据价值利用与安全性的矛盾解决,作者早期带领团队从管理和技术相结合的角度,提出了理性隐私计算概念和体系,通过构建数据可用性与安全性的博弈模型,然后计算博弈均衡解来实现数据利用与安全之间的平衡。在模型中引入理性参与者,以理性计算结合博弈论、信息论、机制设计等方法,形成包括隐私量化、隐私传播、理性访问控制、理性差分隐私以及隐私风险量化评估等理性隐私计算体系。
图4 理性隐私计算博弈模型
近年来,团队又提出访问控制函数加密方法,目的是基于访问控制与函数加密相结合,采用属性加密、谓词加密和内积加密等方法实现密文计算权限的管控。具体通过对用户的访问计算权限的划分、数据敏感的分类分级和访问策略的细粒度设计,实现对数据计算能力的细粒度管控,做到按需密文计算。
密态计算的挑战
从理论上来说,密态计算方法能够完美地解决“数据可用不可见”目标,但在实际应用上,目前存在诸多挑战:
(1)鉴于用于密态计算的密码技术是基于公钥密码设计,在效率上有很大的瓶颈,尤其是面向大规模数据,密态计算面临严峻挑战。现阶段主流解决方案是通过提升算力和软硬件结合的模式实现。
(2)密码技术的应用一般要求合法合规,现有诸如安全多方计算、同态密码、加密搜索等新型的密码技术,大多数还未建立技术标准或进入合规产品目录,从而在应用上还有一定的障碍。因此,较为紧迫的工作是尽快制定相关技术标准,以促进新型密码技术的应用。
(3)从博弈论的角度,实现数据可用性和安全性的均衡,解决目前普遍受关注的数据要素流通安全问题,尤其结合数据的资产化和价值化,是基于博弈论值得探讨的研究方向。同时,鉴于数据要素流通关系到多学科的交叉,如何解决其数据共享、开放和交换的安全问题,以及数据所有权、管理权和使用权的认证溯源,仍是现阶段需要解决的关键问题,当然也面临理论落地应用的挑战。
附论坛名称及安排:密态数据可控计算技术与应用
CNCC参会报名
论坛名称:【密态数据可控计算技术与应用】技术论坛
举办时间:10月27日下午
论坛主席:彭长根:CCF杰出会员,CCF贵阳主席,贵州大学二级教授、博导
想了解更多关于CNCC2023技术论坛信息,欢迎观看CCF公众号【CNCC专家谈】专题及CCF视频号【CNCC会客厅】直播,我们将陆续邀请本届CNCC技术论坛的论坛主席或重磅嘉宾,围绕今年CNCC涉及到的热门话题进行研讨交流,亲自带观众走进CNCC,敬请随时关注!
点击“阅读原文”,进入官网。