信通院闫树:隐私计算行业发展及合规发展思考
分享嘉宾:闫树博士 信通院 云大所副主任
编辑整理:毕东海 大连理工大学
出品平台:DataFunTalk
导读:本文将介绍关于隐私计算行业发展及合规发展的一些思考。主要包括以下几大方面:
隐私计算的社会背景——数据要素
隐私计算体系和缺点
隐私计算的行业应用
应用隐私计算的安全合规性
01
数据作为生产要素
数据作为生产要素是当今的时代背景。
什么是数据?
在《中华人民共和国数据安全法》中定义数据为“任何以电子或者其他方式对信息的记录”。依据不同的角度和标准对数据的划分不同,例如从国家的角度可以将数据分为“个人信息”、“商业数据”、“公共数据”;在网络数据中可以分为“重要数据”、“关键业务数据”和“核心数据”。依据法律法规,不同数据的处理方式不同,即并不是所有数据都可以作为生产要素在市场里进行流通。
什么是生产要素?
在政治经济学中,生产要素是指进行物质生产所必需的一切要素及其环境条件。当今社会经济增长速度快于要素投入增长,按照经济学的观点,需要引入新的生产要素,即“数据要素”来说明其余要素未能说明的剩余产出。
数据能作为生产要素的核心原因是“数据的投入为经济生产带来新的增长点”。而数据作为生产要素创造价值有三种方式:
价值倍增,数据要素能够提高单一要素的生产效率。
资源优化,数据生产要素可以提高劳动、资本、技术、土地这些传统要素之间的资源配置效率。
投入替代,数据可以激活其他要素,对传统的生产要素产生替代效应。
相较传统要素,数据要素在虚拟性、均质性、稀缺性、竞争性和产权性上具备更明显的自身特性。因此需要重新认识数据要素。
数据只有成为可利用的有效资源并参与到社会生产活动中,才能成为数据要素发挥价值,产生经济效益。而从原始数据到数据要素需要经历四个环节:
数据资源化
数据资产化
数据流通:将数据资产开放、共享、交易形成数据产品和数据服务
数据应用
生产要素的本质是流通。为了实现数据“可用不可见、可用不可存、可控可计量”的安全流通,建立了包括数据生成及采集、数据传输、数据存储、数据使用(共享交易)、数据溯源与审计五个环节的数据安全流通技术体系。其中,隐私计算是指数据使用环节中所使用的隐私保护的数据计算技术。
02
隐私计算体系和缺点
隐私计算作为数据要素使用的关键技术,受到多重需求的推动而得以加速发展:
数据融合需求,机构间数据流通成为促使数据要素市场化配置、充分释放数据要素价值的重要环节。
数据保护需求,数据保护成为持续稳定的市场需求,而不再是短暂的监管应对行为。
各级政府鼓励隐私计算研发和应用。
原有的数据计算模式经历多环节的转移,泄露、盗用、冒用风险高,而隐私计算模式使数据可用不可见,以不可破解的加密方式开放共享。隐私计算技术体系主要分三个方向:
多方安全计算为代表的基于密码学的隐私计算技术
联邦学习为代表的人工智能与隐私保护技术融合衍生的技术
可信执行环境为代表的基于可信硬件的隐私计算技术
隐私计算的技术需求可分为六点:大规模、高性能、强安全、更互通、易用易兼容和便运维。基于技术需求,可以设计出隐私计算的基础技术和融合技术范围。首先,隐私计算的基础技术包括多方安全计算、联邦学习和可信执行环境三种;在基础技术上结合并应用各种基础技术,可执行联合查询、联合统计和联合建模及预测等任务;隐私计算还可以作为扩展融合技术应用于“互联互通”、“数据脱敏”、“区块链”、“大数据”、“云计算”等技术框架内;隐私计算作为配套技术可以应用于“系统管理”、“操作运维”、“基础设施”等方面。
隐私计算仍存在一些问题。
隐私计算受限于性能化瓶颈,难以在现实社会中规模化应用。隐私计算性能瓶颈主要在两方面:
难以支持海量数据实时计算,密文计算需要更大的计算和通信负载,并且对隐私计算参与方的资源要求较高。
提升性能与强化安全难以兼顾,随着安全性和隐私性提升,隐私计算的性能通常会出现较大幅度的下降。
隐私计算产品的传统安全能力需要进一步增强。隐私计算安全性的薄弱点主要表现在三个方面:
算法协议无法实现绝对安全
开发应用始终存在安全挑战
安全边界及分级共识有待形成
通过软件与硬件层面的优化能够从一定程度上提高隐私计算的效率:
软件层面,通过并行化和高效调度提高隐私计算的效率。
硬件层面,将复杂运算转移至各硬件设备执行,能够大幅度提升并行处理效率,支持高并发、低延迟。
为提升计算的性能、安全、易用性,隐私计算一体机是未来的发展趋势。具体可分为三方面:
异构硬件加速隐私计算性能
软硬结合增强隐私计算安全
多硬件结合多角度提升
此外,互联互通也是隐私计算技术发展的热点。隐私计算本是推进跨机构数据流通的助推器,但产品间技术壁垒难打通将促使数据“孤岛”变“群岛”,异构平台的互联互通将是必经之路。例如隐私计算部署厂商针对不同的数据源可能使用不同的平台,而这会增加很多厂商的成本。
从技术发展的角度,异构平台互联互通的实现难点主要有:
底层技术框架和密码学协议不同
工程优化方案的多样化
功能实现设计的个性化和差异化
技术厂商的核心知识产权
目前,针对异构平台互联互通的思路主要有:
分层次、分步骤的异构平台互联探索
从节点互认、资源共享到算法组件跨平台迁移执行,例如富数、蚂蚁等公司已经实现了分层次的异构平台互联互通。
基于中间件、区块链方案的实现思路
即基于轻量化中间件或区块链智能合约实现报文重构转换、任务状态同步与应用执行。
广泛的技术企业间战略合作
重点企业间战略合作,探索建立数据交换协议,赋能实际业务场景。
最重要的,隐私计算需要满足安全可证明、技术可验证、流程可监管、结果可解释、产品可用、法律合规等要求,才能真正在实际应用中解决数据要素安全流通的问题。
2021年,在政府多部门发文鼓励推进隐私计算技术研究与应用的大力支持下,相关技术产品数量快速增长,众多业务需求者开始从市场观望者转入技术研发的队伍,以期为自身业务赋能。
产品已部署服务器数量、已支持数据规模、预计支持应用数量比例分布呈长尾型,其平均数均超中位数。表明市场中头部产品已大规模应用并发挥头部效应,吸引大量新产品入局,健康的隐私计算市场格局初现。
根据统计,隐私计算相关的论文快速增加,说明隐私计算逐渐受到学界关注。同时,隐私计算的专利也在快速增长。
03
隐私计算的行业应用
从市场结构可以发现,隐私计算的产品由2018年之前的实验室验证和产品研发,到2019年的技术普及与市场教育,再到2020年开始进行产品的验证性测试,最后到2021年隐私计算产品的规模应用,普遍招标也开始进行。从产品实施部署的阶段统计也可以看到相同的趋势。同时隐私计算的应用场景也更为丰富,在金融风控领域广泛应用,公共服务领域占比也强势提升。
行业应用方面,银行、保险等大型金融机构加大隐私计算研究和应用,应用实现精益化,应用场景在金融风控、营销等传统场景下进一步细分、外延。
同时,政务大数据共享开放中,隐私计算发挥巨大作用,应用场景种类丰富,省、市级创新场景突出。
在医疗领域方面,医疗数据政策相继出台,隐私计算发挥技术优势助力互联互通,实践案例从概念验证到落地。
利用隐私计算技术优势,物流运输、公共安全、智慧能源等领域开展隐私计算应用探索。
04
隐私计算的安全合规性
隐私计算变革使得数据要素的流通形式由传统数据集(1.0)向普通API(2.0)到API+隐私计算(3.0),由此引出了隐私计算的数据安全合规性问题:当我们在数据要素流通过程中应用隐私计算时,是否合规。
隐私计算技术和合规意义在于:
有助于履行法定的安全保障业务
有助于践行最小必要原则,防止数据滥用
有助于实现一定条件下的匿名化
有助于减轻授权同意的合规隐患
有助于开发数据的使用价值
首先,有助于履行法定的安全保障业务。依据各种法律法规,处理个人信息需要对数据隐私的保护,隐私计算是一种加强数据安全的技术措施,使用隐私计算在事故发生后可以帮助进行责任减轻。
隐私计算有助于践行最小必要原则,防止数据滥用。法律要求数据处理者以实现产品和服务目的为限,在功能可实现的前提下保持克制,在最小范围内收集使用个人信息。而使用隐私计算可以避免这一点。
隐私计算有助于实现一定条件下的匿名化。在工程应用中,匿名化是在一定条件下(例如在可实现的算力、合理时间范围内等)的相对匿名化。隐私计算技术方案虽然仍有一定的安全隐患,但一定程度上确实提升了数据的匿名化水平。
包含隐私计算的技术方案有助于降低参与方在数据融通中的授权同意压力。在隐私计算技术方案下,需要取得授权同意的用户数相比来说更少。
隐私计算有助于开发数据价值,解决一些数据主体不愿不敢流通数据的问题。
隐私计算通常的合规误区:
使用隐私计算即可实现匿名化
如在某些场景中仍可反映出个人的某些特征,则无法满足匿名化“不可识别、不能复原” 的要求,输出结果依然属于个人信息,需要满足个人信息保护的合规要求。
使用隐私计算即无需授权同意
授权同意属于数据处理的合法性基础之一,而隐私计算属于对数据进行处理、使用的一种技术手段,在流程和逻辑上需要依赖于合规基础的存在。
隐私计算处理的数据不属于个人信息
即使未获取到其他参与方的原始个人数据、仅获取数据切片、模型梯度等数据,也因为存在客观上可逆的可能性而仍然属于对个人数据进行处理。
隐私计算应用的合规性要求相关方不断探索平衡合规、效率和精度要求的实践路径。
针对隐私计算合规发展的建议:
科技向善,拥抱监管
隐私计算现在的市场环境要求相关方,必须要重视数据合规发展。
评估风险,审慎推进
针对之前发展的业务需要评估风险,平衡效益和风险推进业务。
以点带面,逐步深入
可以在数据风险很小或者不涉及个人信息的业务场景下引入隐私计算。
多方参与,各尽所能
例如引入第三方进行监管和产品测试等。
上述为信通院在计算合规方面的研究成果和工作计划。针对隐私计算安全合规方面的探讨,针对隐私计算行业合规指引都做了一些工作。
今天的分享就到这里,谢谢大家。
在文末分享、点赞、在看,给个3连击呗~
01/分享嘉宾
02/免费下载资料
03/报名看直播 免费领PPT
04/关于我们
DataFun:专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章700+,百万+阅读,14万+精准粉丝。
🧐 分享、点赞、在看,给个3连击呗!👇