查看原文
其他

《隐私计算与公共数据开放白皮书》:隐私计算有助于降低公共数据开放与利用的风险



2022年7月24日,在第五届数字中国建设峰会期间,《隐私计算与公共数据开放白皮书》(以下简称,《白皮书》)正式发布。该份白皮书由数字中国研究院(福建)、数牍科技以及复旦大学数字与移动治理实验室联合编撰,旨在探讨隐私计算如何在数字化发展的背景下降低公共数据开放与利用的风险,安全合规地推动数据的高质量供给与有序利用。报告指出:隐私计算作为一种新兴的数据安全技术,有望成为平衡公共数据开放价值与风险的助推器,能够在保护多个参与主体的数据本身不对外泄露的前提下,实现数据融合分析计算与价值挖掘。  


关注公众号并回复 20220728 获取完整报告



01公共数据开放的现状与问题


我国的公共数据开放起步于地方自主探索。2012年6月,上海市政府数据服务网“datashanghai. gov. cn”(原网址)上线运行,标志着我国内地的公共数据开放实践拉开序幕。其后,全国各地相继上线公共数据开放平台。截至 2021年10月,我国已有193 个省级和城市的地方政府上线了数据开放平台,其中省级平台20个(含省和自治区,不包括直辖市和港澳台),占全部省级地方的71.43% ;城市平台 173 个(含直辖市、副省级与地级行政区),占全部城市的51.33%,如图1所示。

近年来,我国公共数据开放水平正在逐步提升。在制度供给方面,与公共数据开放相关的法律法规、实施细则、标准规范等陆续出台和完善。在平台建设方面,各地公共数据开放平台的功能逐渐扩展和优化,运营维护能力与用户实际体验也在不断提升。在数据供给方面,各地开放数据的数量与质量也在逐步提升。在利用生态方面,各种利用促进活动正在开展和推进,企业、公众等各种社会主体越来越多地参与利用开放数据,也产出了一定数量的利用成果。


然而,推进我国公共数据高质量开放利用,仍存在许多问题和短板。总体上,市场和社会对公共数据的需求尚未得到充分满足,表现为开放数据数量不多、容量较低、质量不高,已开放数据普遍存在字段少、条数少、颗粒度较粗等问题,以 API 接口形式开放的实时、动态、高容量数据尤为稀少。此外,在已开放数据中还存在高缺失、低容量、碎片化等低质量数据,数据利用价值较低;而数据供给端的不足还造成了利用端的成果数量少、质量不高等问题。



02隐私计算作为新型数据安全技术的潜在优势


私计算是在保护数据本身不会对外泄露的前提下实现对数据价值挖掘和开发利用的信息技术,是一套包含人工智能、密码学、数据科学等众多领域交叉融合的跨学科技术体系。隐私计算技术可在无需改变数据存储位置的情况下支持数据查询、数据建模等多方数据协同利用的场景,进而实现对于数据价值的挖掘。隐私计算技术主要包含多方安全计算、联邦学习、机密计算等关键技术。各种隐私计算技术的利用特性如表 2 所示。

多方安全计算(Secure Multi-Party Computation,简称 MPC)是指互不信任的参与者在不泄露各自隐私数据的情况下,利用隐私数据参与保密计算,共同完成某项计算任务。


联邦学习(Federated Learning,简称 FL)本质是一种分布式机器学习技术。联邦学习过程中各参与方的数据始终保存在其本地服务器,参与方之间交换训练中间结果和模型参数,而不交换数据本身,有效降低了传统中心化机器学习带来的数据泄露风险。


机密计算(Confidential Computing)是指在受信任的硬件执行环境基础上构建安全区域,对使用中的数据进行保护。机密计算的所有参与方将需要参与运算的明文数据加密传输至该安全区域内并完成运算,安全区域外部的任何非授权的用户和代码都无法获取或者篡改安全区域内的任何数据。


报告从安全性和可用性两个维度将隐私计算技术同其他数据安全技术进行了对比,如图2 所示。

在安全性上,隐私计算技术同其他数据安全技术各有优势。隐私计算技术在不可得、不可知、不可还原、不可出域等方面均表现良好,不同的隐私计算技术之间在安全性方面也存在差异,如机密计算技术在不可篡改和可追溯方面皆表现良好,而多方安全技术和联邦学习技术在这两方面相对较弱;其他安全技术之间整体上参差不齐,数据加密技术和数据沙箱技术整体上表现较好,数字水印技术表现相对较差。


在可用性上,隐私计算技术总体表现优于其他数据安全技术。除联邦学习技术不涉及“可查”外,隐私计算技术整体上在可算、可查、再利用等方面均表现良好,但在便捷度方面有所欠缺;其他数据安全技术中数据水印技术总体表现良好,在便捷度方面的优势较为明显。


隐私计算平台作为多方安全计算、联邦学习等技术在学术领域成果的直接工程落地实践,满足了大部分场景的商业化落地需求。从技术层面来讲,主要有以下几个方面的优势:


中立性平台。隐私计算平台不存储用户原始数据,隐私计算结果不落盘,数据处理过程可通过区块链等方式进行记录,从而降低了数据安全风险。


最小化查询。隐私安全集合求交(PSI)作为隐私计算平台的核心功能之一,其基于密码学技术实现,允许参与方使用各自的数据集合计算交集,且不会泄露除交集以外的任何数据,从而提供数据的最小化查询。


精细化管控。隐私计算平台可防止未经授权的访问,数据协作方需要事先约定数据的使用用途和使用条件,隐私计算平台可实现对数据用法用量的细粒度管控,在获得数据提供方授权的前提下,数据使用方才可以开展数据协同作业,整个过程中原始数据不出本地数据库。



03隐私计算应用于公共数据开放的潜在收益


具体而言,隐私计算作为一种技术手段,通过隐私计算平台的工程化落地实践,满足了一些场景的应用落地需求。隐私计算平台可作为一种底层数据安全能力支撑和上层技术服务工具,其能为公共数据开放工作带来的潜在效益主要体现在以下三个方面:


(1)推动高价值、低风险的公共数据供给


如前文所述,受制于安全风险,当前我国开放的公共数据在数量和质量上都还无法满足社会公众的普遍预期。在公共数据中,有大量高价值、高风险的数据集,由于相关部门缺少数据安全管控能力而不敢开放或不能开放。这些数据对促进数字经济发展与数字社会建设具有重要作用,亟需在数据安全技术的赋能下对社会予以开放。


隐私计算的技术特性使得以较低风险开放较高价值的公共数据成为可能。依托隐私计算技术“原始数据不出域、数据可用不可见”的新型数据流通模式,公共数据资源可以实现“物理集中 + 逻辑集中”双汇聚模式,物理集中是指将公共数据资源物理集中于公共数据开放平台,进行统一集中化存储和管理。逻辑集中是指将公共数据资源目录汇集于公共数据开放平台,而公共数据资源则分散存储于数据提供方本地。数据使用方可以通过公共数据开放平台了解公共数据的全貌,但在使用过程中可通过隐私计算方式实现双方或者多方的数据安全协同计算,整个过程中原始数据不出本地数据库。通过“逻辑集中,物理分散”的新模式,从而降低了开放数据的安全风险。


同时,还需要强调的是,隐私计算技术也不可过度应用,对于列入“无条件开放”属性的低风险数据,仍应尽可能开放原始性的、完整的、可机读的数据集,以最大程度降低数据利用的门槛,释放数据的价值。


(2)兼顾安全性、灵活性的公共数据利用


《数据安全法》、《个人信息保护法》的相继出台,与《网络安全法》一同构成了数据安全合规领域的“三驾马车”。在法规政策的强监管下,公共数据利用也面临着较大的安全合规风险。


隐私计算技术集合了密码学、机器学习等技术,可以通过不同技术方式实现数据的最小化查询。隐私集合求交(Private Set Intersection,PSI)作为隐私计算的关键技术之一,可以允许数据协作方之间使用各自的数据集合计算交集,但不会泄露除交集以外的任何数据。


同时,隐私计算技术支持对开放数据使用进行管控授权。具体表现为:隐私计算平台通过区分用户权限来提供不同颗粒度的数据,并对数据的用法、使用时间、使用次数、并发限制等内容进行设定,从而实现对公共数据的精细化治理。由此,公共数据开放能够在价值与安全之间保持平衡,推动兼顾安全性与灵活性的公共数据利用。


(3)搭建工具化、低成本的安全开发环境


目前各地方政府公共数据开放平台普遍开设了开发者中心板块,为开发者开发数据应用提供便利,但赋能效果不太明显。隐私计算平台作为一种技术能力载体,不仅可作为保障数据安全流通的技术底座,也可成为公共数据开放平台的服务工具,帮助开发者进行数据应用的快速开发。


具体而言,隐私计算平台可将底层复杂的密码学、机器学习等技术和建模过程抽象成算子,支持用户以拖拽式交互,构建可视化建模 pipeline,开发者无需了解底层的技术实现原理,只需关注业务实现,合理的运用不同的算子完成数据应用开发。这种工具化的能力不仅降低了开发者的学习成本,还提高了数据应用的开发效率,有望实现大规模高价值的数据应用开发与流通。



报告目录:

报告内容节选如下:




公众号后台回复“20220728,即可获取《报告》PDF

申明:版权归属原作者,分享仅供学习参考,如有不当,请联系我们处理。


END往期推荐:




隐私计算头条周刊(7.17-7.23)


2022隐私计算十大观察


美国NIST公布首批后量子密码标准算法


招标 | 近期隐私计算项目招标16(数据交易、电力系统、智慧医疗、品牌营销)


开放隐私计算社区征稿啦!

热门文章:




姚期智院士:数据、算法、算力为何是数字经济核心技术?


后量子时代,密码何去何从?


清华大学张超:实现数据确权与保护,数据密态渐成行业共识


如何在保障数据安全的前提下,充分发挥电力数据的经济价值?


未来十年,将会有95%的企业采用隐私计算技术

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存