查看原文
其他

隐私计算的技术路径、应用实践与合规路径浅析

The following article is from 新江湾的周日 Author 养兔子的好人

隐私计算是近两年来数据法领域颇为热门的一个话题,但由于其理工科属性让许多法律人对它即好奇又陌生。于是,笔者借着空闲时刻,本着朴素的理解,梳理了隐私计算的有关内容,力求做到让文科生也能看懂。事先声明,笔者不懂技术,也没有实务经验,以下内容全为对23份“报告书”的阅后整理。如有错误,还请各位批评指正。报告分享:2022年隐私计算技术与行业应用报告合集


中文语境中的“隐私计算”这一概念来源于中国科学院信息工程研究所李凤华等人发表的《隐私计算研究范畴及发展趋势》(2016)以及《隐私计算——概念、计算框架及其未来发展趋势》(2019)两篇论文。在在英文语境中常见有两种称谓:例如英国皇家学会研究称之为 Privacy Enhancing Technologies(PET,隐私增强科技),而在联合国大数据工作组的研究中则被称为 Privacy-Preserving Computation Techniques(PPT,隐私保护计算技术)。

从宏观上理解,由于在处理和利用数据的过程中难免会涉及到个人的隐私,因此实务中急需能够平衡数据利用和隐私保护的解决方案。而技术领域给出的解决办法统称为“隐私科技”,包括“隐私计算技术”、“数据安全技术”、“数据及隐私合规技术”等。其中“隐私计算技术”帮助解决的问题便是,当多个参与方共同进行数据的处理和共享时,如何保护数据安全和个人隐私权权利。当今社会,只有足够的数据量、丰富的特征维度才能得到真正有意义的结果,往往需要多个实体机构共同提供数据。传统的、集中式的数据使用方式存在数据安全、法律合规等诸多风险。而隐私计算技术,能够从技术上解决模型训练(建模)、预测、匹配、联合统计分析等场景下的隐私安全问题,做到“可用而不可见”“可用”是指隐私计算技术的适用场景是“数据的处理和流通”,而“不可见”是指其效果能“保证数据的隐私和敏感信息的安全”,即分离了数据本身和其使用价值。更重要的一点是,在全世界各国都在重视和加强数据/个人信息保护法律规制的大背景下,隐私计算技术能够帮助数据处理者更容易满足法律的合规要求。要实现如此的效果,不少学者认为隐私计算主要有三种主要的技术路径,分别是:1)以安全多方计算为代表的密码学路径;2)以可信任执行环境为代表的硬件路径;3)以联邦学习为代表的人工智能路径。与此同时,区块链与隐私计算的融合应用也成为业界的共识,两者相辅相成。而随着隐私计算应用范围渐广,各类隐私计算技术之间出现相互融合的趋势。下面将简要介绍各种技术。








01技术路径
1 联邦学习(FL):
联邦学习是一种分布式机器学习技术和系统,包括两个或多个参与方,这些参与方通过安全的算法协议进行联合机器学习,可以在各方数据不出本地的情况下联合多方数据源建模和提供模型推理与预测服务。在联邦学习框架下,各参与方只交换密文形式的中间计算结果或转化结果,不交换数据,保证各方数据不露出
联邦学习又可以分为横向和纵向。横向联邦学习解决数据样本不足;纵向联邦学习解决数据特征维度不足。
图源:《腾讯联邦学习应用服务白皮书》问题:联邦学习本质上仍是一种机器学习,而隐私保护则是一种功能,因此还需要与其他隐私计算技术相结合,才能充分保障隐私。联邦学习可以通过同态加密、差分隐私、秘密分享等提高数据协作过程中的安全性。应用:联邦学习在机器学习领域的应用已经比较成熟,如支持联邦逻辑回归、联邦XGBoost等模型,而在深度学习领域的应用还处于探索阶段。2 安全多方计算(MPC)安全多方计算是一种在参与方不共享各自数据且没有可信第三方的情况下安全地计算约定函数的技术和系统。通过安全的算法和协议,参与方将明文形式的数据函数转换成加密的算术电路,利用秘密共享实现基础运算,就可以实现对加密数据进行计算,任一参与方都无法接触到其他方的明文形式的数据,从而保证各方数据的安全。图源:《隐私计算法律适用规则报告》问题:安全多方计算需要消耗大量的计算和通信资源。同时,分布式计算架构致使其具有延迟,因此总耗时也延长。此外安全多方计算还面临密钥可能泄露带来的安全、隐私挑战。应用:目前应用更加适用于小规模数据量,并且应用主要是聚焦相对简单的统计、查询等类型的计算,而基于安全多方计算的联合建模框架只能支持相对简单的机器学习模型,如逻辑回归模型等。2.1 同态加密(HE)同态加密是一种特殊的加密算法,它允许在加密之后的密文上直接进行计算,且解密后的计算结果与基于明文的计算结果一致。目前业界的隐私保护计算应用中,同态加密一般不独立构成一个方案,而是作为安全多方计算、联邦学习等方案的一个组成部分。2.2 差分隐私差分隐私是在计算结果或者原始数据添加噪声,使得修改数据集中单条记录不会对统计结果造成显著的影响,从而保证攻击者在拥有背景知识的情况下也无法推断出该记录对应的敏感信息。与密码学其他相关协议相比,其优点在于无须加密、解密过程中的巨大算力消耗,可处理相对大型的数据量,效率较高。其包含两种子类:1)本地差分隐私,对原始数据添加噪声,再进行汇总计算;2)中心化差分隐私,对汇总计算后的数据集添加噪声。问题:差分隐私点在于因为在原始信息中添加了不少的噪声,因此进行数据的汇总处理时,不可避免导致数据的精确度产生偏差。应用:谷歌Chrome浏览器使用本地差分隐私对消费者点击广告或用户输入的单条记录(Record)先添加噪声,然后在进行汇总统计计算。2016 年前后,苹果利用差分隐私技术搜集匿名用户信息,提供词汇联想、表情推荐、耗电量应用检测等服务。2.3 零知识证明(ZK)零知识证明(Zero Knowledge Proofs)是一种可让一方(需求方)面对另一方(验证方)时,证明其陈述为真、同时无需暴露己方信息的密码学技术。问题:目前零知识证明仍是一种较为早期的技术,有待更多场景和产品落地。同时技术标准欠缺,有待行业标准化的持续发展。应用:零知识证明已经在区块链的诸多场景下落地,典型场景有证明交易过程中己方交易的合规性。加密货币 ZeroCash(大零币)就使用了零知识证明技术避免交易的支付方、收款方、数量等信息泄露,同时证明交易相关信息的正确性。3 可信任执行环境(TEE)可信计算指借助硬件CPU芯片实现可信执行环境(TEE),从而构建一个受保护的“飞地”(Enclave),对于应用程序来说,它的Enclave 是一个安全的内容容器,用于存放应用程序的敏感数据与代码,并保证它们的机密性与完整性。可信计算是基于硬件和密码学原理的隐私计算方案,相比于纯软件解决方案,具有较高的通用性、易用性和较优的性能。
(图源:《腾讯隐私计算白皮书》)问题:其缺点是需要引入可信方,即信任芯片厂商。此外由于CPU相关实现属于TCB,侧信道攻击也成为不可忽视的攻击向量,需要关注相关漏洞和研究进展。可信计算开发和部署成本较高,应用:ARM平台的TrustZone、AMD下的SEV、Intel 发布的SGX。基于 ARM 和 Intel 的硬件产品,国内陆续有百度的 MesaTEE、华为 iTrustee 等产品方案提供服务。4 区块链技术隐私计算虽然实现了在多方协作计算过程中对于输入数据的隐私保护,但是原始数据、计算过程和结果均面临着可验证性问题。而区块链因其共享账本、智能合约、共识机制等技术特性,可以实现原始数据的链上存证核验、计算过程关键数据和环节的上链存证回溯,确保计算过程的可验证性。因此将区块链技术对计算的可信证明应用到隐私计算中,可以在保护数据隐私的同时增强隐私计算过程的可验证性。数据共享的整个流程涉及到采集、传输、存储、分析、发布、分账等多个流程,隐私计算主要是解决全流程的数据“可用不可见”的问题,但是难以保证数据来源可信和计算过程可信。应用:目前主要有五个方向。解决单点实际问题、扩大联盟链应用范围、提供网络安全相关服务、建立为企业提供服务的区块链+隐私计算基础平台、建立同时为企业和个人提供服务的区块链+隐私计算基础平台。







02应用场景隐私计算的落地应用如今越来越多,笔者此处仅简单列举几个例子,方便大家理解。1.风控银行联合建模,提升反欺诈模型。
(图源:《腾讯隐私计算白皮书》)2.医疗隐私计算有效助力医学影像识别、疾病筛查、AI辅助诊疗、智能问诊咨询等。案例概述:锘崴信隐私机密计算平台提供技术支持,由上海某三甲医院牵头,全国多家医院联合完成了一项有关强直性脊柱炎的 GWAS(全基因组关联分析)。这是全国范围内首次实现带有隐私保护计算、不分享明文个体基因数据的 GWAS 分析。基于隐私保护计算的高性能基因组数据联合共享和分析平台,研究团队设计开发了新框架,使用具有隐私保护功能的联邦学习方法连接多个数据源,研究过程只交换加密后的中间计算结果,不泄露患者级基因分型数据。在数据共享的全程保护患者信息,达到数据共享与隐私保护的双重目标。3.政务随着政策法规出台,隐私保护和数据合规要求日益明晰,政务数据开放面临着数据隐私保护和数据开放流通的两难局面。2021 年,山东省计划建立全省一体化的公共数据开放平台以实现数据综合集约化管理。为此,洞见科技联合智慧齐鲁公司,以“数据可用不可见、计算可信可链接”的隐私保护计算技术,为山东省大数据局建设了国内首个省级政务数据隐私计算平台。
4.营销保险公司在进行客户的存量运营时仅动用自身信息资源,然而受制于数据总量不足、维度较少等因素,缺乏充分挖掘存量客户库能力。新业务开展依赖既有数据,营销亦受限。数牍科技调用了隐私计算产品,赋予保险公司与合作运营商基于双向隐私保护的数据协作能力。首先,保险公司通过隐私保护集合求交技术匹配相关用户,另一方无法留存或反推用户身份。仅当保险公司明确了需要触达的用户后,双方完成 ID 信息的交互,全程保障双方客户信息免于泄露。其次,通过纵向联邦学习,将保险公司历史投保成功标签与运营商用户画像标签相结合,从而建立基于纵向联邦学习的保险意向模型。由此完成不交换原始数据前提下,实现数据价值交叉挖掘。5.人脸识别基于秘密分享机制实现的多方安全计算协议可以构建一个安全的人脸识别平台。
在整个人脸识别的过程中,计算出的密文识别结果会直接发送到数据使用方解密使用,平台的技术提供方无法直接获取被查用户的人脸特征值,从而在保证个人信息不会泄露给第三方的同时,实现了人脸识别数据的定向应用。
(图源:隐私计算法律与合规研究白皮书(2021 年))








03法律合规与潜在问题
隐私计算的技术方案能够提高数据处理中的隐私计算应用有助于保障个人信息/隐私安全,这与数据法中的合规要求不谋而合。
隐私计算技术一般可以帮助数据处理者实现以下合规要求:
1. 有助于履行安全保障义务
隐私计算在无需转移数据物理存储服务器的情况下实现数据建模分析,从而减少数据协作过程中风险。
隐私计算可作为企业履行了数据安全保障义务的一项证明。
2. 有助于防止数据滥用
隐私计算可从技术层面满足数据最小化、完整性和机密性原则要求。
(1)最小化
大部分隐私计算技术都力求让数据“可用而不可见”,在有多方参与者共同处理数据的场合中,各方并不直接提供明文的源数据,而是分享加工处理后的模型或者函数答案。这减少了不必要的数据流通,符合“最小化”原则。
(2)机密性
由于隐私计算会对数据进行加工和处理,从而提高安全性和机密性。更进一步,可信计算方案直接从硬件出发,保障了数据处理环境的安全。
(3)完整性和可追溯性
这需要区块链技术的配合。在搭配上区块链技术后,就能实现从数据上链开始的全程追溯和记录,有助于数据处理者清楚共享后的数据的用途与归宿,并且防止其他人篡改数据。
3.有助于实现“目的限制”原则
以联邦学习、安全多方计算等基于“共识处理框架”的隐私计算技术可以为计算参与方共同设定计算目标、共同约定计算逻辑、接受特定技术方案约束。这一基础架构确保了数据处理的目的被凝聚成特定的“共识”,各参与方难以在“ 共识之外”将数据用于其他目的。
4.有助于实现一定条件下的匿名,可作为匿名化技术方案的一个组成部分。
5.有助于减轻授权同意的合规隐患。大部分隐私计算方案都采取去中心化架构,这意味着源数据不会直接共享流通。因此,数据处理者只需要取得本地数据主体的同意,即可。这减少数据处理中“告知=同意”的要求。
难点
但与此同时,目前隐私计算方案也存在一些法律上的障碍。
1.匿名化标准模糊
尽管隐私计算使用了高强度的加密算法,数据泄露的可能性大大降低,但加密后的数据依然存在可逆的可能性,即加密计算后的结果在某些场景下依然能够反映出单个个体的某些特征,无法彻底满足匿名化“不可识别、不能复原”的要求。因此与法律定义的理想状态的“匿名化”相比,隐私计算对数据的处理更近于“去标识化”,因此输出的结果仍然属于个人信息,仍然需要满足个人信息保护的合规要求。
2.隐私计算参与各方权利义务的边界有待进一步明确
由于隐私计算的常见适用场景是多方参与者的共同处理,因此会涉及到参与者之间的责任分配问题。尤其是,可信计算还引入了硬件厂商,进一步需要参与方协商明确各自的权利义务边界。
3.隐私计算的局限
隐私计算可以助力解决数据安全性问题,但是在传统的安全问题之外,数据是否被合法、公平地处理,处理结果是否会对个人或者公众造成不良影响,都无法保证。
【综上,隐私计算技术不仅可以作为法律人合规的工具,同时也给律师的实务操作提出了一些挑战。
(是不是也可以理解为业务需求增加了~狗头)】








04产业端速览
图源《中国隐私计算技术与市场发展研究报告》
图源:《2022年中国隐私计算市场分析》







05自学资料分享1. 技术介绍
入门级:《腾讯隐私计算白皮书(2021)》易读性强,强烈安利;《2022年中国隐私计算技术与市场发展研究报告》推荐这个,通俗易懂。同时还提供了一些领头企业的成熟应用案例分析;《隐私保护计算技术及应用场景分享-中国电信研究院》图片生动形象,同时介绍了中国电信的各类应用场景。进阶版:《隐私计算技术金融应用研究报告》对各项技术做了更加深入的介绍,强烈推荐学有余力的同学阅读;《隐私科技白皮书》着眼于“大隐私科技技术”,视角更为宏观。1.1 联邦学习《腾讯联邦学习应用服务白皮书》;《联邦学习场景应用研究报告(2022年)》这份报告更加详尽,对联邦学习的历史和技术细节、落地应用做了完整的介绍;《联邦学习技术金融应用白皮书》更偏向于实务操作的介绍,对于技术的标准和应用有深入的讲解,但不建议零基础的同学直接阅读。1.2 安全多方计算《多方安全计算金融应用现状及实施指引》偏向于实务操作的介绍。1.3 可信计算《基于可信执行环境的隐私计算白皮书》对于目前可信计算的几大流派做了深入的介绍。1.4 区块链+隐私计算《生态重塑:区块链+隐私计算一线实践报告(2022)》对该领域的技术、应用和未来发展都有很独到的见解,尤其是对于区块链技术与隐私计算技术之间特殊的关系。值得一读!2. 法律合规问题《隐私计算法律适用规则报告》这是我读到最棒的介绍法律合规操作的报告,十分具有实操性!《隐私计算法律与合规研究白皮书(2021 年)》对于相关法律合规要求的分析十分详细;《[信通院]隐私保护计算与合规应用研究报告(2021)》相较上文补充了技术细节,但法律分析略显不足。3. 金融领域《隐私计算技术金融应用研究报告》对金融领域的产品落地和应用场景做了详尽的分类介绍;《进军超级场景:隐私计算金融风控领域应用报告(2022)》对金融领域的分析也很全面;《2022金融科技行业十大趋势展望:数实共生》补充了几组案例。4. 公共数据领域《隐私计算与公共数据开放白皮书2022》。5. 应用场景《2022年隐私计算技术应用场景分析报告》很详细地描述了各领域中,隐私计算可能的应用;《边缘学习:隐私计算白皮书2022》内含几则现实落地的案例;《隐私计算应用研究报告(2022年)》更偏向于实际操作。6. 市场分析:(下述三份报告都十分有质量)《2022年中国隐私计算技术与市场发展研究报告》;《2022年中国隐私计算市场分析》;《隐私计算产业发展深度报告——量子位智库》。以下为隐私计算相关报告分享:附下载 | 2022年隐私计算技术与行业应用报告合集(33份)



END往期推荐:




隐私计算头条周刊(8.7-8.13)


王忠民:数字向善的三重力量——开源、开放、加密


美国联邦贸易委员会:探讨打击商业监控和危害数据安全实践的法律法规


专访李凤华:隐私数据共享和泄露间的矛盾永恒存在,隐私计算必将越来越成熟


开放隐私计算社区征稿啦!

热门文章:




姚期智院士:数据、算法、算力为何是数字经济核心技术?


附下载 | 2022年隐私计算技术与行业应用报告合集(33份)


联邦学习前沿 | 基于图神经网络的联邦推荐系统研究 


招标 | 近期隐私计算项目招标18(联通、不动产、股权市场、银联等)


未来十年,将会有95%的企业采用隐私计算技术


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存