查看原文
其他

隐私计算的“哲学三问”:我是谁?从哪里来?到哪里去?


贵阳大数据交易所近日在2022中国国际大数据产业博览会上发布数据交易规则体系,令贵州成为全国首个发布相关体系的省份。同时,贵州省数据流通交易服务中心还迭代升级了流通交易平台,实现原始数据“可用不可见”、数据产品“可控可计量”、流通行为“可信可追溯”。


值得注意的是,在这些数据流通和交易关键功能的背后,正是近年来热度颇高的隐私计算提供了技术保障。此前,隐私计算已在全国多家省市级大数据机构得到成功应用,如上海数据交易所、北京国际大数据交易所、成都市公共数据运营服务平台等。


据了解,蚂蚁集团、锘崴科技等国内具有代表性的隐私计算技术服务商纷纷在此次“数博会”上展示或发布最新技术,相关成果与话题也再度成为业界焦点。作为全球首个以大数据为主题的国家级博览会,“数博会”再次为隐私计算技术的前景和普及提供了背书及舞台。


事实上隐私计算技术实际并非完全新生,其诞生与发展源于长期理论科研探索,背后反映出人们对数据共享、协作的需求更有着久远的历史和社会渊源。


殊途同归为共享:从数据到数据价值


如果说隐私计算有一部技术发展史,那么这部史书的开篇一定是人们对数据以及数据共享理念的人文社会进化史和变革史。


人类对数据与信息的需求自古有之。自然资源利用、国家社会治理、军事战争等都离不开各类数据,但真正大规模的数据共享却不过百余年历史。1873年9月,第一次国际气象大会在维也纳举行,开启了国际气象合作的历史,全球各国开始共享每日气象数据,其后这样的数据共享数量和频率一直不断攀升。


学术科研是另一个长久以来共享数据的领域。许多研究论文都会引用和分析前人数据,得出新的结论,尤其在一些成本高昂的领域更是如此。比如天文、海洋、医疗等领域,原始数据往往源自昂贵的设备,像是大型天文望远镜、医疗影像设备等,再加上人力,数据采集成本极高,如果要让世界各地的研究者都直接获得一手数据显然并不现实。


随着数据共享越来越多,问题也开始产生。相比大量数据的存储分析工作可以用现代计算机分担,社会人文数据、生物医疗数据所引发的对于国家安全、保密性和隐私性的担忧则更难解决。


这些问题在互联网浪潮下的商业世界更加速凸显。进入2000年新世纪初,虽然公众对数据价值、隐私保护的意识仍然较弱,只有手机里越来越多的垃圾短信在提醒人们自己的联系方式已遭泄露,但很快人们就陷入了焦虑和不安——互联网平台大肆收集和利用个人数据,“大数据”基石上筑起了一个个商业帝国。


于是人们开始探索更科学、安全、公平的方式获取和利用数据。我国的一个早期经典案例是,中国邮政于2007年斥巨资购买“邓白氏”国际数据库,让许多国内企业知道了数据的合规使用方式。


用今天的眼光来看,这种方式可以大概算作数据的“可用不可见”。其中的重大突破以及核心价值是,中国邮政卖给客户企业的是数据服务和数据价值,而没有一条明文数据在此过程中成为交易标的。


如果说历史上这类用制度实现数据“可用不可见”的案例代表了数据共享观念层面的一次革新且尚有提升空间,那么利用技术来确保数据“可用不可见”则是行动层面的一次革命,解决问题也更彻底,就是在代码及硬件层面保证了数据“可用不可见”、“可控可计量”、“可信可追溯”。


这里需要再度明确的是,隐私计算并不是为安全获取明文数据而生。隐私计算解决的是数据共享问题,也就是让没有数据的人能共享别人的数据,让有数据的人能分享数据给别人,并且不泄露数据。


鱼和熊掌兼得绝非易事,隐私计算技术的发展也不是一条线性发展的脉络,而是几十年来多种技术路径殊途同归,交织融合的探索史。


博古通今靠技术:从古老密码到未来AI


隐私计算让数据共享更安全可靠,极大提升了数据价值挖掘的效率。但要实现及协调这些功能,需要不同的底层技术,也经历了漫长的探索和发展。


用计算机打个比方,键盘作为输入设备源于200多年前的打字机,显示器作为输出设备源于近百年前发明的电视机,运算单元从电子管发展到大规模集成电路也才几十年历史,而互联网的普及更是近30年内的事。这些不同时期、不同领域的技术被巧妙结合,形成了今天一般意义上的“个人电脑”解决方案。


隐私计算的发展也经历了相似的模式,不同时期的不同技术分别解决不同问题,发展到一定阶段就被拿来整合协同,整体效用倍增。隐私计算就好比计算机,由多种技术组合形成一整套解决方案。


目前来看,隐私计算大致包含三大技术路径:密码学、联邦学习、可信执行环境,其中既有软件也有硬件,各有渊源也各有长短,在解决数据共享这个大问题时根据场景需求发挥各自作用。


密码学


密码学是一门古老的学科,古典密码学的历史可以追溯至公元前,注重信息的加密、传递和解密。现代密码学则起源于20世纪40年代,在保密基础上还关注数据的计算,这也是密码学与隐私计算最息息相关的部分——保密是基础前提,核心价值是通过计算发掘价值。


在密码学大框架中,多方安全计算(MPC)和同态加密(HE)是目前隐私计算采用的两大主流技术。


多方安全计算源于1982年由姚期智院士提出的“百万富翁问题”,即在互不透露财产金额的前提下,两人如何比较出谁更富有。用技术语言简单解释就是基于一个双方认可的函数分别输入数据,函数计算出双方都想知道的结果,但一方不会知道对方的输入数据。


多方安全计算最初只能实现两方计算,至1987年由Goldreich、Micali和Widgerson研究扩展至多方计算,也就是GMW协议。


同态加密是一种可以基于密文计算的加密技术,即利用代数结构在无需解码密文的前提下得到和明文计算一样的结果。同态加密源于1978年Ronald Rivest、Adi Shamir和Leonard Adleman的研究成果(RSA非对称式加密算法)。2009年,Craig Gentry提出了首个实用的全同态加密算法,标志着全同态计算时代的开始。


我国学者在同态加密研究和应用方面也展现出非凡实力。2013年,王爽教授完成基于同态加密的罕见病多中心研究。2017年,王爽教授牵头成立国际同态加密标准委员会,同态加密在全球进入高速发展阶段。


密码学的严谨性为多方安全计算和同态加密提供了理论可证的数据保护能力,确保了原始数据不泄露。两者最显著的区别在于,多方安全计算采用分布式计算,也就是各参与方分别完成一部分计算,最终结果由所有参与方共享,而同态加密则是各参与方把数据集中起来计算。


然而由于天然涉及大量计算,两者都对计算性能提出了很高要求。这一点在同态加密中体现得尤为明显,加密程度越高,计算数据量越大,计算效率就越低,因此同态加密往往难以应对复杂问题的计算分析,编程门槛也较高。而多方安全计算由于涉及多参与方之间的通信,因此通信时延以及部分参与方之间可能存在串通作恶都成为其附带的挑战。


可信执行环境


可信执行环境(TEE)是芯片中隔离出的一块安全区域(被称为“Enclave”),用于机密或敏感数据的处理计算。TEE提供了硬件级的安全环境,芯片其他部分的存储或进程都无法访问TEE内的数据。


2009年,开放移动终端平台(OMTP)工作组在其《高级可信环境:OMTP TR1》标准中首次提出TEE标准,之后各大主流芯片厂商纷纷推出了符合该标准的芯片,如Intel SGX、ARM TrustZone等。近年来互联网巨头也纷纷加入这一热潮,令TEE开启了高速商用阶段,如2018年百度发布Mesa TEE解决方案,2020年阿里巴巴发布Occlum TEE系统等。


今天,TEE可以说是最普遍使用的隐私计算技术之一,最典型的应用就是智能手机的面部识别功能。人脸信息被存储于TEE中,当第三方APP需要识别人脸时,系统会在TEE中完成脸部识别,并反馈给APP比对结果是否一致。


这一过程中,APP只会得到是与否的判断结果,而不会得到具体的人脸生物信息。TEE中的敏感数据就这样被“严防死守”,流出的只能是计算结果而不会是数据本身。这也解释了为什么在更换新手机时,许多数据都可以迁移到新手机上,但人脸信息需要重新录入。


当然TEE也有短板,首先TEE环境中的计算速度相对较慢,无法处理大规模数据,但速度仍高于密码学相关技术。更大的问题则来自非技术层面,尤其对我国来说,在当前地缘政治环境下,越来越多国内用户开始关注使用国外芯片品牌TEE的风险,这也带动了近年来我国信创产业的蓬勃发展,自研国产芯片将成主流趋势。


联邦学习


联邦学习的概念源于人工智能机器学习。人工智能的兴起依赖大数据,但受限于合规或样本总量规模,很多领域要获得大数据其实并不现实,而联邦学习正是一举两得的技术解决方案,一方面把“小数据”汇聚成大数据,另一方面又把这些数据留在本地,避免了泄露。


作为隐私计算技术的主要路径之一,业界常以“数据不动模型动”来概括联邦学习的基本原理。也就是说,参与联邦学习的各方基于本地数据训练形成本地模型,不同的本地模型再经过参数传递,最终聚合形成全局模型。


尽管一般都认为联邦学习由谷歌于2016年提出并用于优化键盘输入法,但有证据表明,我国学者先于谷歌多年提出了相关概念。2012年,王爽教授团队提交并发表了全球首篇医学在线安全联邦学习文献,提出了“数据可用不可见”问题,在不需要分享原始个体数据的情况下,利用多个数据源进行带有隐私保护的联合建模的概念。


2019年2月,微众银行AI团队对外发布自主研发的联邦学习开源项目FATE(Federated AI Technology Enabler)。FATE提供了一种带有数据隐私保护功能的分布式安全计算框架,为机器学习、迁移学习算法提供隐私计算支持。同时,FATE提供了一套跨域交互信息管理方案,提供联邦学习信息安全审计功能。


2020年,李晓林教授提出知识联邦理论体系,知识联邦是一个安全多方应用框架,它支持安全多方查询、安全多方计算、安全多方学习、安全多方推理等联邦应用。知识联邦关注的是数据到知识的全生命周期隐私安全保护,包括知识创造、管理和使用及其监管,设计目标是面向生产环境的知识联邦生态系统,致力于推动人工智能发展。


需要指出的是,尽管联邦学习不需要数据拥有者拿出数据,但由于训练模型是共享的,因此理论上恶意攻击者有可能根据模型信息倒推出数据,这也是普通联邦学习最显著的风险。


对此,国内隐私计算的前沿探索者们提出了安全联邦学习(Secure Federated Learning, SFL)的解决方案,即在普通联邦学习技术基础上,通过融合可信执行环境(TEE)、多方安全计算(MPC)、密码学等其它隐私计算技术,根据场景侧重点发挥各类技术的优势,克服原有的弊端和风险。


融贯东西成一体:技术协同与产业融通


一路发展至今,隐私计算正是这样一整套凝聚历史积淀的创新解决方案。目前国内已涌现出一批实力不俗的技术服务商,正在加速推动技术和产业发展。


从技术发展趋势来看,尽管隐私计算仍然处于发展早期,但已经走过了依靠单一技术解决问题的阶段,进入了不同技术路径相互协同、取长补短并按场景需求配置的新阶段。


一个典型的例子就是区块链技术。尽管区块链的概念源于2008年比特币的诞生,但其理论基础仍是对密码学的巧妙应用。区块链的最大特点是不可篡改的特性,因此可以很好地实现数据溯源,让隐私计算不仅能解决数据共享环节的问题,更能从源头上实现数据全生命周期管理。


近年来区块链正被越来越多地纳入隐私计算解决方案中,而在此之前,业界对融合其他各项技术的探索也从未停止。


展望未来,隐私计算依然同时面对机遇与挑战。


机遇方面,各行各业对数据安全有序流动和共享的需求只增不减,为隐私计算产业带来了巨大的市场空间。同时,数据安全与个人隐私保护相关法律不断完善,各项国家经济与产业政策明确鼓励应用隐私计算相关技术,都为隐私计算技术的大发展创造了绝佳宏观条件。


挑战方面,伴随产业的蓬勃兴起,各类隐私计算平台在打通数据孤岛的同时,也形成了众多相互割裂的隐私计算平台。如何让不同隐私计算平台互联互通,打造更大的行业、区域、社会乃至国家层面的数据共享基础设施,已经成为许多隐私计算行业参与者的下一个奋斗目标。


来源:投稿




END
往期推荐:




隐私计算头条周刊(6.5-6.11)


学习隐私计算的前景如何?对于隐私计算关注者的一点建议


关于数据安全管理认证文件,你需要关心这些问题


公开课|数据安全流通技术解—隐私计算


开放隐私计算社区征稿啦!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存