最近几年,你肯定听过一个词儿,叫做:数据可用不可见!什么逻辑?你看不见、得不到这个数据,却可以使用这个数据。这不就相当于传说中的:你可以得到我的心,却永远得不到我的身
这种事儿,真的存在吗?
其实在数据爆炸时代,这样的需求非常迫切。
比如,一个简单场景,公司A因为业务需求,希望公司B能够把自家的数据拿出来共享一下↓而对B公司来说,数据是非常重要的资产,万万不能轻易拿出去。所以在没有保障的前提下,这件事是谈不拢的,必须让A公司“滚犊子”
此处,身,代表数据本体(数据所有者手里的那些未脱敏、未加密的数据);心,表示数据价值、计算结果。
数据可用而不可见,就相当于:得到了心,得不到身。
如今,随着数据要素价值凸显,数据共享和交换的需求日益旺盛,大家迫切需要「数据可用而不可见」的万全之策。
这类数据可用而不可见的技术,统称为「隐私计算」,目前主要有三大技术路线↓
路线1→ 联邦学习:
联邦学习是机器学习的一种训练策略,参与训练的每一方,都有各自的私有数据,各自根据本地数据训练模型的一部分,然后发送到中心服务器。中心服务器会整合这些局部模型,生成完整的全局模型。
安全多方计算是密码学中的一种方法,允许多个参与方合作计算一个函数,并且这个过程中每个参与方的输入数据保持私密。这个玩法依赖复杂的SMPC协议,并涉及到大量的密码学技术比如同态加密、混淆电路等等。
路线3→ 可信环境计算:
大家互不信任怎么办?造一个绝对安全的空间,也就是TEE(Trusted Execution Environment,可信执行环境)。把各自的数据和算法都放到这个空间里,计算完成后,再返回结果就可以了。
TEE方案依赖于专门的硬件,性能较高,适用的场景也比较广泛。
它像一个强力的保险箱,数据在这个安全的环境里,进行全密态处理,做到“可用而不可见”。不同的技术适用的场景不一样,未来的发展趋势也不一样,比如最近AIGC的热潮直接带来的联邦学习的快速发展。至于现阶段的应用场景,如果综合比较三种路线,反而传统的TEE是相对成熟,也是相对最实用的。