韦韬：隐私计算的技术层面解读

开放隐私计算 2024-01-09

2022年12月25日，由中国人民大学国际货币研究所（IMI）和中国人民大学金融科技研究所联合主办的“华瑞金融科技沙龙”系列活动第5期“隐私计算：数据安全可信流通助力商业银行数字化转型”线上研讨会成功举办。蚂蚁集团副总裁，首席技术安全官韦韬出席沙龙并参与研讨，从技术角度对数据要素与隐私计算做出了专业分析。中国人民大学金融科技研究所（微信ID：ruc_fintech）对研讨会内容进行了整理。

蚂蚁集团副总裁，首席技术安全官韦韬从技术角度对数据要素与隐私计算做出了专业分析。他认为：《关于构建数据基础制度更好发挥数据要素作用的意见》（以下简称“数据二十条”）中明确“探索数据产权结构性分置制度，建立数据资源持有权、数据加工使用权、数据产品经营权‘三权分置’的数据产权制度框架”对行业发展有着至关重要的作用。数据要素与其他生产要素的显著区别在于容易被复制，“你有我有他也有”的情况会造成数据商业价值的崩塌。这意味以后数据要素市场流通的主体不是持有权，而是使用权。数据要素行业未来将在“原始数据不出域，数据可用不可见”的原则要求下，突破思维和技术瓶颈，在全行业各种场景既保障好数据使用权跨域管控，又支撑好数据要素价值流通和广泛应用。为此，现有各个隐私计算技术路线深入融合是大势所趋，这不但是性能、成本和普适性上的需求，在安全保障上也有同样的需求。最后，对于一些特殊应用场景，对数据使用应留有专数专用的通道。

以下为嘉宾的完整发言：

01数据要素使用权和持有权的含义、分离及其技术
个人认为，“数据二十条”再次明确“探索数据产权结构性分置制度，建立数据资源持有权、数据加工使用权、数据产品经营权‘三权分置’的数据产权制度框架”对行业发展有着至关重要的作用。关注持有权，强调使用权，弱化所有权，这在数据要素加工、流转、融合和市场交易的完整链条中都有着重要的意义。数据的持有权主要是持有明文数据（或者明文数据等价物）的权利。有了明文数据后，意味着在技术上获得数据不受限的所有的使用价值。一方面数据持有方需要非常谨慎的合规合法的使用数据，并且按照法律要求尽责保护好数据持有权不失控；另一方面一旦数据持有权失控，使用权也将失控并被滥用，继而数据要素作为商品的价值会崩塌。这是数据要素和其他生产要素显著的区别——非常容易被复制，行业内很多专家已经认识到这一点。传统上基于明文的数据流转，难以将数据的持有权与使用权分离，在漫长的数据价值流转链路上很容易导致持有权和使用权的失控，而且也严重阻碍了数据要素价值市场化。历史上，持有权和使用权从未被分离过，直到隐私计算出现。隐私计算这样的数据密态技术第一次实现了数据的持有权与使用权分离，可以在保障数据持有权不丧失的前提下，对数据在跨域流转的全程对其使用权实现管控。这种数据流转全链路的使用权跨域管控能力，对于数据要素价值实现市场化来说是至关重要的。数据的使用权流通，而非持有权流通，是数据要素行业发展的关键。使用权跨域管控在其中起到非常核心的作用，跨域管控意思是即使数据的使用不在数据持有方的运维管控域，一样能够在技术上保障数据持有方对数据如何使用进行决策。隐私计算有几个重要的技术路线，比如多方安全计算、联邦学习、TEE可信执行环境等。这些技术虽然并没有直接涉及使用权，但其中大都隐性的包含了相关的支持。对于多方安全计算和联邦学习，需要数据持有者的参与发起才能对数据进行融合计算，这是通过隐性的控制来实现使用权的管控。而TEE可信执行环境达到隐私计算的要求还有相当的距离。可信执行环境本质上是一个机密计算环境，即提供了可以远程验证的隔离并加密的执行环境，但本身并不为数据持有者提供数据使用权的跨域管控能力。这需要在TEE环境内的隐私计算平台或应用对其进行专门保障，否则它只是机密计算，并不能对数据要素使用权进行跨域管控，也并不能真正达到隐私计算的要求。所幸的是，可信执行环境的远程验证技术可以很好的支持数据使用权跨域管控的实现，也是我们在努力推动行业同行的方向。
02现阶段技术限制与“数据不出域”概念澄清
如今已经有许多行业隐私计算的应用案例，但隐私计算技术仍然处于早期，不少应用案例中能处理的数据规模、复杂性以及计算模式依然有明显限制。同时，很多技术概念并不明了，一些错误认知也阻碍了行业的发展。业界初期普遍认为“数据不出域所以安全”，但实际上这种模糊的“数据不出域”概念既不是隐私计算安全保障的充分条件也不是它的必要条件 ---- 数据跨网交互过程一个比特的错误就可能导致整个数据的泄漏，而妥善的数据密态出域则能够很好的保障数据的安全性。数据的安全保障机制需要安全专家和专业化机构对其进行专业分析认可，而不能只靠比喻解释。比如现阶段的密码学，每当新密码协议产生，密码专家们要对其设计安全性做详细论证，而安全专家们会对其实现做长时间攻击分析研究。与之类似的，今后隐私计算要从现在少数公司机构间的数据流转变成整个行业的基础设施，真正专业的安全保障能力是非常关键的。安全是有成本的，但与大家认知不太一样的是，今天的专业安全可以在成本和业务效能之间实现一个相当好的平衡，甚至能做到在风险可控的条件下突破原有的业务技术瓶颈。我们很高兴“数据二十条”中再次明确了“原始数据不出域，数据可用不可见”是重要原则和要求，消除了“数据不出域所以安全”的模糊语义，在此原则基础上业界有广阔的技术发展空间。为什么说强调这是很大进步呢？因为如果只考虑数据不出域，强调所有计算都需要数据持有方的跨网络参与，这会导致数据持有方的网络会成为严重业务瓶颈。而这个瓶颈在安全专业角度来看并不是必须的，无论是对同态加密技术还是可信密态计算技术，都能突破这个技术应用瓶颈，也保证安全的数据管控能力。也只有突破这样的瓶颈后，分布式、大规模、可扩展的基础设施才能被真正提供，从而支持全行业的数据要素价值的流转。
03未来趋势：技术大融合与规模效应
隐私计算技术现在有很多相对独立发展的技术路线，在未来，各个技术融合是大势所趋。这不仅仅是性能、场景适用性上的迫切需求，甚至在安全性上也有强烈需求。现有的各条技术线，包括多方安全计算（半诚实模型安全问题）、联邦学习（信息熵泄露问题）、TEE（供应链攻击与应用攻击）都有实际应用中的安全挑战需要相互之间的技术融合来做补位增强，从而成为未来行业大规模安全可用的隐私计算技术基础设施。比如多方安全计算在业界应用最多的模式是半诚实模型，这是一个密码学专业词汇。半诚实模型意味着大家都要遵从协议，在这样的前提下才能保障数据不泄漏。但现在我们发现很多半诚实模型的多方安全计算实现并没有安全审计能力。假如攻击者真的不遵守协议，他偷取数据的这件事情也无法被审计发现。那这样的方法如果推广到全行业来用会导致严重的系统性风险。如何解决？我们认为，把多方安全计算和TEE融合是最好的解决方法。更广泛的，我们能看到未来技术融合将会是大趋势，多方安全计算、联邦学习、可信执行环境融合，这能很好地帮助各种技术路线解决它的性能、适用性和安全性等等问题。另外一个角度来看，隐私计算技术不是免费的午餐。所有的东西都有成本，一般来说安全性越高，成本要求越高。现在多方安全计算和联邦学习需要跨公网或跨专线的，多方安全计算有着动辄万倍以上的性能损失；联邦学习用信息熵泄露代价来换取性能提升，但也还有百倍、千倍以上的性能损失。全同态加密本身计算速度很慢，也会有着千倍、万倍以上的损失，虽然能靠硬件加速来缓解，但更大的问题在于，它的数据会膨胀千倍、万倍以上。而可信执行环境则需要部署新的可信硬件。好消息是，一方面我们可以用技术融合来突破这些性能瓶颈，另一方面应用成本会随着基础设施的规模效应而逐步降低。只有达到一定规模以后，边际成本才能下来，高安全高性能高适用性的隐私计算技术才能被越来越多行业所使用。重点在于行业如何正确引导，特别是监管机关以及有头部责任的大企业的共同推动。我们相信，未来一定是分类分级来引导隐私计算技术在行业里落地，包括技术层面的分类分级和应用场景的分类分级。一边增加应用场景获取收益，一边提升技术融合与基础设施规模化降低成本。也非常希望能看到重点行业引导加速这个应用过程，通过共同推动，扩大应用规模，从而降低边际成本，普惠全行业。
04对于特殊应用场景设置专用通道
隐私计算的使用要有平衡，过度强调单点技术的应用走到极限都会出现问题。伦理层面之外，我想补充一个对保护消费者至关重要的“打击黑产”。我近十年来一直在打击黑产第一线，打击了非常多的黑产团伙。在新的场景之下，我们在隐私计算领域应用时不能将其极端化。我们在打击黑产时，在关键案例分析上是需要对黑产涉及的原始数据做深入挖掘分析的。如果没有这个通道，行业的AI安全应用面临着被黑产打穿而无法有效响应的严峻风险。对于这种特殊应用场景，对数据使用应留有专数专用的通道，避免一刀切。

整理：陈悦尔

来源：人大金融科技研究所

END

往期推荐: