查看原文
其他

增本降效可解“工程化之困”?隐私计算工程化落地难在“客户思维”

同态科技 算力智库 2024-01-09

(此文由同态科技提供)

得益于数据安全上升到国家战略高度,隐私计算借助不转移或不泄露原始数据的前提下实现数据融合“可用不可见”,在满足合规要求的前提下充分挖掘数据价值这一特点,成为近年来科技圈的新宠。 发展至今,隐私计算利用软、硬件技术手段,实现数据采集、传输、存储、处理、交换到销毁的数据全生命周期安全管理已经得到应用。在整体发展脉落上,隐私计算行业仍需要经历技术的成熟化、工程化、产品化和商业化多个发展阶段。 其中,隐私计算工程化又分为拉框架、定规矩、做实施三个层次。当前期的POC项目已经满足不了行业需求时,构建数据闭环的持续性框架、形成标准化和平台化的开发模式、以及一定规模化的产量输出,把隐私计算打造成商业环境中对数据价值的核心支撑力才是首要之举。 值得一提的是, 在我们讨化工程化落地时,首先要有效区分隐私计算整体的技术成熟度。技术成熟并不是指技术本身毫无缺陷已经完备,而是围绕数据应用的目标去做有效展开和区分,让技术得以最小化的成本展现商业价值。
拆解不同技术路径定制化成数据处理难题

技术始终服务于业务,在尽可能低的成本上对于原有的业务形成有效的补充或者增强,寻找商业价值最大化。因此,隐私计算工程化落地时必须衡量两个标准:一是成本。包括人力、系统改造、业务逻辑、商业风险等一系列成本消耗;二是覆盖范围,即隐私计算对整体业务的增持覆盖范围。
在数据业务中,所有的数据使用场景都可以抽象成数据源与数据应用方的逻辑场景。因为隐私技术的本质,是在数据源为应用方提供数据的过程中,有效的对原始数据进行保护,但又能让应用方对已经处理或加密后的数据进行计算与使用。因此,应用隐私计算技术对于数据的处理过程可以在几个阶段进行介入,这也是在数据源一侧进行隐私计算部署时的相关工程化改造评估方向。

首先,数据收集阶段。利用相应的技术手段对数据源进行处理,并在之后的流转、存储、转发、使用等过程中,均可以在安全可控的状态进行被管控、被监督,将隐私技术的部署下沉至数据终端,伴随在数据的全生命周期进行有效覆盖使用。 这种对数据源的部署方式可以与原有业务模式高度贴合,提升隐私技术部署的便捷性与灵活性,同时降低后台系统的改造难度与工作量。在数据终端(未来也可扩展至C端)、或路由端进行隐私计算加密后,数据操作环节均可实现可控安全的使用。这个思路与零信任安全架构有相似之处。 在数据收集阶段进行上述技术处理,后续的数据存储与数据分发阶段对于数据源都不再需要进行其他隐私计算工程化部署。简言之,“源头覆盖、一马平川”。(推荐技术路径:同态加密、TEE等) 其次,当数据终端产生数据并收集后,便会将其存储至数据库中,便于后续的更新、调转与使用。因此,在数据入库的过程中,可以在数据库中与隐私计算进行有效结合,应用隐私计算技术对入库数据进行操作处理,对存量数据进行刷新,使入库存储的所有数据保持密文状态,之后的数据库查询、统计、分发可以实现对于隐私化数据的直接处理。 这种方式的改造成本相对适中,但是对于已经成熟运转的系统来说,由于需要考虑到数据库字段改造、扩容、数据正确性、响应延迟与稳定性等一系列问题,部署与改造的落地挑战较大,可能会出现“牵一发而动全身”的情况。因此这种技术介入方式对于新设系统可能会更可行。(推荐技术路径:多方安全计算、同态加密、可搜索加密等) 最后,在数据存储进入数据源内部后,相关企业(特别是大行业数据源)一般都会对内部的相关数据进行治理整合、形成数据仓库或者数据湖。在国家数据分级分类的要求之下,政务或行业数据源在完成内部数据治理后,需要针对数据分门别类地进行可控、安全、合规的数据共享与数据交易。通过本环节后,数据则已经完成治理,可以按照标准化的形象与应用方的场景相结合进行标准化或定制化的输出。 隐私计算工程化在此阶段相对成熟,对数据源内部的改动成本、工作量均相对较低。但如果未完成以上工作,对于数据源的整体系统性改造会很大,同时伴随着业务场景的定制化,并且这种定制化不具备可复用性,一旦数据分发共享的目标应用方增多,注定会带来场景的增多,此时便会对数据源带来极大的工作难度与成本开销。目前,已经进行的多数隐私计算项目落地都在这个阶段,对数据源也产生了极大的困扰。(推荐技术路径:多方安全计算、联邦学习、同态加密、TEE等) 相比数据源,数据应用方在隐私计算应用中更多的需求,来自对其原有业务流程的影响和落地速度。因此在应用侧落地时,更多的企业采用隐私计算一体机,软、硬结合的形式来解决问题。但是,在实际落地场景中仍需要对具体业务的应用进行定制化开发,且尚未形成成熟的整体通用化部署方案。这是未来行业优化提升的方向之一。
增本降效可解“工程化之困” 前提是建立全局视角

隐私计算工程化落地难在场景,非技术。 除性能外,标准的市场监管和认证体系更为重要。由于隐私计算的门槛较高,从而导致对测试与认证人员的专业度要求极高。如今市场上“百花齐放”的认证测试不仅体现了隐私计算的热度,也体现了这个赛道的混乱。 在实践中发现,由于各行各业所在的环境特殊性,从而对隐私计算技术的优化与需求,复杂多变。另外,专业人员的操作培训、设备的性能差别、输入数据的格式以及数据质量等都会极大地影响到工程化地落地。因此,创新型业务的落地往往和科研能力的关联度并没有想象中的那么大。 隐私计算技术与解决方案的不成熟体现在对场景的理解上。当新技术摸索新模式时,探索的难点在于,技术团队对目标行业的业务流程充分理解,尤其是数据业务中的流转动作。落地过程中发现,数据使用方也有对业务流程了解不充分的情况。因此,大量交流与沟通是工程化落地的大前提,在此基础上,隐私计算团队对该行业建立全局视角,找到客户痛点,而不是“想象中理所应当的痛点”。 需要注意的是,“引导客户说”并不是一马当先地介绍产品、猜测需求。隐私计算技术对于数据、设备的要求以及监管标准等都是工程化落地的护城河,只有深入了解行业场景才能真正摆脱惯性思维,站在客户的角度上思考,推进行业之间的理解与融合,达到工程化落地的最终目的。 技术始终存在优化的途径。如何更好地规范技术、深入行业、调动客户,通过合理的软硬件搭配与适配性开发,使得隐私计算真正做到为行业“增本降效”,方可解“工程化之困”。
发现隐私计算不同技术的商业价值

技术之外,不同技术路径在市场上如何实现商业化模式也值得关注。 由于“读数据、传数据、算数据”对多方安全计算(MPC)的计算和通信开销的带来挑战,从一定程度上局限了MPC的场景实践。但是,其通用性、可控性和特定场景下的技术安全性有响应的提升,可适用于数据量适中但保密性要求较高的重要数据应用。对于机器学习等模型,大多采用多方隐私计算平台的落地模式,支持包括绝大多数机器学习算法在内的计算类型和系统实现,从降低用户使用密文计算的学习曲线的角度切入,实现多方安全计算产品的实际可用性和商业易用性。 与MPC同样出身的密码学同态加密技术路径,由于其密文数据扩张量而导致的计算时间和存储成本交大,以及加密过程中随机产生的噪音,使得它在大规模的商业化落地阶段进展缓慢。当前,同态加密的商业化落地在于对性能上的超高速突破,能够有效支持大数据场景下的数据交换共享应用场景,适用于数据量大、敏感等级高且保密性要求高的重要数据应用。结合使用软硬结合的落地模式,可以实现高敏感数据的标签补齐、第三方安全外包计算、重要数据开放共享等场景。 于联邦学习而言,其模式大多更适用于保密性要求不高但数据量大的模型训练。在多数银行试点项目中,以场景带动平台建设,打通数据审批、数据预处理、数据授权、联合建模、模型发布、等一系列对接业务系统的渠道,满足业务对于多方数据源融合的需求。目前与其他隐私计算技术、区块链进行有效融合,形成增强型联邦学习平台,以此保障数据和网络环境的安全性。 可信执行环境(TEE)大多用于存在可信的硬件厂商、数据量大,数据传输和加解密的成本较高、计算逻辑相对复杂的业务场景。目前多数 TEE 应用场景指向智能手机端,比如,从芯片底层构筑系统级安全,确保移动端的支付安全。基于微内核TEE OS 的可信执行环境以及生物识别模块,打造SE安全芯片。从应用层来看,TEE通过与联邦学习、多方安全计算、同态加密的联合实践可以各取所长,发挥更好的实践成效,在隐私身份信息的认证比对、大规模数据的跨机构联合建模分析、数据资产所有权保护、链上数据机密计算、智能合约的隐私保护等也有大量的落地案例。


END


● 往期推荐


深度解读《关于防范NFT相关金融风险倡议》透露哪些监管信号与数字藏品新发展之路?

从苹果ATT新政第一年,看全球数据主权之争与治理规则的变迁

数据出境新指引,深度解读《境外发行证券与上市保密新规》!

算法新规实施一个月,那些侵扰个人信息的个性推荐还剩多少?

隐私计算工程化之殇,为什么“久攻不破”?


欢迎投稿

  hehaohua3h@163.com  


  • 文章所载观点仅代表作者本人

  • 且不构成投资建议

  • 敬请注意投资风险



你“在看”我吗?
继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存