存量优化,增量创新 | 隐私计算应用现状分析
目前,隐私计算在金融、政务、通信、医疗等行业中应用越来越广泛,技术应用的普及范围逐步扩大。大部分应用方虽已对隐私计算有一定了解,但仍比较关心“在诸多业务场景中,隐私计算技术与传统技术方案相比具有哪些优势”。通过调研分析,隐私计算的应用主要覆盖两类场景(如图3):第一类中,传统信息安全技术已被普遍应用,但仍有安全隐患,隐私计算的应用进一步提升了安全性,我们称为隐私计算存量优化应用场景;第二类中,传统信息安全技术无法满足应用需求,隐私计算则提供了解决方案,拓展了数据安全流通的应用场景,我们称为隐私计算增量创新应用场景。下文将聚焦这两类隐私计算场景进行详细论述。
图3 隐私计算应用覆盖场景示意图
(一) 存量优化,隐私计算提升传统场景安全
传统信息安全技术可以一定程度上实现数据的安全流通和共享利用,但是在数据传输过程中存在着较大的原始数据泄露风险、在数据使用过程中存在着滥用挪用风险。虽然通过加强事前风险控制设计、事后退出及审计等方式可以在一定程度上降低上述风险概率或减轻损失,但是需要花费大量的沟通及监督管理成本,效果也往往不尽如人意。
隐私计算在技术层面提升数据流通安全性,实现数据的“可用不可见”,有效降低原始数据泄露风险。同时,隐私计算能够使得数据提供方实现对其每一个数据集以及每一个计算任务的感知化、精细化管理,从技术层面最大化避免滥用挪用风险。
因此,在传统数据流通技术应用较为普遍的场景中,隐私计算为各合作方的数据安全提供了更加有效的保护,这类场景的特点如下:一是受政策、监管要求,原始数据保护要求较为严格;二是在保护原始数据安全下,通过共享数据ID提高计算效率。通过隐私计算技术在数据联合分析、数据隐私求交、数据联合建模预测等数据利用场景中,基于通信信道加密、哈希加密、算法加密以及其他加密手段保证各参与方原始数据的安全;三是合作方数据集规模较大,往往数倍于发起方,这种数据量上的不平衡导致发起方希望根据真实参与计算的数据来评估数据价值。
通过研究不同隐私计算存量优化应用场景案例(见附录1)特点,提炼出隐私计算存量优化应用场景通用解决方案模型(如图4):
图4 隐私计算存量优化应用场景通用解决方案模型
专栏1:基于隐私计算的联合营销及客户运营优化解决方案
银行机构在精准营销应用场景中,对于数据安全以及相关技术的落地要求进一步提高。不仅需要实现数据可用性和安全性的科学平衡,又需要覆盖法律、管理、业务、技术等专业领域。为提高传统合规模式的安全性,隐私计算技术成为关键路径。
本案例通过隐私计算技术,为银行安全、高效地拓展了通信运营商和互联网渠道商的高价值外部数据,实现了优质新客拓展、潜客精准投放和客户线下运营三大经典金融场景的有机串联,补充了以往仅依靠自身数据无法补全的客户画像缺失碎片,增加了内外部可合作的业务场景丰富度,为客户带来了更好的全生命周期体验。
图A 基于隐私计算的联合营销及客户运营优化
以上多场景串联隐私计算合作模式,在优质新客拓展阶段实现了外呼接通率上升15%、申请通过率提升2%的好成绩,在潜客精准投放阶段累计拓展新增用户超1万人、降低总营销成本近10%,在客户线下运营阶段,网点单日引流人数较以往提升约40%,期间为满足营销活动要求的客户提供了各种权益和关怀手段,大幅提升了客户满意度和客户粘性,实现了三个营销场景的有机串联。
专栏2:基于隐私计算的传染病多点触发监测及预警解决方案
由于传染病的防控涉及大量个人数据、传染病临床数据等高度隐私敏感数据,传染病数据平台需要强大的安全权限保护以防止数据泄露问题。另一方面传染病的防控研究涉及到很多医学、统计、AI等不同的专业知识,需要不同类型的专业工作者,多方共同参与使用这些数据来研究难题。因此只有通过隐私计算技术才能解决在确保数据安全、个人隐私、数据授权使用的前提下让数据高效流通起来的难题。
某城市通过隐私计算技术实现在数据安全、授权、隐私保护的前提下建立开放数据协作机制,联动了卫生健康部门以及海关、边防、民航、教育、市场监管、商务、交通、民政、公安、通信、住建等政务部门的数据。通过联邦学习,构建涵盖人员、物品及产品、环境及场所的全面智慧化预警多点触发机制,完善传染病疫情监测系统,织密不明原因疾病、聚集性病例和异常健康事件的监测网。
通过传染病多点触发监测和智慧化预警平台建设,完善传染病疫情监测系统,实现病例和症状监测信息直接抓取、实时汇集,提高疫情实时分析、集中研判的能力。智慧化预警平台有效预警高达700次/月,法定传染病网络直报运行率为100%,医疗机构传染病漏报率城区低于2%、县市低于4%。通过使用数据治理应用,对于自然语言描述的医疗主观数据进行结构化处理,大大减少了人工投入,建立持续地数据治理流程,效率比传统方法提高10倍以上,通过哨点监控辅助诊断1万次/月,症候群预测准确率达到88%。
(二) 增量创新,隐私计算满足新兴场景需求
除传统数据流通应用场景之外,新兴应用场景涌现并对数据流通技术提出了新的要求。在这些场景中,数据流通合作中发起方数据集ID包含个人隐私数据,随着法律和监管的要求提高,发起方产生保护本方数据集ID的需求。这种场景下,传统数据流通应用模式如文件交换、系统对接、接口调用等难以实现。而隐私计算通过其独有的隐匿查询、全匿踪求交等方式,新增在不暴露数据ID的同时完成联合查询、联合建模等任务的能力,扩展了传统数据流通合作保护范围,补全了数据全生命周期保护中最困难的一环,成为满足新兴应用场景需求的开拓者。
隐私计算增量创新应用场景主要包含以下特点:一是受政策、监管要求,原始数据保护要求严格;二是在保护原始数据安全的同时,在安全可控等方面具有特殊的要求,如需要在保护数据ID的条件下完成特定计算任务;三是传统信息安全技术无法满足新兴场景要求,但隐私计算利用其技术优势能够满足要求。通过研究不同隐私计算增量创新应用场景案例(见附录2)特点,提炼出隐私计算增量创新应用场景通用解决方案模型(如图5):
图5 隐私计算增量创新应用场景通用解决方案模型
由于增量创新应用场景范围较广,下文以一个典型增量创新场景举例详细阐述。该场景下,新兴场景要求为在不暴露明文ID的条件下与合作方完成联合查询和联合建模。传统信息安全技术无法实现该要求,但隐私计算通过其独有的隐匿查询、全匿踪求交等方式能够实现该场景。此时,该场景解决方案模型(如图6):
图6 隐私计算不暴露明文ID解决方案模型
该场景主要包含两种情况,其一是通过隐匿查询可获得结果的场景,其二是以全匿踪求交作为前置步骤并通过联合统计、联合建模预测等方式获得结果的场景。隐匿查询中,既保护了查询目标以外其他数据的安全,又保护了查询目标用户的ID;全匿踪求交中,既保护了所有数据的特征信息和非交集部分的用户ID,又保护了数据求交时交集部分的用户ID。
专栏3:基于全匿踪联邦学习的反电信欺诈解决方案
目前多数据方联合反诈场景中,有新兴场景提出“不泄露交集ID”的需求。此时,传统的数据流通技术无法解决这一场景问题。通过使用支持不暴露交集和非交集用户任何个人信息、支持多种数据场景的隐私计算“全匿踪联邦学习”技术,可实现电信网络诈骗风险预警模型构建。
图B 基于全匿踪联邦学习的反电信欺诈解决方案示意图
目前利用“全匿踪联邦学习”技术可以实现以下2个场景应用示范:一是账户反电诈场景,通过身份证匿踪查询某运营商电诈风险名单库(此库包含公安下发的电诈黑名单库),在银行作为灰名单使用。二是对转账用户受诈识别,通过某运营商受电诈名单库及受诈模型分析识别受害者风险,输出是否受诈用户及受诈评分。
反电诈场景应用“全匿踪联邦学习”后效果显著,当前已完成试点应用,即将进入生产环境落地阶段。在联合某银行和某运营商的账户反电诈场景中,使用全国范围内的数万个样本,覆盖40%电诈用户,准确率高达91.35%,成功实现电诈账户率下降30%。
专栏4:基于改进隐私计算的用户三要素核验解决方案
核验用户基础信息的真实性可以通过查询公安、社保及征信等相关部门的数据库中用户姓名、身份证号、手机号、工作单位和地址等信息。由于这些数据属于用户高度敏感数据和个人隐私数据,相关部门对这些数据的开放持谨慎态度。金融机构在查询用户基本信息时希望避免留下带有被查询用户的记录,以防用户信息泄露。
传统的三要素核验,大都是基于API接口的形式,金融机构每次核验查询的信息会以日志的形式记录于服务器中,容易造成数据泄露。基于隐私计算的用户三要素核验,对隐私求交模块进行优化,使之在隐私求交之后不为双方返回交集内容,而是向业务需求方返回是否有交集的布尔值,这样数据需求方不会暴露查询内容,而数据源方也不会有数据泄露的风险,双方业务不存在敏感数据的传输,输出内容仅仅表示是否正确的布尔值。
图C 基于改进隐私计算的用户三要素核验解决方案示意图
该场景下,各方可部署隐私计算平台产品,也可部署相关组件应用的轻量级产品,双方经过网络联调和小样本POC测试完成,即可开展生产应用。基于双方数据的量级可以实施相应的数据加工策略,比如分桶处理后再逐桶完成PSI任务,有效提升计算效率。
本文节选自隐私计算联盟于2022年12月28日“2022可信隐私计算峰会”上发布的《隐私计算白皮书(2022年)》。
报告介绍及全文下载链接如下:
往期推荐010203