数据隐私保护时代下的营销新前沿丨数据围墙专题②
这是本刊的第1327篇原创文章
“前言:随着我国法律法规对于消费者数据愈加严格的重视和保护,未来,不管是品牌广告主还是第三方数据公司,在数据层面也将会面临更多的挑战和危机,而掌握大量数据的媒体平台将会越发强大。
当然,目前全行业也正在探讨解决方案及方式,比如起源于美国的隐私计算技术可能是有效的解决方案之一。顾名思义,隐私计算就是指面向隐私保护的计算系统与技术,涵盖数据的产生、存储、计算、应用、销毁等信息流程全过程,想要达成的效果是使数据在各个环节中“可用不可见”,这样就能够在合法合规的范畴之内将数据进行价值挖掘与应用。
但是,目前隐私计算发展的并不成熟,未来还有很长的路要走。而横亘在发展前路上的这座大山,品牌广告主及第三方数据公司是必须要设法逾越过去的。品牌广告主侧应该如何去做?第三方公司应该又应该如何去做?隐私计算是否行之有效,未来的发展趋势及挑战有哪些?除了隐私计算,目前还有哪些解决方案?”
自2020年以来,最新发布的《民法典》已纳入个人信息保护的相关内容。央行、工信部、公安部等各大监管都出台了一系列政策,对数据的安全使用规范提出了更加为严格的要求。
随着品牌广告越来越重视广告效果的输出,效果广告越来越重视品牌对消费者心智的影响,品效协同成为广告主共同诉求。同时,在品牌营销中,对品牌主、媒体及数据方的数据资产的保护问题也是重中之重。如何在数据安全与提高效果的二元对立中取得平衡,已经成为整个行业的共性痛点。
隐私计算在工业界的大规模应用
将成破局之钥
根据中国信息通信研究院的定义,隐私计算是指在保证数据提供方不泄露敏感数据的前提下,对数据进行分析计算并能验证计算结果的信息技术。
广义上是指面向隐私保护的计算系统与技术,涵盖数据的产生、存储、计算、应用、销毁等信息流转的全生命周期,完成计算任务,使得数据在各个环节中“可用但不可见”。
说的更通俗一些,就是在保证数据安全的前提下,让数据可以自由流通或共享,消除数据孤岛问题,从而释放更大的数据价值,提升生产效率,推进产业创新。
2、安全多方计算(MPC)
由于隐私计算中包含的技术的多样性,不同的公司或项目将根据其技术优势采用不同的技术路线来实现其应用目的。基于加密的技术应用就是其中之一。安全多方计算,同态加密和零知识证明等技术都属于此类。核心思想是设计特殊的加密算法和协议,以支持对加密数据进行直接计算(即不涉及数据的明文内容),以获得所需的计算结果。
3、可信计算(TEE)
隐私计算的第二条路径是基于可信执行环境技术的可信计算,该技术以英特尔的SGX、AMD的SEV和ARM的Trust Zone等技术为代表。
它的核心思想是使用受信任的硬件作为载体,提供硬件级别的强安全性隔离和通用的计算环境,并在完善的加密服务的支持下形成“机密室”。只能在“机密室”中解密和计算数据,没有其他方法可以访问数据的纯文本内容。数据在离开“机密室”之前将被自动加密,以实现“可用不可见”。
4、联邦学习(federated learning)
隐私计算发展中的另一个重要技术方向是联邦学习。联邦学习本质上是一种分布式机器学习技术或机器学习框架。其目标是在确保数据隐私和安全性以及法律合规性的基础上,进行数据联合训练并建立共享的机器学习模型。
随着技术的发展,联邦学习可以分为横向联邦学习和纵向联邦学习。其中横向联邦学习,即当两个数据集的用户特征重叠并且用户重叠较少时,我们可以对模型梯度进行加密后建模,这个建模形式在金融业,特别是联合风控这些对数据安全和可信任度有着强需求的领域,已经有了大规模工业界的落地案例。
类别 | 优势 | 局限性 |
密码学(安全多方计算为代表) | 安全性的数学理论严格 | 性能局限性强,适用场景有限 |
可信计算 | 性能优势明显 | 需要引入第三方和较强的计算资源 |
联邦学习 | 在AI应用领域优势明显 | 应用领域较为局限 |
业界应用案例及产品结构
从产业角度而言,当前市场上主要分为两种产品落地形式,一种为通用技术平台,这方面已经出现了许多知名的行业标准级别的技术框架,其中包括Rosetta、摩斯、MesaTEE、FATE等,这些都是其中的佼佼者。另一种形式为自有数据和生态作为依托,对效果进行优化,其中应用较广的有百度观星盘,面向行业的解决方案有奥维互娱的FDMP。
1、富数科技FMPC
隐私查询,也称隐私信息检索,是指查询方隐藏被查询对象关键词或客户ID信息,数据服务方提供匹配的查询结果却无法获知具体对应哪个查询对象。富数科技的FMPC开放平台以不经意传输(oblivious Transfer) 作为技术基础,以本地化SDK的形式部署,提供了性能较高的隐私查询服务。
2、奥维互娱FDMP
DMP是实现OTT精准广告投放的基础。在人群画像方面,电视机国产五大厂商(海信、创维、康佳、TCL、长虹)在移动端数据标签的建立上有着天然的难点。从建模角度而言,通过电视机的行为序列数据建模推导出移动端标签的建模难度很高。而从数据条件来看,各厂商置换的移动端数据也有不足,难以支撑复杂模型的落地。
基于这些共性的难点和需求,奥维互娱的FDMP(federated data management platform)采用了FATE作为标准框架,通过加密对齐的方式整合了自有以及各厂商的移动端数据进行训练,通过横向联邦学习建立了总体标签联合模型,相比于传统的单侧建模, 联邦模型在 AUC 和 KS 指标上分别有 6% 和 10% 的提升,极大提高了各参与方的数据能力。
3、百度观星盘
在广告营销场景中,百度作为广告平台提供第二方数据,包括广告的曝光、点击等。广告主则拥有安装、激活、转换等更丰富的行为数据。百度通过纵向联邦学习整合了平台以及广告主数据,提供更精准的营销支持,目前这个功能已经在百度观星盘产品落地并得到了非常好的转化效果。
产品 | 技术能力 | 产品能力 | 生态能力 |
富数科技FMPC | 基于mpc,主要应用于联合统计 | 多方私有化部署,不依赖第三方协同 | FMPC算子开放平台 |
奥维互娱FDMP | 同态加密的联邦学习,支持LR和secureBoost,协同过滤等模型 | 多方私有化部署,依赖第三方协调 | 依赖自有数据 |
百度观星盘 | MPC/SGX硬件方案支持,支持LR,GBDT,DL等多种算法 | 与百度广告平台结合 | 依赖自有数据 |
挑战及未来展望
挑战:第三方数据公司与广告主共同解决落地困难
对于第三方数据公司:从技术角度而言,现有技术均是在数据效率与数据可用性中寻求一定的平衡,没有一种技术可以完美解决市场上所有潜在的问题,需要场景下的定制化开发,这就对开发研究人员提出了极高的能力需求。
实际落地上除了高昂的研发成本以外,从市场角度而言,由于广告主和数据参与方目前对隐私计算的整体认知较浅,技术提供方和各合作方要有极高的沟通成本和互信基础。例如在互娱FDMP的联合模型产品研发期间,单单是说服数据合作方提供节点的部署就已经非常困难。
对于广告主:在第三方数据公司解决隐私计算技术和成本投入困难的前提下,广告主需要在数据公司帮助下进一步提高自己的数据能力,让隐私计算真正落地,具体而言有如下几个方面:
(1)数据质量:以往的数据集往往存在诸多问题,例如人工输入错误、缺少细化信息、难以清理与编排等。
(2)技术滞后:老旧的核心系统不能支持持续的数据共享和分析所需的数据存取方式,例如:实时的应用程序接口。
(3)数据结构碎片化:企业的数据分散在不同数据库中,难以整合形成洞察。
(4)缺乏数据规范性:因为数据规范的差异造成数据质量打折扣,数据共享无法达到深层次。
趋势展望:技术标准化,与其他技术结合走向成熟,解决可信问题,建模指导精准营销
一个乐观的现象是,隐私计算的技术创新不断涌现,理论突破也是稳步向前。场景不断增加,技术门槛不断下降,例如我们已经看到市场上出现了如SOK、Rosetta这类不需要密码学基础也可以上手使用的框架,同时,隐私计算的产品及解决方案通过行业测评与认证也在逐步发展过程中,例如中国信通院大数据产品能力评测、SDK信息安全认证等都能提供厂商产品与技术的直接证明。
同时,自2020年以来,我们看到隐私计算也正在和其他技术进行结合,去解决自己在验证性和计算能力上的缺失,进一步走向成熟,其中值得注意的发展特点为:
(1)与区块链技术的结合
区块链是一个分布式可验证的记账平台,将隐私计算应用于区块链上,一定程度上增加了隐私计算结果的不可篡改性和可验证性,解决参与方对计算过程以及结果的信任问题,降低了用户的接受成本,这成为了包括富数科技、蚂蚁摩斯在内诸多厂商采取的技术方案。
(2)软硬协同,分布式计算平台的进步
硬件加速在隐私计算性能提升方面正在发挥越来越关键的作用,特别是一些专用芯片的使用,明显提升了隐私计算的性能。同时分布式隐私计算的逐渐应用,也为解决隐私计算在计算量方面的瓶颈提供了可能性。
结语
产业和技术永远是相辅相成。当前营销领域在广告定向上整体过于依赖人工经验,缺乏精准性,标签的一致和准确性上难以保证,效果难以追踪量化的难点。可以说联合各方数据,打破数据孤岛,增进数据价值的挖掘协同已经日益迫切。
奥维互娱作为家庭场景营销行业中隐私计算等新技术的先行者,在未来也将凝聚各方共识,把在隐私计算中积累的宝贵实践和探索经验用来指导行业技术的构建,降低重复的投入和建设资本,充分发挥隐私计算技术落地的标准引领和支撑作用。
2021专题策划系列
生态闭环①丨生态闭环②丨生态闭环③丨新消费品牌①丨新消费品牌②丨新消费品牌③丨数据围墙①丨
虎啸数字营销硬核10群新建这里将成为你的资源库信息共享、疑问求助、方案咨询甚至甲方吐槽
还能看主题思享汇直播请不要重复加群哦~
请加下图左下方啸啸微信
点击文末“阅读原文”,可进入微店选购