查看原文
其他

星河标杆ㅣ美团:基于隐私计算的到店服务类消费分析落地实践

沙丘社区 CAICT数据要素 2024-01-09

2022 年大数据“星河”案例征集活动由中国信息通信研究院、中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)共同组织,旨在促进大数据技术产品及相关产业发展,加快培育数据要素市场、充分发挥数据作为生产要素的独特价值,树立行业标杆榜样力量。12月28日,在2022 可信隐私计算峰会上为入选案例颁发了证书。


为促进隐私计算行业内积极交流与经验共享,进一步推动隐私计算落地应用,隐私计算联盟在公众号内开设“星河案例”版块,将与入选案例的企业合作,持续为大家介绍隐私计算应用实践,分享成果经验,挖掘创新亮点。



摘要

美团是大型互联网企业,在存量用户时代,为了安全合规地进行外部数据探查、提升业务效果,美团建设联邦学习平台,并与联通数科开展异业数据合作,在到店服务类消费分析场景下验证隐私计算模式大量级联合建模的有效性,建立行之有效的性能提升方案,探索建立“可用不可见”的数据要素流通新范式,通过数据赋能业务发展,加速业务实现规模化经营,降低成本,提升经营效率。


关键发现

• 联邦学习主要分为横向联邦、纵向联邦和联邦迁移学习三类,其中纵向联邦本质是特征的联合,各方重叠用户较多、但重叠特征较少,就可以用纵向联邦进行特征互补建模,互联网企业已经进入存量用户时代,但不同企业由于面向的场景不同,用户特征差异很大,因此,美团进行联邦学习平台建设首先考虑纵向联邦学习;

• 对于平台高性能的建设,重点围绕PSI和NN。为了加速PSI,美团选择基于OT的算法,并在工程上做了并行优化,可以满足十亿量级的业务需求;为了满足大数据量级的训练和推理,美团采取经过特定场景设计的差分隐私方案,用以保护纵向NN,性能高且对模型精度影响小;

• 逻辑回归在现实场景中难以找到完全中立的第三方,美团提供多种方案供实现,半同态方案流程清晰、简单,出问题容易排查;秘密分享的方案计算较快,但有大量稀疏数据时,扩展性不好,通讯量高;半同态结合秘密分享的方案扩展性好,但是用到大量的半同态,计算性能相对较低。

分享专家:黄旭,美团研发工程师

作者:沙丘社区分析师团队



01

案例企业

美团成立于2010年,是一家科技零售公司,以“零售+科技”的战略践行“帮大家吃得更好,生活更好”的公司使命。

自成立以来,持续推动服务零售和商品零售在需求侧和供给侧的数字化升级,和广大合作伙伴一起努力为消费者提供品质服务。截至2022年第三季度,美团实现营业收入626亿元,年交易用户数达6.87亿。


02

项目背景

大数据时代,隐私泄露问题日益突出,不但影响国家安全,还会影响社会经济和稳定,亟待解决。以近年来发生的隐私泄露事件为例:

• 影响国家安全:Strava运动软件会记录用户的运动数据,2018年拥有两千多万用户,世界多国士兵在使用这款软件,Strava基于用户的运动数据绘制并公布运动热力图,导致军事基地位置被泄露。

• 影响经济:2023年2月,某物流公司疑似45亿条个人物流信息被泄露,导致快递行业股价整体下跌。

• 影响社会稳定:剑桥公司成立于2013年,经过多年运作,获取了几万条脸书数据并对数据进行分析,对人格进行分析,并个性化进行广告投放,进而影响选民意向,操纵多国大选。

• 影响版权、个人隐私:最近比较火的生成式AI,包括ChtGPT、midjourney等,大模型有极强的学习、分析和记忆力,如果个人隐私数据、公司敏感数据被大模型记住并共享,则可能引发数据泄露风险。如图所示,midjourney生成的图片叫太空歌剧院,获得过美国艺术博览会的冠军,版权到底属于个人还是AI模型,受到社会争议。

针对隐私安全问题,国际和国内均出台一系列安全法规。国际上,欧盟于2016年提出GDR通用隐私保护条例,并于2018年实施,实施以来,对互联网巨头处以巨额罚款,包括Facebook、亚马逊等,2022年总罚款记录高达29欧元。国内也相继出台一系列法律法规,包括2017年《网络安全法》、2019年《数据安全法》、2021年《个保法》等,国家网信办也在2022年对某家涉及大量人脸信息、相册截图、地址等敏感数据的公司开出首个80亿的巨额罚款。

虽然数据存在隐私安全泄露风险,但数据本身是有价值的,可以驱动社会和企业发展。2019年,国家将数据纳入“生产要素”,驱动数据流通,体现数据价值。

从政策上看,中央层面发布多个政策,2020国务院发布《关于构建更加完善的数据要素市场化配置体制机制意见》提出要培育数据要素市场;2021年全国人大发布《第十四个五年规划和2035远景目标》提出要建立健全数据要素市场规则;2022年国务院发布多个文件,1月发布《要素市场化配置综合改革试点方案》提出要探索建立市场规划具体要点,4月发布《关于加快建设统一大市场意见》提出要培育统一的技术和数据市场,12月又提出要建设数据的基础制度体系,促进数据的合规高效流通使用。

可以看出,数据要素市场从提出到培育、从规划到要点、从技术到体系,正在一步步深入和细化。

一方面,数据存在隐私安全问题,另一方面,政府又鼓励数据要素市场流通,隐私计算是一个较好的技术解法。隐私计算发展至今,已经形成以安全多方计算、差分隐私、可信执行环境、联邦学习为代表的几大技术:

1982年,姚期智提出百万富翁问题,让两个富翁在互相不知道具体身价的情况下比较谁更富有,并于1986年提出混淆电路解决方案,标志着安全多方计算的正式诞生;

2006年,为了实现抵御所有攻击且可证明,微软研究院提出差分隐私,主要思想是磨平两个相邻数据集中单个数据的差异;同年,ARM实现TrustZone,让数据在硬件层面安全高效的运行,可信执行环境由此诞生;

2016年,谷歌提出横向联邦学习,让数据可以不出设备,互相之间安全建模。但是联邦学习真正让国内熟知,是2019年杨强教授对联邦学习做出综述,提出联邦迁移学习;2022年,又提出可信联邦学习,让联邦同时关注安全、性能、效率,并做一些tradeoff。

Gartner于2021年将联邦学习纳入到技术成熟度曲线,在商业上基本具备落地可行性,并预测到2023年底,全球75%人口的个人数据将受到现代隐私法规的保护,全球超过80%的公司将面临至少一项以隐私为重点的数据保护法规;到2024年,全球隐私驱动的数据保护和合规技术支出将突破150亿美元,目前,隐私计算已经成为很多公司的标配;到2025年,60%的大型组织将在分析、商业智能或云计算中使用一种或多种增强隐私的计算技术,从公开招标信息可以看到,政府和国企的隐私计算项目较多,数据流通诉求较强。

从2022年全球隐私计算计算图谱可以看出,隐私计算产业链发展趋于完整、成熟,包括投融资、学习研究、软硬件研发、产业应用等;2022年,国家自然科学基金对联邦学习相获批项目总计35项,相比2021年同期增长21%,总资助金额达1368万元。

美团联邦学习平台的建设,主要来自三方面的驱动:

第一,业务需求。公司多个业务线对隐私计算存在诉求,想通过联邦学习的方式进行外部数据探查,提升业务效果。例如,在营销获客场景,通过外部数据合作进行人群分析,然后通过短信、页面推送等方式提升人群转化效果;在广告外投场景,一般的RTA方式是利用媒体侧的用户行为数据,通过联邦让美团深度数据和媒体行为数据尽可能融合,提升广告投放效果;在金融风控场景,例如美团和银行合作,银行就可以利用美团数据进行风控;另外,对于一些人群匹配需求,比如一个人或者一群人是不是黑名单用户,可以用PSI/PIR独立实现。

第二,实际收益。在业务驱动下,美团进行了一些POC验证,与联通进行联邦合作,经过实际投放,收益比较明显。

第三,必备技术。首先,从近几年的隐私保护问题和法律法规可以看出,保护用户隐私非常重要;其次,通过实际POC,证明联邦学习可以进行商业化落地,而不是停留在学术研究阶段;美团是平台型企业,连接商家和用户,一些头部商家已经意识到数据安全的问题,联邦学习可以更好地保护商家数据;最后从各大头部企业的应用来看,联邦学习已成为必备技术。

从业务需求上看,有需求;从收益上看,可落地;从技术上看,是必备技术。因此,联邦学习平台的建设对于美团来说具有必要性。

联邦学习主要分为横向联邦、纵向联邦和联邦迁移学习三类:

• 横向联邦:本质是进行样本的联合,假设的是各方特征重叠较多,但是用户重叠少,比较典型的是端上联邦学习,对于相同的APP,部分场景拥有的用户特征类型基本一致,但用户基本上没有重叠,就可以用横向联邦建模;

• 纵向联邦:本质是特征的联合,假设各方特征重叠较少,用户重叠较多,比如同一个地区两个互联网企业由于面向场景不同,重叠用户较多、但重叠特征较少,就可以用纵向联邦进行特征互补建模;

• 联邦迁移学习:针对的是特征和用户重叠都比较少的情况,比如不同地区且不同行业,可以考虑联邦迁移学习的方式。

互联网企业已经进入存量用户时代,但不同企业由于面向的场景不同,用户特征差异很大,因此,美团进行联邦学习平台建设首先考虑纵向联邦学习。

纵向联邦学习关键分为两个步骤:

第一步进行PSI求交对齐样本,PSI可以让参与方之间只知道交集,不知道非交集部分的ID和样本,也是纵向联邦建模的必选步骤;

第二步在对齐样本之上进行模型加密训练,生成模型再做推理。训练方式有多重选择,例如多方安全计算、同态加密、差分隐私等。对于线性模型的半同态方式会有一个协调方,协调方发送公钥给参与方,参与方在密文的情况下计算出梯度和损失,再回传给协调方解密。

通过建设联邦学习平台,美团希望能够满足公司各类场景数据量级下的业务需求,需求满足安全、易用、高效三个条件:

• 安全性:保障平台各个层面的安全性,包括系统层、算法层、通讯层,联邦学习平台是和外部数据进行交互,对安全性的要求比对内部平台更高。

• 易用性:平台满足各类业务场景,让业务不用了解底层引擎的细节,开箱即用,降低使用门槛。

• 高性能:美团各个场景数据量级比较大,需要满足不同数据量级下的建模需求。


03

解决方案

在建设联邦学习平台的过程中,美团存在如下挑战:第一,从使用上看,基本都是命令行操作,操作门槛高,没有可视化,无法对数据和任务进行安全审核;第二,从性能上看,美团的很多场景数据量级较大,但业务主流的建模、PSI方案都是公钥体系,计算复杂度高,难以满足业务需求。一些场景基本是几亿到几十亿的量级,公钥方案需求对数据切片串行,效率较低;在广告营销类场景下,每天的样本量可以积累到千万级别,用来训练的数据量可达亿级,用半同态的方式性能很低,难以支撑实际需求;第三,从安全性上看,线性模型存在协调方,协调方本身会存在争议,比如放在哪里、会不会合谋等。NN模型如果不加以保护,又存在标签泄露和特征泄露的风险。此外还有系统上是否存在安全漏洞,导致数据被窃取,密码长度是不是满足安全假设等;第四,在通用性上,引擎较多,不同引擎差异性较大,需要解决如何选取引擎以满足业务需求。对于平台易用性,美团围绕用户、数据、任务和权限进行管理功能建设:• 用户管理:用户是最重要的实体,没有用户,平台就没有建设意义,因此需要提供用户管理功能,方便用户进行平台操作和流程优化。• 数据管理:为了方便用户操作数据并做好安全审计,需要提供数据的一系列操作功能,包括注册、发布和授权等,注册是让数据在平台可见、发布是让数据可用、授权为是了保障数据安全。• 任务管理:任务最终会产出结果,是价值的体现。任务本身归属于某个项目,提供流程化的方式降低用户操作门槛。• 权限管理:规范用户行为,避免安全问题,比如用户访问权限、数据授予权限、任务邀约授权等。对于平台高性能的建设,重点围绕PSI(隐私集合求交)和NN(神经网络):PSI是隐私计算的关键技术,最开始是基于哈希的求交,双方对ID需要使用相同的哈希算法计算哈希值,再进行求交,其中一方会把数据的哈希值给到另外一方,性能很好,但如果数据的明文空间不够大,例如手机号、身份证号等,可以在本地暴力破解,找到非交集的元素,可能存在泄露风险。工业上目前使用较多的是基于公钥的PSI,盲签名算法和ECC椭圆曲线是常见的使用方案。但公钥方案底层一般是基于大数的模运算,计算复杂度高,性能较低。为了加速PSI,诞生了基于OT的算法,核心是OT扩展,主要思想是通过少量公钥计算,生成大量对称加密的密钥,再进行PSI求交,因为对称加密主要进行的是异或运算,因此计算速度较快。2016年,BenyPinkas做了实验,可以把千万级的PSI求交降到86秒。因此,美团选择基于OT的PSI方案,核心原理如下:假设存在两方,Bob对自己的数据线进行布谷鸟哈希,把数据尽量打散放在哈希卡槽上,Alice也对自己的数据进行哈希,但是会用的是一般的哈希,每个元素进行三次哈希,每个哈希卡槽会有多个元素,然后和Bob进行求交,双方只需要比对相同哈希卡槽的元素是否相等就可以找到交集。中间的过程是OT扩展,存在多种实现方式,二选一OT扩展、N选一OT扩展、无穷选一OT扩展等,16年KKRT PSI方案用的是无穷选一OT扩展。具体来看,Bob把哈希后的数据进行拆分,也可以看成是秘密共享,拆成两个矩阵,Alice使用基础二选一OT对两个矩阵进行选取,选出来的结果就是对称加密的秘钥,然后用密钥矩阵的每行加密自己的每个哈希卡槽数据,给到Bob,Bob和自己拆分后的其中一个矩阵比对,就能得到交集。如果把中间的OT扩展PSI过程抽象,就是OPRF不经意伪随机函数。如果Bob的数据无法放在布谷鸟哈希卡槽中时,会额外使用stash桶存放,再和Alice进行求交。美团在工程上也做了并行优化,包括单机多线程并行、多机分布式加速,可以满足十亿量级的业务需求。互联网行业的搜索、广告、推荐等基本都在使用NN模型。纵向NN一般是SplitNN架构,标签方guest拥有一部分底部模型和上层网络,非标签方host拥有一部分底部模型,没有上层网络。核心是中间的交互层,正向计算时,host传embedding给guest标签方,guest计算完损失,进行反向传播时,将梯度给host方。这里的安全问题是embedding和host的特征相关、梯度和guest的标签相关,如果不加以保护,可能会泄露特征和标签。纵向NN的保护方案通常有同态加密和差分隐私两种实现,为了满足大数据量级的训练和推理,美团采取经过特定场景设计的差分隐私方案,性能高且对模型精度影响小。逻辑回归比较常见的是带协调方的方案,但在现实场景中难以找到完全中立的第三方,协调方无论放在标签方还是非标签方均存在合谋风险。有多种方案解决这一问题,例如半同态、多方安全计算、半同态结合秘密分享等。美团提供多种实现方案,各有优点,半同态方案流程清晰、简单,出问题容易排查;秘密分享的方案计算较快,但有大量稀疏数据时,扩展性不好,通讯量高;半同态结合秘密分享的方案扩展性好,但是用到大量的半同态,计算性能相对较低。对于平台通用性的建设,理想情况下一套引擎即支持所有场景,但现实是引擎多,引擎之间差异大,需要根据不同场景和需求选取不同引擎,即多引擎能力适配。为了让引擎安全高效使用,美团将安全和高性能的方案在多个引擎上进行实现,并对引擎的存储和计算做了分离,例如hadoop和spark集成到公司内部的平台,进行流程提效。未来,美团联邦学习平台仍将不断迭代,规划向如下几个方向发展:第一,非对齐纵向联邦。一般的纵向联邦场景中,第一步是PSI,再进行建模,但PSI后,数据规模会大大降低,需探索如何将大量非交集数据利用起来,进行模型训练。第二,图联邦。图神经网络可以充分挖掘数据关系,给业务带来更大的价值,通过联邦可以把更多数据用图结构进行表达,充分发挥数据价值。第三,端联邦。数据基本上是来自端侧,例如手机、平板等,现阶段端侧的推理已经在工业上大规模应用,端侧训练能力也已开始建设,但单个设备数据和算力有限,端侧联邦可以进一步发挥价值。第四,互联互通。当前市面上隐私计算产品众多,差异较大,影响数据要素流通,互联互通是很好的解决方案。基于联邦学习平台,美团在到店服务类消费分析场景进行隐私计算的价值验证,与联通数科开展数据合作,进行纵向联邦学习技术开展通信行业与互联网行业间的数据合作,为到店服务消费提升转化率。数据上,美团拥有互联网数据,包括历史消费数据等共73维,以及用户是否下单等标签数据;联通侧拥有通讯行为数据、手机话费套餐等共72维。项目历经需求调研、建模方案制定、建模样本标识准备和标签定义、特征加工、数据探查、模型训练和评估、业务上线等阶段。建模的时候双方会把准备的数据注册到平台上进行授权,然后启动任务。建模的第一步PSI,然后在对齐的样本上进行模型训练,过程中不断调优模型,洞察特征的重要性。模型经过训练和评估符合预期后就可以上线到业务,进行实际投放。通过整套流程,美团和联通都用上了较优质的多维丰富特征,让数据可用不可见。项目的安全性体现在整个流程中,包括平台对数据的安全审计、授权管理等。PSI使用基于OT的高性能PSI,理论安全可证,不会泄露非交集用户信息。模型选取的是基于同态加密的XGBoost,guest方进行标签加密,host方进行密文的数据直方图计算,再回传guest解密判断最佳切割点,整个过程不会泄露标签和特征,并且模型精度无损,也不需要可信第三方,性能层面通过多指令打包压缩技术降低通讯和计算开销。
04

价值与效果

基于联邦学习的到店服务类消费分析项目在美团内部起到良好的标杆示范作用,创造更大的想象空间:

技术价值方面,验证隐私计算模式在大量级联合建模场景下的有效性,并建立了行之有效的性能提升方案,探索建立“可用不可见”的数据要素流通新范式,为行业数据流通提供了参考借鉴范本。

经济价值方面,通过高效、精准的供需匹配,提升了消费成交效率和规模,平台助力社会经济中发展更高效;通过数据赋能业务发展,加速业务实现规模化经营,降低成本,提升经营效率。

社会价值方面,持续提升用户服务体验和服务质量,以更优质的服务助力用户吃得更好、生活更好;主动探索合规、安全行业实践,为规范数据合规应用,促进要素市场趋于成熟、完善贡献力量。

项目成果能帮助平台更好识别用户潜在需求类型和时机,指导平台开展“人-货-场”匹配,在合适时机向用户提供更匹配需求的商品或服务,提升用户体验的同时为业务带来更多增长空间。

从应用范围看,可以通过首页推荐匹配用户需求,把合适的商品推荐给用户,在服务入口可以对分类进行排序优化,还可以通过站外push推送进行用户召回,提升用户转化率。

到店服务类消费预测分析,其探索走通的模式具有良好通用性,具备在美团体系内向到店餐饮、到店生活服务、到店住宿、外出旅游等线下场景拓展的条件,应用空间广泛。

从模型表现看,对比单边建模,新客场景AUC提升7.4%,老客场景AUC提升2.5%,效果比较明显。从模型效果、业务收益、数据安全等各方面看,基于隐私计算的数据流通具有可行性和必要性,也是安全法规之下的技术解。



往期推荐01

首批!可信数据要素流通 联合风控应用能力评估火热进行中

02

技术分享 | “星河杯”隐私计算大赛技术分享会即将召开

03

联合国发布《隐私增强技术指南》,设立隐私增强技术实验室

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存