星河标杆ㅣ美团:基于隐私计算的到店服务类消费分析落地实践
2022 年大数据“星河”案例征集活动由中国信息通信研究院、中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)共同组织,旨在促进大数据技术产品及相关产业发展,加快培育数据要素市场、充分发挥数据作为生产要素的独特价值,树立行业标杆榜样力量。12月28日,在2022 可信隐私计算峰会上为入选案例颁发了证书。
为促进隐私计算行业内积极交流与经验共享,进一步推动隐私计算落地应用,隐私计算联盟在公众号内开设“星河案例”版块,将与入选案例的企业合作,持续为大家介绍隐私计算应用实践,分享成果经验,挖掘创新亮点。
▏摘要
美团是大型互联网企业,在存量用户时代,为了安全合规地进行外部数据探查、提升业务效果,美团建设联邦学习平台,并与联通数科开展异业数据合作,在到店服务类消费分析场景下验证隐私计算模式大量级联合建模的有效性,建立行之有效的性能提升方案,探索建立“可用不可见”的数据要素流通新范式,通过数据赋能业务发展,加速业务实现规模化经营,降低成本,提升经营效率。
▏关键发现
• 联邦学习主要分为横向联邦、纵向联邦和联邦迁移学习三类,其中纵向联邦本质是特征的联合,各方重叠用户较多、但重叠特征较少,就可以用纵向联邦进行特征互补建模,互联网企业已经进入存量用户时代,但不同企业由于面向的场景不同,用户特征差异很大,因此,美团进行联邦学习平台建设首先考虑纵向联邦学习;
• 对于平台高性能的建设,重点围绕PSI和NN。为了加速PSI,美团选择基于OT的算法,并在工程上做了并行优化,可以满足十亿量级的业务需求;为了满足大数据量级的训练和推理,美团采取经过特定场景设计的差分隐私方案,用以保护纵向NN,性能高且对模型精度影响小;
• 逻辑回归在现实场景中难以找到完全中立的第三方,美团提供多种方案供实现,半同态方案流程清晰、简单,出问题容易排查;秘密分享的方案计算较快,但有大量稀疏数据时,扩展性不好,通讯量高;半同态结合秘密分享的方案扩展性好,但是用到大量的半同态,计算性能相对较低。
分享专家:黄旭,美团研发工程师作者:沙丘社区分析师团队
案例企业
美团成立于2010年,是一家科技零售公司,以“零售+科技”的战略践行“帮大家吃得更好,生活更好”的公司使命。
自成立以来,持续推动服务零售和商品零售在需求侧和供给侧的数字化升级,和广大合作伙伴一起努力为消费者提供品质服务。截至2022年第三季度,美团实现营业收入626亿元,年交易用户数达6.87亿。
项目背景
大数据时代,隐私泄露问题日益突出,不但影响国家安全,还会影响社会经济和稳定,亟待解决。以近年来发生的隐私泄露事件为例:
• 影响国家安全:Strava运动软件会记录用户的运动数据,2018年拥有两千多万用户,世界多国士兵在使用这款软件,Strava基于用户的运动数据绘制并公布运动热力图,导致军事基地位置被泄露。
• 影响经济:2023年2月,某物流公司疑似45亿条个人物流信息被泄露,导致快递行业股价整体下跌。
• 影响社会稳定:剑桥公司成立于2013年,经过多年运作,获取了几万条脸书数据并对数据进行分析,对人格进行分析,并个性化进行广告投放,进而影响选民意向,操纵多国大选。
• 影响版权、个人隐私:最近比较火的生成式AI,包括ChtGPT、midjourney等,大模型有极强的学习、分析和记忆力,如果个人隐私数据、公司敏感数据被大模型记住并共享,则可能引发数据泄露风险。如图所示,midjourney生成的图片叫太空歌剧院,获得过美国艺术博览会的冠军,版权到底属于个人还是AI模型,受到社会争议。
针对隐私安全问题,国际和国内均出台一系列安全法规。国际上,欧盟于2016年提出GDR通用隐私保护条例,并于2018年实施,实施以来,对互联网巨头处以巨额罚款,包括Facebook、亚马逊等,2022年总罚款记录高达29欧元。国内也相继出台一系列法律法规,包括2017年《网络安全法》、2019年《数据安全法》、2021年《个保法》等,国家网信办也在2022年对某家涉及大量人脸信息、相册截图、地址等敏感数据的公司开出首个80亿的巨额罚款。
虽然数据存在隐私安全泄露风险,但数据本身是有价值的,可以驱动社会和企业发展。2019年,国家将数据纳入“生产要素”,驱动数据流通,体现数据价值。
从政策上看,中央层面发布多个政策,2020国务院发布《关于构建更加完善的数据要素市场化配置体制机制意见》提出要培育数据要素市场;2021年全国人大发布《第十四个五年规划和2035远景目标》提出要建立健全数据要素市场规则;2022年国务院发布多个文件,1月发布《要素市场化配置综合改革试点方案》提出要探索建立市场规划具体要点,4月发布《关于加快建设统一大市场意见》提出要培育统一的技术和数据市场,12月又提出要建设数据的基础制度体系,促进数据的合规高效流通使用。
可以看出,数据要素市场从提出到培育、从规划到要点、从技术到体系,正在一步步深入和细化。
一方面,数据存在隐私安全问题,另一方面,政府又鼓励数据要素市场流通,隐私计算是一个较好的技术解法。隐私计算发展至今,已经形成以安全多方计算、差分隐私、可信执行环境、联邦学习为代表的几大技术:
1982年,姚期智提出百万富翁问题,让两个富翁在互相不知道具体身价的情况下比较谁更富有,并于1986年提出混淆电路解决方案,标志着安全多方计算的正式诞生;
2006年,为了实现抵御所有攻击且可证明,微软研究院提出差分隐私,主要思想是磨平两个相邻数据集中单个数据的差异;同年,ARM实现TrustZone,让数据在硬件层面安全高效的运行,可信执行环境由此诞生;
2016年,谷歌提出横向联邦学习,让数据可以不出设备,互相之间安全建模。但是联邦学习真正让国内熟知,是2019年杨强教授对联邦学习做出综述,提出联邦迁移学习;2022年,又提出可信联邦学习,让联邦同时关注安全、性能、效率,并做一些tradeoff。
Gartner于2021年将联邦学习纳入到技术成熟度曲线,在商业上基本具备落地可行性,并预测到2023年底,全球75%人口的个人数据将受到现代隐私法规的保护,全球超过80%的公司将面临至少一项以隐私为重点的数据保护法规;到2024年,全球隐私驱动的数据保护和合规技术支出将突破150亿美元,目前,隐私计算已经成为很多公司的标配;到2025年,60%的大型组织将在分析、商业智能或云计算中使用一种或多种增强隐私的计算技术,从公开招标信息可以看到,政府和国企的隐私计算项目较多,数据流通诉求较强。
从2022年全球隐私计算计算图谱可以看出,隐私计算产业链发展趋于完整、成熟,包括投融资、学习研究、软硬件研发、产业应用等;2022年,国家自然科学基金对联邦学习相获批项目总计35项,相比2021年同期增长21%,总资助金额达1368万元。
美团联邦学习平台的建设,主要来自三方面的驱动:
第一,业务需求。公司多个业务线对隐私计算存在诉求,想通过联邦学习的方式进行外部数据探查,提升业务效果。例如,在营销获客场景,通过外部数据合作进行人群分析,然后通过短信、页面推送等方式提升人群转化效果;在广告外投场景,一般的RTA方式是利用媒体侧的用户行为数据,通过联邦让美团深度数据和媒体行为数据尽可能融合,提升广告投放效果;在金融风控场景,例如美团和银行合作,银行就可以利用美团数据进行风控;另外,对于一些人群匹配需求,比如一个人或者一群人是不是黑名单用户,可以用PSI/PIR独立实现。
第二,实际收益。在业务驱动下,美团进行了一些POC验证,与联通进行联邦合作,经过实际投放,收益比较明显。
第三,必备技术。首先,从近几年的隐私保护问题和法律法规可以看出,保护用户隐私非常重要;其次,通过实际POC,证明联邦学习可以进行商业化落地,而不是停留在学术研究阶段;美团是平台型企业,连接商家和用户,一些头部商家已经意识到数据安全的问题,联邦学习可以更好地保护商家数据;最后从各大头部企业的应用来看,联邦学习已成为必备技术。
从业务需求上看,有需求;从收益上看,可落地;从技术上看,是必备技术。因此,联邦学习平台的建设对于美团来说具有必要性。
联邦学习主要分为横向联邦、纵向联邦和联邦迁移学习三类:
• 横向联邦:本质是进行样本的联合,假设的是各方特征重叠较多,但是用户重叠少,比较典型的是端上联邦学习,对于相同的APP,部分场景拥有的用户特征类型基本一致,但用户基本上没有重叠,就可以用横向联邦建模;
• 纵向联邦:本质是特征的联合,假设各方特征重叠较少,用户重叠较多,比如同一个地区两个互联网企业由于面向场景不同,重叠用户较多、但重叠特征较少,就可以用纵向联邦进行特征互补建模;
• 联邦迁移学习:针对的是特征和用户重叠都比较少的情况,比如不同地区且不同行业,可以考虑联邦迁移学习的方式。
互联网企业已经进入存量用户时代,但不同企业由于面向的场景不同,用户特征差异很大,因此,美团进行联邦学习平台建设首先考虑纵向联邦学习。
纵向联邦学习关键分为两个步骤:
第一步进行PSI求交对齐样本,PSI可以让参与方之间只知道交集,不知道非交集部分的ID和样本,也是纵向联邦建模的必选步骤;
第二步在对齐样本之上进行模型加密训练,生成模型再做推理。训练方式有多重选择,例如多方安全计算、同态加密、差分隐私等。对于线性模型的半同态方式会有一个协调方,协调方发送公钥给参与方,参与方在密文的情况下计算出梯度和损失,再回传给协调方解密。
通过建设联邦学习平台,美团希望能够满足公司各类场景数据量级下的业务需求,需求满足安全、易用、高效三个条件:
• 安全性:保障平台各个层面的安全性,包括系统层、算法层、通讯层,联邦学习平台是和外部数据进行交互,对安全性的要求比对内部平台更高。
• 易用性:平台满足各类业务场景,让业务不用了解底层引擎的细节,开箱即用,降低使用门槛。
• 高性能:美团各个场景数据量级比较大,需要满足不同数据量级下的建模需求。
解决方案
在建设联邦学习平台的过程中,美团存在如下挑战:第一,从使用上看,基本都是命令行操作,操作门槛高,没有可视化,无法对数据和任务进行安全审核;第二,从性能上看,美团的很多场景数据量级较大,但业务主流的建模、PSI方案都是公钥体系,计算复杂度高,难以满足业务需求。一些场景基本是几亿到几十亿的量级,公钥方案需求对数据切片串行,效率较低;在广告营销类场景下,每天的样本量可以积累到千万级别,用来训练的数据量可达亿级,用半同态的方式性能很低,难以支撑实际需求;第三,从安全性上看,线性模型存在协调方,协调方本身会存在争议,比如放在哪里、会不会合谋等。NN模型如果不加以保护,又存在标签泄露和特征泄露的风险。此外还有系统上是否存在安全漏洞,导致数据被窃取,密码长度是不是满足安全假设等;第四,在通用性上,引擎较多,不同引擎差异性较大,需要解决如何选取引擎以满足业务需求。04
价值与效果
基于联邦学习的到店服务类消费分析项目在美团内部起到良好的标杆示范作用,创造更大的想象空间:
技术价值方面,验证隐私计算模式在大量级联合建模场景下的有效性,并建立了行之有效的性能提升方案,探索建立“可用不可见”的数据要素流通新范式,为行业数据流通提供了参考借鉴范本。
经济价值方面,通过高效、精准的供需匹配,提升了消费成交效率和规模,平台助力社会经济中发展更高效;通过数据赋能业务发展,加速业务实现规模化经营,降低成本,提升经营效率。
社会价值方面,持续提升用户服务体验和服务质量,以更优质的服务助力用户吃得更好、生活更好;主动探索合规、安全行业实践,为规范数据合规应用,促进要素市场趋于成熟、完善贡献力量。
项目成果能帮助平台更好识别用户潜在需求类型和时机,指导平台开展“人-货-场”匹配,在合适时机向用户提供更匹配需求的商品或服务,提升用户体验的同时为业务带来更多增长空间。
从应用范围看,可以通过首页推荐匹配用户需求,把合适的商品推荐给用户,在服务入口可以对分类进行排序优化,还可以通过站外push推送进行用户召回,提升用户转化率。
到店服务类消费预测分析,其探索走通的模式具有良好通用性,具备在美团体系内向到店餐饮、到店生活服务、到店住宿、外出旅游等线下场景拓展的条件,应用空间广泛。
从模型表现看,对比单边建模,新客场景AUC提升7.4%,老客场景AUC提升2.5%,效果比较明显。从模型效果、业务收益、数据安全等各方面看,基于隐私计算的数据流通具有可行性和必要性,也是安全法规之下的技术解。
往期推荐010203