当行业逐渐驶向第三方cookies终结的时代,相应的替代方案也在逐渐发展成型,其中谷歌FLoC(联邦群组学习技术)是目前业内讨论最多的技术手段之一。由于目前FLoC刚刚在全球范围内开启内测,FLoC究竟会为行业带来什么实质影响其实依旧存疑。效果方面,谷歌称FLoC群组的精确度足以支持广告投放。在之前其公布的测试数据中,利用FLoC达到的投放效果与第三方Cookies相差无几,与基于cookie的广告投放相比,FLoC能达到其中95%的效果。此外谷歌还声明,利用谷歌自身平台投放所能获取的数据信息与其他广告平台无异。而在另一边,谷歌的FLoC方案也引来了隐私安全专家们的抨击,有人认为FLoC并无法保证隐私安全,甚至使当下情况更加糟糕。占据全球2/3的市场份额,谷歌的任何措施都会为行业生态带来不小的影响,海外广告生态更甚。谷歌的FLoC究竟是基于什么逻辑?其目前存在哪些隐私漏洞?将会对广告投放带来哪些潜在影响?FLoC(Federated Learning of Cohorts)即群组联邦学习,是谷歌针对广告定向推出的技术解决方案,也是其隐私沙盒(Privacy Sandbox)项目中的重要组成部分。与第三方Cookies能直接追踪到个体级别数据不同,FLoC则基于用户近期行为以兴趣为维度分成不同群组,一个群组用户具备相似兴趣喜好,由此来帮助广告主进行定向投放。每个群组都享有共同的特点和兴趣,群组内的用户都会被标记成相同ID。当然由于用户可能会被分到不同类型的群组中,所以也会表现出不同的ID标识。根据最初试验,这些群组数据始终处于流动之中,每7天更新一次。当用户的浏览行为发生变化时,浏览器就会捕捉到其新喜好,据此把安排用户加入到相应的群组中。一组依据浏览过的网站进行分组,一组依据喜好进行分组,显然以喜好进行分组更加精准在隐私方面,谷歌FLoC主要通过两方面来保证安全性。一方面,通过FLoC,用户个人信息隐藏于群组之中,使其不能被轻易识别;另一方面,联邦学习技术能够实现在用户本地进行计算分组,无需再设立一个中央服务器来集中收集用户行为数据,个体浏览记录将保密,无法分享给任一方,浏览器本身会自动识别访问历史并基于行为记录进行分组,以此降低隐私泄露风险。此外,谷歌保证群组体量达到足够大时才会被第三方识别,体量小的群组将会与其他或相似群组合并以确保不可识别性。例如当你访问一个网站时,Chrome浏览器会告诉这个网站该用户属于cohortxxxxxx,然后网站就能够知道该群组用户比较喜欢小型货车和皮革靴。之后,广告主可以通过一方数据、机器学习模型或预测分析等方式来评估、衡量与匹配,然后选择投放。当然网站也可以选择不参与FLoC,意味着这些网站将无法得到访户相关群组的信息。此外,用户也可以在后台设置中选择退出第三方cookies,那么该用户数据也不会被FLoC追踪。目前,谷歌已在全球开启测试。最初谷歌计划在澳大利亚、巴西、加拿大、印度、新西兰等地区随机选择0.5% Chrome用户进行测试,广告主、第三方等公司均可加入试用,后台关闭第三方cookies的用户将不会被选择。随后,谷歌FLoC内部团队又请求将测试样本扩大至5%用户,以便于广告技术公司更好地训练模型,如果该请求被准许,意味着接入FLoC测试的用户将达到亿级水平。不过仔细观察发现,测试地区中并没有来自欧盟的国家,意味着谷歌的FLoC方案并没有得到GDPR隐私条例的认可。除此之外,谷歌的FLoC解决方案也因无法保障隐私安全而被业界各方抨击。海外浏览器Brave、DuckDuckGo、 Vivaldi、Opera以及微软的Edge和Firefox都未加入到FLoC的测试中。 在外界看来,谷歌的FLoC背后都有哪些隐私安全隐患呢?从业内各方反馈来看,大概有以下三点。简单来讲,指纹识别是一种将浏览器上的行为活动与用户个人身份做匹配的技术手段。用户在访问浏览器时都会生成唯一标识当前浏览器的一串字符,类似于能识别个人身份的“指纹”。浏览器可通过浏览器的屏幕分辨率、字体、语言、操作系统、IP地址、窗口大小等一系列数据来判断用户身份,据此进行精准投放。虽然谷歌在宣布“隐私沙盒”项目时就已明确表示要禁止指纹识别,然而从FLoC的解决方案来看,要想彻底杜绝指纹识别的可能依旧任重道远。有数据隐私安全专家表示,Cohort ID越长代表所能生成的群组数量越多,意味着广告主所能获取的用户兴趣信息越多,被指纹识别的可能性也就越大。在最初的试验里,一个Cohort ID是8比特,意味着将只能产生256个可能的组合,一定程度上限制了追踪能力。不过在最近一次测试版本中,Chrome显示其Cohort ID已经包含50比特,即能产生33872个群组。这样一来,虽然每个群组包含的用户量极大,通过群组ID不会直接定位到个人,但其透露出的更多信息也会为指纹识别提供了补充,一旦能定位到用户所在群组,结合其他零碎数据反而会更容易识别出个体身份。技术总有两面性,广告定向在用于精准投放的同时也对弱势群体带来了歧视、羞辱与伤害。例如基于性别、年龄、种族、宗教等维度推荐带有歧视性的求职、买房、信贷等广告,甚至根据信用记录或类似信息来推荐高利贷都是在利用弱势群体标签谋私利。正因如此,谷歌、Facebook等广告平台一直在限制定向能力。例如谷歌禁止广告主以“涉及敏感隐私的兴趣”来做定向。不过仍难杜绝此类事件发生。谷歌FLoC使用的是无监督算法,意味着FLoC仅根据用户的相似特征进行分组,并且在聚类过程中不知道用户标签,任何人都无法直接干涉FLoC的分组逻辑。理想状态下,FLoC应根据有实际意义的行为、喜好聚类,但事实上用户在网上表现出来的行为难免会表露出性别、民族、年龄、收入甚至心理健康等敏感特征,意味着这些敏感信息也极有可能参与到FLoC的决策分组中。对此担忧,谷歌表示可以通过监测系统输出结果的方式来确保群组特征不涉及任何敏感隐私问题。一旦某个群组与被保护群体关联紧密,管理服务器将会重置算法。不过,这种解决方案并不实际。专家指出,这意味着谷歌需要根据用户的种族、性别、宗教、年龄、健康、财务状况等一系列数据来进行大规模审查,一旦发现一个群组涉及隐私泄露风险就要重设整个算法,然后再次测试直至监测的群组不涉及任何隐私问题,实际操作难度、成本都非常巨大。此外,对于追踪者而言,只要具备一定数量的用户数据也能通过观察和试验知晓FLoC群组中用户的共同特征,这也为群体歧视提供了技术上的可能。对于广告主而言,通过谷歌的FLoC群组一定能够得出该群组用户的行为信息,这也是其所能提供的核心营销价值。不过一些公司本身也能通过其他技术手段来识别到个体,一旦这些公司在网站上提供“用谷歌账号登录”的选项,也能关联到FLoC的群组信息,得到更全面的用户画像。在这种情况下,有两种类别信息最容易被泄露。一是浏览记录;追踪者可能通过结论反推过程,即利用反工程原理推导出属于该群组的用户都浏览过哪些网站。二是用户的大致特征、兴趣,即推算出某群组所含用户更有可能具备的特征画像。例如群组一的用户倾向于是年轻女性、群组二用户大概率为LGBTQ年轻群体等。这意味着当用户刚刚进入网站时,网站就已经知晓用户的大概特征。而随着FLoC每隔一段时间的更新,这些能用其他方式识别用户的网站也能监测到该用户浏览行为的变动,从而产生了跨语境隐私风险。按理说,用户有权决定不同语境中所显露出的身份信息。正如我们不会告知商场导购自身健康情况,也有权不对公司告知私人生活状态。然而这份本应得的权力却在网络时代被剥夺和侵犯。当你浏览医药健康网站时,网站或许还知道你的政治立场,当你登录零售网站购物时,它也许还知道你最近在接受心理治疗... FLoC无法解决跨语境的信息隐私问题,因为其可能向你登陆过的网站提供了同一份行为记录。当然,除了技术中尚未补全的隐私漏洞,谷歌的“强势立场”也与一些原则问题有所矛盾。例如在开启FLoC试验后,样本用户并未被询问和告知,此外也有人担忧FLoC乃至“隐私沙盒”解决方案会在日后逐渐向谷歌自身广告平台倾斜,导致其既当运动员又做裁判。在广告投放方面,谷歌FLoC才刚刚开启大范围测试,具体影响难以明确,但可以预见其中带来的部分限制和影响。注意,FLoC只是谷歌“隐私沙盒”解决方案中的一部分,并不能说完全替代第三方Cookies。FLoC仅适用于Chrome浏览器数据,跨浏览器、跨设备乃至线下数据均无法触及。目前FLoC仅支持基于兴趣的定向,无法解决广告排序、频控等问题。对广告主而言,FLoC产生的群组还不够灵活和精细。广告主若想判断该群组对一件具体商品的兴趣度依旧很难。例如广告主想将该广告展示给过去7天内在亚马逊上搜索阿迪达斯运动鞋的用户就不太可能了,FLoC只能实现将该广告展示给喜欢运动鞋的人。如果说一个FLoC群组代表一种身份标识,那么归因也将变得十分困难。广告主该如何衡量广告效果?广告可见度指标是否会重于转化指标?营销效果是否会下降?当然,谷歌早已想到这一点。其对应的归因方案是“事件转化衡量API”,去年9月已开始面向公共测试。浏览器会记录和收集点击、转化数据,并向Ad Tech公司分享匿名报告,报告中用户ID被Event ID代替,并且会混入一定比例噪音。谷歌称未来该解决方案还会支持浏览转化数据。而针对具体广告活动的衡量上,谷歌于去年4月发布了“聚合衡量API”,能够衡量Unique Users在多个网站上浏览同一广告的次数。该方案也将于今年开启公测。谷歌“隐私沙盒”中的另一方案TURTLEDOVE(斑鸠)就是通过新网页浏览器API和on-device广告竞价解决隐私保护下的再营销问题。(1)用户通过浏览器访问了一个自行车交易网站,在上面浏览山地车。网站认为用户对山地车感兴趣,购买意向较强。(2)通过API,网站向浏览器请求将该用户添加到其预先设定的“山地车兴趣组”中,同时其Ad Network也向浏览器发出请求,准许其读取该兴趣小组。(Ad Network仅有读取功能,无法储存该兴趣群组数据)(3)浏览器注意到该用户经常浏览展示该Ad Network广告的网站,并且已知晓Ad Network已经能读取到该用户加入“山地车兴趣组”的信息,因此浏览器请求Ad Network展示针对该兴趣群组的广告。(4)Ad Network向浏览器发出回应,包含广告及一系列决策逻辑,这些都会存储于浏览器中,用于下次在浏览器上竞价。(5)在未来某个时段,该用户访问了另一个网站(blogsite.com),blogsite.com网站将会向Ad Network发出一个上下文广告请求(contextually-targeted ad),该请求包括网页URL、广告位置、广告尺寸等信息。Ad Network也会回复一个上下文广告,但与此同时Ad Network还向浏览器发送on-device竞价请求。注意,两个请求互相独立,Ad Network无法得知两者来自同一浏览器。(6)浏览器接到请求后,根据Ad Network此前回复的决策逻辑,在上下文广告与兴趣群组定向广告中选择更匹配的一个在blogsite.com上予以展示。在TURTLEDOVE的基础上,谷歌又进行了优化与落地,形成了名为“FLEDGE”的项目,使得广告主或DSP能够借助可靠的服务器来获取竞价需要的一些实时数据。“FLEDGE”也会于今年进行初次试验。不过综合来看,谷歌的第三方Cookies替代方案还存在很多不确定性,谷歌也称其“隐私沙盒”方案还会一直优化改善,因此究竟这些方案能否在保护隐私的前提下达到满意的投放效果仍难定论,对广告投放的实际影响依旧处于未知。不过,当网络包围和席卷人们的生活,用户在网络上的每一次点击、浏览、注册、登录都暴露在后端一行行真实存在的数据代码之上,即便平台方竭尽全力避免隐私泄露,依旧难挡伸向隐私的一双双“黑手”。至少从世界最大的广告巨头谷歌来看,目前广告效果与隐私安全仍未得到很好地解决。放眼于全局,隐私与效果的平衡将始终是行业研究的长期命题。Progress update on the Privacy Sandbox initiative by Google:https://developer.chrome.com/blog/privacy-sandbox-update-2021-jan/
What is TURTLEDOVE? Google's TURTLEDOVE Explained by AdTech Explained:
https://adtechexplained.com/turtledove-explained/
Google Is Testing Its Controversial New Ad Targeting Tech in Millions of Browsers. Here’s What We Know by Electronic Frontier Foundation :https://www.eff.org/deeplinks/2021/03/google-testing-its-controversial-new-ad-targeting-tech-millions-browsers-heresGoogle’s FLoC Is a Terrible Idea by Bennett Cyphers by Electronic Frontier Foundation :https://www.eff.org/deeplinks/2021/03/googles-floc-terrible-idea