查看原文
其他

EP11 AI如何改造推荐系统讨论纪要

AI芋圆子 共识粉碎机 2024-04-14

关注共识粉碎机,获取历史讨论会纪要

详细的讨论会分享背景请见我们上一篇文章《AI如何颠覆软件:你能为AI打工吗?》

我们尽量每隔一周都会组织不同领域的AI讨论会,覆盖软件行业的所有细分。为了保持一个活跃的讨论环境,对参与人群会有限制。

下一期将定于10月29日上午10点,主题为《AI如何颠覆教育产品》,形式为线上闭门讨论会,详细的下一期内容和报名形式请见文末的阅读原文


本期讨论会参与者:

一线推荐系统从业人员,LLM+推荐创业者,硬件芯片从业者,AI投资人。

本期为共识粉碎机第一次举办线下活动,共计约40位参与者线下讨论。

联合举办本期活动的还包括AI实践派亚马逊云科技


1 LLM如何应用推荐系统现有环节


LLM最先应用在审核/标注上:

  • 已经有一些大企业将LLM应用在内容审核/标注上,目的是做成本节省。

  • 先前已经有很多基于CV的审核/标注策略,包括在机审环节从视频中抽帧理解关键词等,再到人审环节进行校正。

  • LLM可以理解更多上下文画面,例如在一个视频中主人公总是举一个印有相同字符的牌子,虽然牌子上的内容可能不易理解,但“总是举牌子”从审核角度上就可以被理解成是一个可能的高危事件。

  • 在海外市场,LLM对审核更加有帮助。标注人员难以完全识别不同国家、不同文化,以及涉及到全球范围内的敏感用语。


LLM在核心推荐系统上会先帮助到多模态Reasoning:

  • 推荐系统是一个相对黑盒的逻辑,优化系统更多是从人角度寻找Bad Case,通过解决Bad Case,以及设立更多的AB Test来提高系统的匹配效率。

  • LLM对比原先的模型在Reasoning的时候会更加全面,在过去的模型中是“我们想要什么样的特征,才会去采集这样的特征”。LLM可以关注到更多的细节特征。

  • LLM出现后,提高了推荐人员的积累过程,对于所有的内容、行为都可以提供更全面的特征,在Bad Case的归因上也更加透彻。

  • 特别是对于我们不熟悉的人群和文化,例如为什么会有黑人购买美黑产品,海外某类人群为什么对这类内容非常感兴趣。这类靠推荐人员绞尽脑汁都不一定能想到原因,但LLM可能可以从这类人群的关系链,或者配合其知识积累,给出可能的解释。

  • 例如,对于某一类演唱会视频突然评论区引爆了,原因是视频中有哪位明星经过了,对于原来的模型可能就关注不到,但LLM可以针对视频中周围人的反应判断可能是经过的人带来的影响。

小公司相比大公司可能受益更多:

  • 小公司的推荐算法系统比较粗糙,LLM可以降低很多处理的门槛。

  • 丰富用户的行为特征:小公司采集数据颗粒度可能不够细,AIGC提供了一个更便宜的获取用户行为特征的方案。在对用户行为进行Reasoning的时候,理解用户之前的行为表达,推理后续行为,有可能构造一个更便宜的模型。

  • 丰富内容特征:包括声音、图像转文字,视频的抽帧,评论区的主题提取。过去小公司处理门槛相对较高,LLM降低了处理门槛,但用LLM来内容特征Reasoning的时候同时也更容易丢失数据。

  • 而对于大公司,在LLM之前,已经有很多替代的土办法了,甚至相比大模型,成本可能还更有优势。

LLM目前对提高推荐系统的下限很有帮助,但上限仍然很难:

  • 诸如对黑人美黑以及演唱会视频的解释,都是在缺失数据的情况下,通过LLM补充了数据和可解释性,提高了这类情景的匹配效率。

  • 对于冷启动的长尾内容,LLM也能起到类似的帮助。越长尾的场景,可能得到的提升更多。

  • 对于占到主要流量的头部内容,一般数据样本比较充裕,LLM能够起到的作用有限。

  • 但推荐系统的效率提升是个积少成多的过程,LLM可以开设更多相关的效果实验,对于上限的提高是缓慢但渐进的。


2 LLM在广告/电商推荐系统的应用


LLM可以提高客户广告投放时候文案和选词

  • 文案:LLM对于客户以及代运营厂商,都可以有更便捷的方式生成投放素材所需要的文案。比如针对针对目标人群、年龄、地区、职业,通过Prompt和大模型互动,生成优化后的文案。

  • 更多关于文案的讨论请关注《EP03:生成式广告讨论会纪要》

  • 选词:广告投放的时候需要框选关键词,关键词多了会影响投放成本,LLM可以缩小选词范围,或者提出更好的选词方案。相当于在人工选词的基础上增强了效率。

  • 目前LLM的应用场景还不需要对训练集添加元素,更多是针对训练集进行筛选和提纯。


LLM可以给电商客户做简单的端到端推荐:

  • 目前已经看到有独立站应用LLM直接做端到端推荐,在聊天框语境中给客户推荐相关的产品。

  • LLM搭建的时候不需要传统推荐系统那么复杂,不需要到数据准备层、特征抽取层和召回层,现在就是让LLM来全权做TopK的判断。

  • 但目前主要是小客户应用,目的是节省制作推荐系统的门槛。大客户已经有传统的推荐系统了。

  • LLM推荐系统面临延时问题,在聊天框语境中延时影响不大,但是在传统的刷新页面环境中延时影响很大。同时也面临推理成本问题,搭建好后的单次Query成本肯定高于传统推荐系统。


3 LLM在搜索推荐系统的应用


传统搜索的流程召回、粗排、精排,LLM+搜索现在的形式都没有跳出Perplexity定义的框架,加上用户的query和问题去让模型生成

  • 用户查询环节,从关键词查询改为需求查询,输入的问题中缺失的细节会由 Copilot 给出一些选项和输入框,使其能够让用户更精准地传达自己的需求。

  • 直接调用传统搜索引擎的API,leverage其爬虫、数据库能力。这里google bard和Perplexity的方法不太一样,bard调用的google搜索API返回的直接就是vector,然后embedding faiss就可以,1秒给谷歌搜索的延迟,2秒给llm。Perplexity调用的bing API返回的不是向量,做法可能会更类似于webGPT,还是基于搜索引擎自己的pagerank算法先得到的document层面的相似度,选择有限的document list,然后然后再跑一个模型去定位paragraph的相似度,再把这些paragraph直接喂给LLM做输出,这种方法会受限于context length,如果超了再把paragraph做embedding。

  • 由于调用成本的问题,大家都在搭建自己的搜索引擎。Perplexity有一个自己的通用搜索模型,针对不同的场景也会做单独的搜索模型,比如基于wikipedia的搜索,范围比较小,拿BM25的方式(相似度),danceretriver来粗排,再根据时效性等做精排。

还没有很好解决的问题

  • Hallucination有很大的提升,但依然存在。另外recall和precision还是不够的。Perplexity的recall率可以做到68%,precision只能做到73%,Bing Chat的Recall率还不到60%。传统引擎的倒排索引会根据文章内的不同词的统计信息建立词与包含这些词的文档间的映射关系,天然具备精确的特点。向量则是语义的模糊匹配。

  • 深入落地页进行长文本建模难度比较大。一方面会有内容保护或者流量保护的问题,淘宝和京东不允许SKU出现在搜索引擎的结果页里,不允许站外的直接爬取导入。平台可能在内部使用模型,让搜索的体验更好,但是站外导流不可以。内容平台中Twitter关闭API不允许PPL爬取也是一个例子。这里和终端自己的流量策略有很大关系。另外就是全部read长文本本身难度也很大。

  • Web搜索引擎有一套严谨的指标体系,如 Precision@10(前十个结果是否解决用户的问题)、CTR(点击数/展示数),用户的浏览和点击行为,反映了用户的偏好,同时反馈到排序系统和广告竞价系统,使搜索引擎的效果更佳。但这些指标对单个生成式的结果并不合适,Chat的形式并不方便用户直接去做偏好反馈,用户也不会有额外的时间去专门为答案做编辑或修改,Like/Dislike类标签的比例也只有 10% 用户给出。

  • 引入多轮对话后,就需要考虑之前对话的上下文。这就提出了额外的挑战。这是因为之前的对话,有提问也有回答,如果把它们作为提示词一股脑全部送进 LLM, 会对最终结果产生极大干扰。New Bing限制了最大对话轮数(20轮到50轮),一是避免出现意料之外的回答,二是降低用户闲聊导致的额外成本。


LLM还可以摸索提高上限的地方:

  • 多模态:过去很少利用视频数据做训练,哪怕Google用到的比例也非常非常低。技术成熟后结合搜索可以做到搜索音频或者视频,因为音频检索可以靠别的方案。比如可以做视频问答,把电视剧里某人出现的场景都找出来,包含前后五秒,做成一个视频发过来。

  • 可以用固定的口吻来回答特定用户的问题(用老师的口吻或用给成年人解释一个问题 vs 给 儿童解释一个问题)。

  • 之前企业内部的数据和个人的数据即使开放权限,也无法被很多的web搜索和利用。企业中的RAG模型使得这个过程变得可能。比如说像finchat.com这样的公司,对于金融领域的专业问题进行了指令封装,当我想搜索某车企的季度出货量时,对方事先已经从年报中对这种指令进行了封装,可以很快直接搜索到这个结果。提前把所有的年报研报数据做了结构化了。


目前来看Page Rank算法仍然对LLM搜索质量有很大的影响:

  • 传统搜索引擎Page Rank做的好,会非常影响输入给LLM的内容质量,同时也会使得落地页建模等更加方便,这使得LLM搜索引擎会极大的被原先传统搜索引擎的能力所制约。

  • 新型搜索引擎更需要探索弯道超车的方法,加强在特定领域的理解,壁垒主要是产品定义的能力。例如针对Youtube或者论文库等做搜索,就不那么依赖Page Rank算法。


4 LLM在内容推荐系统中的应用


推荐系统每次大的迭代都会改变内容流量分发逻辑:

  • 例如单列和双列改变了用户对内容的容忍情况,单列容忍度更低,更适合头部内容。双列容忍度更高,有更多的长尾内容,但从机制上用户留存不如单列。

  • 例如淘宝讲究双边效应,但也会因为运营策略原因,牺牲部分长尾商家和用户,导致了拼多多和抖音电商的兴起。例如字节因为内容容忍度较低,小红书等就可能承接了字节片中长尾的创作者和用户。、

  • 例如直播电商,传统电商是以单一商品维度在做竞价,但一进直播间就会看到10件神之20件衣服。

  • 每一次新的推荐策略大迭代,以及相应的运营策略变化,都可能产生新的产品机制和流量机制,除去上面提到推荐系统中LLM的应用,LLM更大的关注点是是否会改变内容的流量分发机制。

  • 类似目前AI在搜索中的应用,内容端进行生成和整理,但仍然没有逃脱传统搜索的玩法,没有改变召回链路和召回管线。在其他大企业和创业公司中也还没有看到眼前一亮的形态,可能需要天才产品经理来迭代。


LLM在旅游等内容生态中也有应用:

  • 目前已有创业公司正在利用LLM改变旅游等内容的推荐逻辑。

  • 首先需要维护内容数据库,包括UGC以及独家/合作等内容。

  • 然后在用户提交查询需求,例如“上海两天怎么玩”时,通过大模型召回文本内容,匹配、筛选、整理后将相应的产品推荐给用户。


Pinterest的AI帮助要看对照样本:

  • Pinterest在最近的业绩会上提到了AI对其转化率和变现效率都有~10%的提高。

  • 提高的效率主要看过去的推荐系统模型完善程度,以及对照样本是怎么取的。从目前LLM应用到已经完善的核心推荐系统的实验比对来看,还非常难做到~10%当量的提高。




【讨论会】

我们已经组织了十一期“AI颠覆软件讨论会”,前面十期分别是数据库、游戏软件、生成式广告、办公协同CRM、AI与产品经理、网络安全、设计工具、可观测性工具、非NV卡适配、AI+传统工业以及推荐系统,分别邀请了行业里面最资深的从业者、创业者朋友。

第一期纪要请见《EP01:AI如何颠覆数据库讨论纪要》

第二期纪要请见《EP02:AI如何颠覆游戏讨论纪要》

第三期纪要请见《EP03:生成式广告讨论纪要》

第四期纪要请见《EP04:AI如何颠覆办公与CRM讨论纪要》

第五期纪要请见《EP05:AI时代产品经理的新要求讨论纪要》

第六期纪要请见《EP06:AI如何颠覆网络安全讨论纪要》。

第七期纪要请见《EP07:AI如何颠覆设计流程讨论纪要》

第八期纪要请见《EP08:AI如何颠覆可观测性工具讨论纪要》。

第九期纪要请见《EP09:如何突破英伟达垄断》

第十期纪要请见《EP10:AI如何改造传统工业讨论纪要》

第十二期讨论会我们将于10.29上午 10 点举办《AI如何颠覆教育讨论会。本期讨论会预计为线上闭门形式。

欢迎生处AI+教育行业的创业者和从业者与我们一起讨论,也欢迎推荐相关的朋友一起讨论。

如果有兴趣,请点击阅读原文的腾讯问卷报名链接。

所有的讨论纪要,请关注公众号“共识粉碎机”,在功能界面“芋圆子”→“讨论纪要”。

感兴趣加入后续讨论会活动的,请私信后台“微信号”、“工作单位”、“擅长什么AI方向的讨论”。



【AI如何颠覆软件:你能为AI打工吗】


【如何突破英伟达垄断】
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存