从0到1:广告营销多智能体架构落地全攻略
作者 |百度商业广告平台研发团队
导读 introduction
在AI Native(人工智能原生)时代,广告营销平台经历了根本性的变革,这些变化不仅提升了广告的效率和精准度,还重塑了广告行业的整体运作方式。其中,强大的广告营销智能体是下一代商业广告平台面向客户交付商业价值的首要载体。进一步,生成式AI又是广告营销智能体的内核及灵魂,真正达成让客户放开说、简单用、都搞定的极致体验。
01
智能体的底层逻辑
我们眼中的智能体,应具备听得懂、主动规划、执行能力强、人格化回答4大核心能力。智能体的底层逻辑抽象如下:
query:用户的每句话称为query。比如“我的账户今天哪个文案转化率最高”,“转化量为啥下降了”。
句式:MRD梳理出的句式集合,比如“我的方案要增加产品描述”。
词槽:通过句式解析出的关键信息,比如“文案” “点击率” “最高” 。
机器语言:业务系统不支持自然语言请求,每个词槽都需要映射业务系统中的参数变量。比如“点击率”翻译为 “ctr”。
期望逻辑:提示词里面会给LLM一些fewshot指定逻辑分支,帮助LLM完成正确推理。比如,准确找出分析对象和指标。
灵活编排:综合考虑用户多轮的token(按照词槽的填充情况),结合场景,最大程度灵活编排,非剧本化。
02
智能体技术
在商业广告平台应用面临的挑战
2.1 智能体技术应用场景
大模型技术在商业广告平台的主要应用场景有两大类:
1. 自然语言交互控制LGUI:通过自然语言交互完成复杂的业务功能,提升长尾功能利用率,降低用户使用门槛。依赖LLM的理解、记忆能力。
2. 通过分析推理完成问题诊断解决:通过LLM的推理实现对复杂业务问题的拆解,分步求解并最终得出结果。依赖大模型的理解、逻辑、记忆能力。
以上场景都不是单一的LLM交互完成任务,需要更为复杂的Agent技术来达成。
智能体(Agent)技术在2023年之前,更多是强化学习的研究概念,随着大语言模型的兴起,被重新定义:LLM Agent=LLM+记忆+规划+工具调用。
△Agent系统原理
△LLM Agent技术进化线路
2.2 智能体技术应用挑战
LLM存在幻觉,无法稳定返回正确答案。比如:同一个prompt两次请求返回不一致。 LLM多步推理正确率低,平响高。
LLM对多个逻辑分支的推理错误率极高。类似于AutoGPT等Autonomous Agent产品demo看似惊艳,但是对于抽象复杂的问题,有效解决比例不到 10%(让AI自我规划容易产生死循环,或者会出现一步走错,步步走错的问题)。 解决现实问题需大量业务知识,很难将这些全部输入到Prompt中,梳理业务也很困难,另外LLM的上下文窗口非常有限。
效果平台API 5000+,业务系统数据表有 360+、涉及字段5k+,但LLM的上下文窗口非常有限,很难将这些全部输入到Prompt中。 人工编写Prompt function call,工作量惊人。业务变更就需调整和优化Prompt,维护难度极大。
人格化回答需了解业务知识,否则LLM无法完全准确理解返回的结构化信息。 大量业务 fewshot,会引发LLM多步逻辑推理,导致回答卡顿、用户体验极差。
GEEK TALK
03
百度商业广告平台多智能体架构介绍
大模型尤其是文心一言技术,它的变化和演进速度是惊人的,需要把这种变化考虑到业务和产品发展路径上去,拥抱变化,不断用最新的LLM技术革新。
在线商业系统可用性要求是99.99%。轻舸上线初期,多步推理准确率只有52%,无法满足生产环境要求。轻舸初期架构通过规则为主、模型为辅(占比10%-)的方式构建LUI系统,模型只用于闲聊或兜底。但是这种LUI系统query解析准确率低,交互固化呆板,客户体验比较差,对高阶功能难以支持。
文心大模型4.0发布后,轻舸率先在GBI 智能体试水,发现文心大模型4.0准确率能够达到生产环境要求。虽然仍然存在幻觉、推理更慢(耗时高于文心大模型3.5)、自主规划解决抽象复杂问题比例低 (不到10%)等问题,但是配合一个更加先进的技术架构是能充分发挥文心大模型4.0先进性的。
在商业广告平台落地场景中,我们采用了基于文心大模型4.0的多智能体架构,支持客户趋于无限的自然语言表达,彻底放弃剧本编排,多槽位指令解析准确率、平响达到成熟系统的标准(准确率达到98.5%,平响只有1.5s,95分位值3.3s),在智能助手、JarvisBot、销售Bot均成功落地,并取得显著的收益。
该架构有三个核心技术:
1. 模型层采用“大小模型协同”架构,大模型query尽量走长期记忆,解决【听不懂】和【问答卡顿呆板】的问题。
有些小任务不需要大模型,小模型不用1s,效果还更稳定。
必须通过大模型处理的query,对查询结果长期记忆。长期记忆可以通过离线处理来预热、填充和修正。持续一段时间后,这些请求全部走长期记忆,保证了高效准确。
实际业务问题非常复杂,直接通过大模型自主规划基本无解。类似人类解决问题“分而治之”,我们将一个大任务拆解为多个子任务,并将各个子任务交给领域专家去解决。 基于企业SOP,将复杂问题拆解给多个智能体协作解决,有效降低了大模型的推理难度,从而达到了生产环境要求的响应速度和稳定性。标准操作程序(SOPs)编码作为智能体Prompt,指导大模型按照结构化流程工作并协调智能体各个环节,允许具有领域专长的智能体验证输出并减少复合错误,有效避免大模型的幻觉。
建设完整的动态规划机制,允许智能体局部试错、回溯,强化Agent的生成质量。 建设长期记忆 + Self-Learning结合的长效机制,使得Agent因为长期记忆的积累和自学习策略越用越强。
△智能体架构进化
标准操作程序(SOPs)编码:作为智能体Prompt,指导LLM按照结构化流程工作并协调智能体各个环节,提供具有领域专长的智能体验证输出并减少复合错误。
Agent Framework 基础设施:提供构建agent的基础部件和AgentWorkflow设计和执行工具。业务开发者能够基于工作流很快的设计出高质量可靠的智能体,达到LLM+P的效果。前面提过Autonomous agent并不可靠,因为其可控性很差。而提高可控性最好的方式是去帮AI设计workflow,把规划职责部分转移给业务开发人员。
LLM+P方法论:Empowering Large Language Models with Optimal Planning Proficiency 论文中提出的一种任务解决方法,通过将 LLM 和规划(Planning)进行结合, 通过使用自然语言来描述任务规划,进一步生成解决方案,从而推动问题的解决。
垂直领域Vertical Agent:基于对业务理解产生了一大批细分领域的Vertical Agent。比如意图识别智能体、投放智能体、GBI智能体等,能够满足细分领域智能化需求。这类智能体具备一定的类人格特征,它能够完成业务工作流指定的各个步骤,并在某些环节部分决策,具有长期记忆。
基于SOPs的Multi-Agents协作:Agent间通过自然语言描述的SOP来分工合作实现复杂的业务应用。一个用户的query到来后,Director智能体会解读SOP编排不同的Agent参与实现复杂的业务需求。Agent间的跳转可靠性通过会话状态机来保证。会话状态机维护当前会话每一句话的意图和状态,实时判断是否满足跳转条件,使应用的答复更加的灵活智能。
大模型:提供一系列标准模型;提供训练模型的基础设施,包括LLMs预训练和SFT、数据集等。
小模型:可以使用厂内EasyDL/BML平台,也可以使用面向NLP开发者的开源工具包JioNLP等。小模型不存在幻觉和平响高问题,但是数据构造和训练成本开销仍然不少。模型的挑选和使用对非AI的业务同学来说也需要一定的学习成本。
配套工具:基于业务特点,封装一系列自动化工具,方便完全没有AI背景的业务rd都可以快速的上手模型训练、微调、评估等。
向量数据:自然语言表达的用户请求通过向量检索匹配到最相近的意图、场景或知识语料等,填充LLM Prompt的context,让 LLM的回答位于最新的事实数据之上,保证意图识别和问答等的准确率,“基于事实”地约束模型,缓解幻觉问题。
长期记忆:对模型交互产生的一系列记忆,进行长期保存和管理。还会通过离线模型不断的填充和修正、清理。数据飞轮运转一段时间后,结合向量相似性检索,能够保证在线大模型的请求全部走长期记忆,有效解决了大模型的延时高、资源开销贵和幻觉等问题。
Prompt 调优平台:工程效能部建设的iEvalue等工具,提供Prompt开发调试和大模型的效果评估能力,尤其方便对文心千帆和其他开源模型的不同版本效果评估。
流量自动化录制和回放:如果利用传统的人工测试回归的方式成本非常高昂,基于java-agent探针技术的自动化流量录制和回放工具完美解决该问题。
多模型自动化标注:基于多个模型和历史正负例数据,对轻舸系统的客户QA进行准召评估,优质数据用于优化领域模型,并产出整体准召评估报告。
04
商业广告平台智能体应用案例
4.1 Vertical Agent-轻舸GBI智能体
GBI智能体借助洞察工作流通过LLM拆解出某个token的解析步骤,然后分发成多个子任务并行处理。 各个子任务依赖不同的小模型或者文心4.0 、文心3.5 等大模型。对于大模型尽量走长期记忆,如果记忆没有检索到再走大模型。 整体结果输出需要一个校验模型进行复合校验,拦截和修正有问题的结果。
4.2 JarvisBot智能体
△一次线上问题的自动化诊断处理过程
Director智能体(DirectorAgent)根据用户的指令意图识别后分类对应SOP场景,组装 Agents执行流。比如上述流程编排了诊断智能体先诊断,操作智能体后操作的智能体执行流。 诊断智能体(DiagnisisAgent)通过 LLMs去拆解 SOP诊断步骤为Actions,执行完 Actions 后发布优化建议到消息总线中去,等待操作智能体获取。 操作智能体(OpsAgent)检索对应状态的AgentWorkflow工作流,每个Action应对为一个状态节点,根据用户反馈操作止损,最后返回止损结果给用户。
05
智能体应用的效果收益
轻舸带来增量消费:“轻舸+生成式召回”相比于传统“关键词广告+生成式召回”,能够为整体带来更多的消费增量,也给客户带来更多新增转化。 LUI识别回答更准确更快:指令驱动准确率从85%提升到96%。打造业界首个广告营销领域GBI产品,支持广告主通过自然语言进行任意时间、top类排序、定向筛选、多指标叠加筛选等复杂计算,挖掘用户深层次需求并诊断问题。 AI 重构效率大幅提升:轻舸智能体支持既定几种句式(前端+后端)人力从3PD 降低到1PD-。借助Agent Workflow和前端智能体组件,从每次上线只支持既定几种句式,升级到单个场景整批表达。前端和后端全方位智能化革新,支持智能体涌现带来的泛化、不确定、全新的AI产品形态。
【JarvisBot】利用 LGUI+AIOps 打造了微服务治理的新范式
智能运维和故障处理:智能诊断利用LLM分析PaaS环境、微服务日志和Tracing 等根因定位,单次异常定位时间从30m+骤降为1m-;智能问答通过LLM进行文档自动总结和回复,单次节省用户定位耗时10min-。
对话式全流程智能操作:审批利用LLM结合如流工作卡自动化串联审批流程,单次等待从7PD骤减为1h-;机器人将上线操作主动通知用户,单次节省等待耗时5分钟。
智能流量录制和回放:利用大语言模型和微服务治理生态工具,将单个应用自动化回归环境建设成本从7PD降低到1h-,单接口测试节约时间1小时。
06
技术创新的变革思考
1. LLM的幻觉问题:LLM的幻觉问题在生成式场景是一种优势,但在LUI场景的错误推理是一种劣势,而且LLM对逻辑分支较多的推理耗时长、幻觉大,无法形成LUI场景的低延迟可靠交互,因此需要借助更多的辅助手段,降低LLM处理问题的难度。不要寄希望LLM一次性解决问题,需要拆解具体的子任务来多步执行,而不是浪费时间在复杂的Prompt调优上。
2. 综合的向量数据库:向量检索是LLM应用记忆能力的核心需求,同时在应用场景,记忆需要多维度的能力,因此功能特别单一的向量数据库在实际使用中难以使用,因此我们很早就发现AI应用真正需要的是同时具备向量检索、全文检索、结构化检索的记忆能力,通过调研开源向量数据库,我们判断向量应该是数据库的一种特殊索引,且可以融入数据库的查询环节,为此我们在自研的BaikalDB基础仅花费2个月时间就完成了向量检索能力的补齐,AI应用仅需要通过sql就可以完成向量存储和检索的功能。
随着AI技术的不断发展和完善,多模态/跨模态等大模型的兴起,我们可以预期生成式AI将在未来的广告营销领域扮演更加重要的角色,带来更深层次的变革和创新。以上是商业广告平台研发团队在智能体技术的探索,欢迎大家一起交流。
往期推荐
Agent+RAG:大模型真实应用场景落地探索
分布式 Data Warebase - 让数据涌现智能
火山引擎基于 DataLeap 的电商指标管理实践
聚焦电商场景,详解抖音集团埋点及归因分析方案
金融场景中的指标体系建设与应用
指标归因在互联网平台的应用
弱监督建模技术在蚂蚁风控场景中的探索与应用
京东RaftKeeper2.1发布,让CK告别ZooKeeper!
Apache SeaTunnel——OLAP 引擎的数据动脉
DataFunCon北京站精彩回顾|附PPT 下载方式
点个在看你最好看
SPRING HAS ARRIVED