EP14 到了颠覆AI客服的时候了吗?
关注共识粉碎机,获取历史讨论会纪要
我们尽量每隔一周都会组织不同领域的AI讨论会,覆盖软件行业的所有细分。为了保持一个活跃的讨论环境,对参与人群会有限制。
下一期将定于1月14日上午10点,主题为《2024是RAG的爆发年吗》,形式为线上闭门讨论会,详细的下一期内容和报名形式请见文末的阅读原文。
本期讨论会参与者:
潘胜一老师,Shulex算法合伙人,专注出海LLM客服,服务安克、公牛等全球标杆客户
智权老师,探迹算法负责人,国内领先营销服一体化解决方案,在AI电销领域投入多年
以及一位来自头部互联网公司的资深客服产品负责人
LLM现有对客服质量提高主要体现在构建知识上
体现AI客服构建差异主要有几个点:构建的速度和质量,以及AI将答案吐出去的效果和带来的用户体验的提升。
从效果来看,最重要的是工单解决率。解决率的定义一般是AI回复最后一轮后,用户间隔一段时间不再发文就可视作为工单已解决。在不同行业和客户意图下,解决率的差异非常大。
如3C卖家产品的排故相比游戏攻略咨询的解答难度就高很多,游戏攻略咨询可以轻松达到90%+的解决率,但3C排故解决率做到70%就很难。以3C类的Trouble Shooting为例,目前如果是传统的FAQ Bot,解决率能够达到70%-80%。这是一个比较高的解决率,达成有很多前置关键因素和条件,抛开算法效果优化等,最关键的是FAQ的构建质量。
LLM Bot可以做到在70-80%解决率情况下,比FAQ Bot花费更少的构建精力。在知识更新上,比FAQ Bot更加容易。
LLM可以提高知识构建的速度和质量
传统的AI客服需要花费大量的人力进行业务梳理和交付,需要逐条构建出QA List。而大模型本质上是一个生成模型,只要提供合适的语料和设计出COT(Chain of Thought),就能快速地构建知识。
对于大模型来说,输入来源可能是用户历史积攒的语料、用户网站的帮助中心,甚至之前客服的沟通记录,借助大模型可以快速将知识库拉到不错的基线水平。然后基于这个基线水平,再往上做精做细,从而提升知识的质量。
达到相同的解决率,基于大模型的构建ROI会比传统AI客服高很多。例如,如果都需要达到70%的解决率,之前的方案需要花费很长时间梳理和构建知识,需要设计一套Dialog Flow模板配置,此类的模板可能非常复杂。现在基于大模型方便很多,可以用几百条语料做到过去几千上万条语料的效果。
LLM可以加速FAQ的构建过程,但目前尚不能实现全部流程的自动化,需要行业的专业客服人员介入一起构建。如果客户对回答质量要求非常高,专业客服必须要介入构建的过程。
在大促和上新快的场景应用大模型构建尤其方便
传统的AI客服构建方法提供知识库给商家,商家按照知识库模板,商品粒度加上每个商品下面挂FAQ的方式构建结构化知识库。例如,一万个商品乘以每个商品对应的上百FAQ,FAQ的整体数量就会到百万级,整体量级太大造成非常难维护。在每次上新和活动期间,也都需要人工去动态配置。
LLM将传统非结构化知识变成结构化知识的过程跳过,可以直接基于非结构化知识进行构建。可以通过更原始的生产资料进行构建,例如Excel文档或者DOC文档。
以Excel为例,不同商家和供应商虽然都是Excel,但是表格中每个cell的粒度和内容都不同。行业属性,比如数码行业和服装行业,表格Schema格式不同。传统方法是将Excel转换为FAQ工作,现在可以通过LLM直接消化Excel文件,理解不同表格中的内容的含义以及每个cell的内容,然后就可以通过大模型进行商品信息问答。相当于商家上传Excel后直接基于Excel进行对话,这是工作上的极大简化。
对于很多电商客户来说,运营的时效性要求很高,尤其是大促的时候。不同电商平台的大促活动相关信息更新频繁,大促期间商品的卖法也会有变化,客户很难及时更新传统的知识库,这已经成为不少商户客服运营时候的瓶颈。LLM的出现可以节省人员和时间,在大促期间可以使知识库的更新更加灵活。
在尝试根据图片来构建,但还无法达到商用效果
现在也有一些尝试使用大模型将图片作为输入直接构建问答,依托商品的规格图和说明书PDF等。
这些图片和PDF没有必要翻译成文字,再翻译成FAQ提供给机器人。LLM模型能够在这个领域实现,可以直接通过看图说话。
这里的商业价值非常明确,但从实际效果来看,测试过许多开源模型,目前效果仍然不能达到商用,需要继续打磨。
LLM客服在语言、情绪帮助很大
出海场景上,很多客户需要提供多语言支持,同时需要提供8-9种语言的情况非常常见,LLM天生具备多语言转换能力。在传统的FAQ Bot上,针对不同语言、不同国家都需要重复配置,LLM可以只需配置一次。
特别对于SMB客户,成本不允许其在海外搭建客服中心,对于SMB出海客户的帮助是非常大的。
在不同场景意图下,解决情绪相关的问题也有一定的价值价值,例如在客户投诉意图下,情绪安抚就非常重要。从效果上来看,LLM的效果远远超过过去的NLP情绪识别,在回复上也更加贴合场景。
另外,当LLM识别出用户情绪变得越来越差时候,仍可将其转移到人工客服作为兜底的办法,进一步降低业务风险。
准确性与LLM的关联不大
LLM的方案仍然是进行知识召回,Ranking排序,然后提炼答案。这套体系在FAQ Bot和LLM Bot上差别不大,仍然是传统排序算法。
基于这套方法论后,最终答案是否出现在Top5或者Top10,称之为最终答案的hit rate,这体现了回答的准确性。LLM的工作主要体现在上游的构建内容,和下游的提炼总结、互动。
归根结底,准确性取决于知识库内的知识准不准,准确性的前提是标准答案存在。
LLM客服更容易获得更高的客户满意度
在关注ROI之外,也需要关注客户满意度指标,客户满意度很难直接用财务体系去换算。
例如LLM客服可以更加人性化,在沟通时候让客户觉得更加舒服,增加了复购,满意度本身的价值比较难量化。
在售前环节,LLM也可以提高转化率,也需要从GMV视角去折算成本。
LLM客服的Task Bot需要用到Agent
AI客服分为FAQ Bot和Task Bot,需要用到Agent,目的是解决用户业务查询和办理的需求。
以Trouble Shooting为例,如果排故排不了,需要补单退货,这时需要用户告知AI订单号,才能继续使用接口识别用户进行处理。
许多场景用户可能只能拍一张小票,实际订单号在小票里面,需要通过多模态模型验证订单号,例如现在应用GPT4就可以识别订单号了,就可以把整个流程走完。
因此在Task Agent形态里面,不光Agent非常重要,多模态也非常重要。对于AI客服公司来说,不会去挑战自研多模态这类这么困难的场景,更多是依赖目前领先的商业模型。
Task Bot仍然面临很多技术难点
幻觉在FAQ Bot和Task Bot中都存在,在检索问题和提问问题时候,存在问题未被覆盖时模型开始瞎编的情况,这是所有LLM Bot都会面临的长期挑战,但随着模型迭代,目前看到已经得到了很大幅度的优化。
在业务中,例如售后问题上,需要收集大量信息,去整合信息,并调用大量系统协同完成。以退款意图为例,,需要收集客户信息,包括订单、物流凭证单号等。同时,还需要处理这些单子并进行判责,判断是消费者还是商家的问题。内部还需要串联一系列系统,调用商家后台信息和物流信息,甚至还需要商家和消费者双方的历史信用、交易记录。在判责完成后,可能还涉及打款和结算。
另外,Agent的目的是提高整体的自动化率水平。目前已经有客户上线Task Bot了(例如安克创新上线了Shulex Task Bot),在过程中需要通过邮件来询问用户的订单号和售后地址,中间可能还需要手机验证,每个环节都可能造成流程的中断。这方面的创业软件公司需要摸清楚每个场景下的所有流程,还需要与客户进行甲乙方联调,才能做到好的效果。
电销有很多AI实践,但LLM替换比例仍然比较低
一个完整的销售链路包括获取客户线索、触达联系客户、客户跟进管理。其中联系客户的环节已经有很多AI用例了。AI电销会用AI机器人联系客户,搜集客户意愿以及其他细粒度信息,然后过滤出意向较高的客户名单交给负责增长的销售进行二次触达。
例如探迹在17年就进入这个领域,经历过好几代技术路线迭代,最初采用规则+机器学习的方式。到18、19年,逐渐替换成以预训练+下游finetune的范式。在LLM出现之后,也正在用LLM将某些环节进行替换。
但总体来看,电销应用LLM的难度比Chat Bot难度更大,替换比例也更低。
LLM替换的难点主要在延迟
延迟对于电销来说,影响最为直接。时间一长就会使得用户产生抵触情绪。而通话的效果又会直接关联到客户中间是否会直接挂断,以及能否搜集客户的有效信息。结合销售线索的利用情况,又会直接关联到ROI。
AI客服的延迟有一个经验范围,在900ms-1200ms之内进行回答会比较合适,太快会让客户感觉在抢话,太慢则会让客户觉得回答迟缓很不像真人。
从技术流程上需要ASR(语音转译成文本)→对话模型反馈→TTS。从性能角度来看,TTS已经做了很多优化了,实时TTS不是时间性能瓶颈。甚至过去多数场景是通过FAQ的方式调出提前录制好的声音,节约时间,不需要实时TTS。
那扣掉传输、ASR和TTS的时间,留给模型反馈的时间可能大概在200ms内。这对现在的LLM模型推理都还很困难很有挑战,尝试了各个商用模型都还做不到。
至于Agent也非常适合电销场景,但Agent更加复杂,会增加更多prompt内容和更多的调用LLM次数,导致模型处理的反馈时间更长。
国内AI电销因为各种政策问题,是不能使用OpenAI系列产品的。
LLM在通知类的场景可以承担语音客服
目前在需要互动的电销和客服场景下都还有延迟困难。
但在一些通知类型场景,或客户回访、催收等,涉及的信息密度不高,不需要频繁互动,LLM场景已经可以落地了。
为了降低延迟,也会尝试在可能落地的场景中将Prompt设计得更短,以满足延迟要求。
LLM电销如果技术成熟想象力会非常大
刚刚主要介绍的都是初次触达客户的环节,所涉及的信息不会复杂,在应用的时候AI客服也会避重就轻,一旦遇到难度更大的问题时,会邀请资深顾问联系客户,约定下次联络的时间,将复杂情况留给真人电销来处理。这也是LLM目前最有希望落地的场景。
后续还有更大的场景可以替代,长期目标应该是替换90%的电销工作。在电销过程中,LLM可以作为引导者,通过沟通了客户的需求,推荐产品甚至产品组合,最后给出综合报价。LLM在应用说服客户的时候,也可以结合客户目前的意愿状态,针对性举例过往成功案例。总的来说,是对话逻辑更像真人的销售顾问,能覆盖更复杂的对话问题。
但这个过程还需要Agent能力的长远发展,以及对延迟的要求也会更高。每当延迟进步一点,Agent推理能力进步一点,就可能解锁新的电销能力。
销售流程中的合同环节很难被LLM替代。合同环节绝对不能出错,无论LLM进化得多智能,最终可能都还需要人来把关。但在合同签订之前,所有的环节都有一定的容错能力,LLM都有替代的机会。但整体来看,电销的容错率要求都比客服要高很多,错误积少成多甚至会影响到最后的合同签订环节,客户甚至会认为AI电销某些前后环节有矛盾,最后给人不够专业的印象。
AI电销不能脱离呼叫中心软件
呼叫中心软件的功能很多,不仅包括对话的支持,还有线路管理、预先录制的话题管理和质检等功能,以及工单分配以及AI转人工等。AI在功能层面无法等同于呼叫中心,还是属于呼叫中心的一部分。
呼叫中心软件的供应商有渠道优势,也有语料优势,但缺少技术理解和场景理解。创业公司在做客户案例的时候都需要做很多共创和联调,可以在熟悉的行业里面深度覆盖。
更多的可能还是双方配合。从海外案例来看,包括Five9、NICE、Zoom等也都投资并购或者深度合作了适合的创业公司。
除了电销,LLM更容易应用到获客和分析上
找客户上就很结合LLM。例如探迹的底层就有全国ToB的企业知识图谱,用户其实很难跟复杂庞大的底层图谱进行有效直接的交互,用户需要学习理解图谱里庞大丰富的价值维度,构建复杂筛选条件来找客户。现在通过LLM,可以为两者架起一条以自然语言交互的桥梁。用户用自然语言和对话把用户画像构建起来,通过这种方式进行自动潜在用户筛选。
在海外,也看到了不少创业公司和上市企业,已经通过LLM来完成质检等分析环节,以及将LLM当成实时提词器来使用。
不同行业的行业模板会有区别,早先一般是与头部标杆客户一起以SLG的方式打磨出来的,成为标准化方案后再推广到其他行业客户。
在确立客户的行业方向后,会有基础的意图模板。在构建知识时,输出会自动挂靠到一级意图模板。
业务同学会跟进看知识构建是否有问题,是否挂在正确的分类体系下,然后进行下一步校验。
例如Shulex在实施时会通过真实的对话记录训练集构建知识,然后通过验证集尝试回复真实数据。在真实数据回复完成后,业务同学会进来以行业眼光判断对错。
通过了上一轮验证后,会继续在意图下分部门、品类逐步上线。如果中间出现了问题,那就明确问题来源,继续迭代知识构建,最后达到客户需要的上限标准。
在大模型之前,走完一套流程需要半个月到一个月的时间,有大模型后时间可以压缩到几天时间。
减少对客户经验沉淀的依赖,将很多人的智慧提取成大模型的智慧
很多大公司客服做得好是因为有长期的培训和实践,得到了知识+经验的组合。但也有很多客户的经验是靠口口相传,甚至不同的客服小组有内部沉淀的经验文档但不会跨组分享。
对于经验沉淀较少的客户,过去的AI客服搭建的时候都需要花很多时间去沟通,梳理成合适的FAQ。但现在对于LLM客服可以通过对话记录去提取经验,而不再仅依靠经验文档。
以及在很多的场景,例如退款场景,客服的规则性文档只会讲什么时候不能退款,什么情况是用户的责任而不是商家的责任。但对用户不买账的时候,如何劝服客户却很少有相应的经验规则。这些经验虽然在沉淀的文档中没有,但在对话的历史记录中有案例,那LLM就有机会把很多人的智慧提取成大模型的智慧。
但从历史对话训练上来看,仍然很有挑战性。这是因为客服对话中有大量的重复数据,很多是基于客服的对话模版套用的,如果直接进行训练模型其训练效率就很低。在拿不到一手数据的情况下,如果要基于二手数据去训练,去提取人的经验,不光是销售经验,还是服务经验,形成一个大模型可用的知识库,都很具有挑战性。
明显感到Turbo的成本下降,过去GPT的单条回复成本很贵,甚至超过了部分客户的人工客服成本,成本下调后明显客户群受众变大了。
一般在与客户沟通的时候,都会帮客户算经济账,例如会首先看下他们一年的客服成本是多少。然后如果应用了AI方案,解决率能到多少,能节约多少成本。或者如果明年客户的用量翻翻,能不能在不增加人力的情况下服务弹性的需求,现在更多的客户也能算得过来了。
效果层面略有提升,质量和稳定性没有下降,Function的识别准确性略有提升,延迟也略有优化。
除了成本和效果,另一个关键变化是3.5 Return Type的调整,过去返回经常不是一个严谨的Json格式,需要做数据清洗很多打补丁的工作,现在新版本出来后全部都解决了,对开发者非常友好。
模型选择可以结合商用模型和自研模型
在意图识别环节,如果一开始积累的数据不够,先用通用大模型分类,数据多了之后然后用小型的大模型进行意图的识别。
AI Bot答案吐出来后续处理有几个环节,包括意图的识别、问题的总结、问题的改写、Embeding、召回、合并、排序、知识答案的提炼。在这个过程中,开源的方案和自研大模型是一个平衡使用过程。把最后有挑战的Agent交给商业大模型完成,剩下的一些环节去积累数据逐渐由自研大模型来完成。
在业务跑POC的时候,经常会先用GPT4快速跑通Demo和POC,如果POC验证成立,再投入资源到自研模型中,这样也更节省时间,避免无效投资。
Agent只能适用OpenAI,但分析场景可以用到Claude
需要用到Agent的场景,目前只有OpenAI很好的在原生层面支持Function Call,没法选择。
在分析场景,Claude可以做到200K,是目前Context Window最长的,而且知识性问答也不错,可以使用Claude。
Gemini现在听到的客户Use Case还比较少,可能在多模态上会有场景。
LLM在构建知识的过程中还无法全知全能
很多客户对大模型的效果预期是高估的。比如有客户需要做自动化的提炼,会提供大量培训资料、产品文档、CAD 文档、PDF资料、图片等。
希望通过LLM全自动构建FAQ,但实际上是没法这样实现的,还需要人工配合,是一个Human in Loop的过程。
评论分析里面涉及大量的通用任务,比如分类、标签体系、情感识别、做摘要等等。这些任务一开始用大模型去做ROI不一定高,需要很多次交互才能完成,可能先进行初步的处理,再输入大模型ROI才会越来越高。
客户对LLM
的容忍度也比传统AI客服要低
以前FAQ是运营自己配置的,如果答案错了要不然就是FAQ配置错了,要不然就是模型识别错误,很容易定位原因。
现在应用大模型的话,客服很难讲是识别错误、配置错误还是模型能力错误区分,就会笼统的认为是模型问题,反馈定位的效果会降低。
同时因为很多沟通语法是Pre Train的,不易实时更改,在客户体验上更像一个黑盒。
未来对LLM客服的评价应该有一套新的标准
过去的主要评价标准是意图覆盖率、识别是否准确,归纳到最终指标是解决率。
LLM客服的标准应该夹在人类客服和传统AI客服质检,更多考核其服务态度怎么样,是否有给客户过度承诺。
弱化对于机器的标准,增强对于人的标准,因为LLM的自由度更高了。
第十五期讨论会我们将于1.14上午 10 点举办《2024是RAG的爆发年吗》讨论会。本期讨论会预计为线上闭门形式。
随着Semantic Search、Chatbot以及一系列AI应用的出现,更多的成型产品需要借助RAG来帮助客户更新数据,Finetune等更重的模式已经不能满足更大客户群的需求。所以2024年会是RAG的爆发年吗?
本期讨论会我们邀请了全球领先的向量数据库Zilliz的AI云平台负责人,正在美国创业对标AI时代Elastic的Datatalk创始人,以及公众号土猛的员外同时TorchV的创始人,一起聊聊RAG的发展。
欢迎正在做RAG工具,或者在搭建AI环境时候需要用到RAG的朋友和我们一起聊聊。
如果有兴趣,请点击阅读原文的腾讯问卷报名链接。
所有的讨论纪要,请关注公众号“共识粉碎机”,在功能界面“芋圆子”→“讨论纪要”。
感兴趣加入后续讨论会活动的,请私信后台“微信号”、“工作单位”、“擅长什么AI方向的讨论”。
欢迎加入共识粉碎机的活动讨论群,获取更多活动信息
AI如何颠覆软件:你能为AI打工吗?(全网首篇AI+SaaS万字深度长文)
EP09 如何突破英伟达垄断(万字长文)