其他
听见用户的声音,爱奇艺全渠道用户反馈分析的探索与实践
01
1) 产品运营可从中提取用户典型需求、快速感知用户对新功能/内容的反馈,辅助调整决策;
2) 研发测试可通过反馈快速召回并修复线上质量问题,及时止损,同时反哺线下测试方案。
初期业务线内在处理用户反馈时,面临以下问题:
1) 渠道多数据量大,提取问题成本高。
——反馈渠道包括电话投诉、在线客服、舆情、站内反馈、内部反馈等,对于MAU亿级的产品,每天从各渠道流入的反馈总量在万级以上,人工投入有限,问题暴露量有限,仅能召回头部问题;
——各渠道处理流程相互独立,相同问题各渠道同时跟进造成人力重复投入。
2) 反馈质量参差不齐,增加分析成本。
——各渠道信息采集方式不同,数据的丰富程度不一;
——用户选择的问题分类不准确,表达习惯各异,描述有缺失。
3) 反馈分析链路长,闭环率和时效性不够理想。
——在问题分析、解决过程中,存在不同程度的多角色、业务线间流转与协同,从而导致处理时间长或没有结论;
——反馈携带日志信息量有限,无法进行问题定位,回访接通率低。
4) 缺乏有效的效果评估手段,存在特定问题召回不及时的情况。
业内有两种用户反馈分析的实施思路:
(1)借助外部专业用户反馈服务团队提供的通用能力,旨在掌握反馈量趋势、热点、舆情等大盘信息,在业务层面的分析挖掘较薄弱;
(2)自建用户反馈分析系统,建立一条反馈分析闭环链路,侧重问题的挖掘,以提高用户满意度为目标,主要以自动分类、聚类为基础,通过报警挖掘头部问题,同时根据业务特点挖掘腰部、尾部问题。
鉴于公司的业务特色,爱奇艺测试团队采用第二种实施思路,建立了一套反馈挖掘、分析定位、修复闭环、问题跟踪的全流程标准化处理机制,并提供对应平台能力支撑,通过反馈挖掘算法辅助人工快速获取有效信息,利用自动分析能力快速定位问题,进而提升问题处理闭环率,缩短处理周期,本文将从用户反馈全链路处理的整体框架和各环节关键能力来展开介绍。
02
(1)通过反馈分类分级监控报警保证对头部问题的准确召回,依赖反馈聚类提取报警热点反馈,聚焦到具体的问题现象,降低反馈分析成本;
(2)建立高质反馈挖掘能力,快速识别腰部、尾部问题,尤其强化对单点问题的召回;
(3)具备问题自动分析定位、自动流转的能力,能对处理的闭环率、时效性做有效衡量;
(4)具备平台化能力,人工进行的数据统计及分析可由平台自动化计算得出,处理流程及标准统一。
以下为整体架构,反馈挖掘为基础算法能力,通过平台建设将问题识别、分析定位、修复闭环、效果追踪串联起来,制定过程、结果指标衡量各个阶段的效果。
03
04
1、多级组合自动分类
最初选择Word2vec相似度作为第二级分类算法,以例句库为比较对象,当反馈文本与例句相似度超过阈值,则认为分类成功,但在效果评估时发现,部分反馈文本中心词少、内容长,导致整体准确率和召回率不太理想;经调研和试验发现,fastText的n-gram特性可降低Word2vec丢失词序对分类效果的影响,通过样本训练生成分类模型后,调用预测方法即可获得匹配最大概率的分类及其概率值,因此将fastText分类前置为第二级分类;由于fastText分类过程不透明,无法评估样本质量,所以此环节设置阈值较高,保留Word2vec相似度分类为第三级补充召回。
反馈分类算法应用于业务线监控报警,覆盖小时级、天级、周级等监控时间范围,根据近N个监控周期反馈量/反馈量变化率的平均值和标准差,动态设置业务线分类反馈量报警阈值,避免因业务正常变更引发反馈量变化导致的误报警。多级监控报警在保证头部问题召回的同时,可召回部分腰部问题。算法多次迭代完成后,较原先分类准确率提升40%,报警准确率提升30%。
有了准确的报警后,团队期望能快速识别到报警反馈中的热点问题,将分析范围缩小,通过聚类算法来达成效果,下面将对聚类算法展开介绍。
2、基于时间窗口的增量式聚类
TF-IDF是Single-pass的经典相似度计算方法,将每条反馈当作一个短文本,得到局部时间内所有反馈的空间向量表示,再使用余弦相似度计算向量距离,超过阈值判定为同一类簇。这种计算方式存在一个较大缺陷:空间向量是由每个词的特征权重组成,未考虑词语的相似度,聚类的准确率召回率不太理想。以TF-IDF余弦距离为门槛,计算反馈与已知聚类簇的Word2vec词向量的相似度,超过阈值则判定为属于同一类簇,可以弥补经典TF-IDF计算的不足。结合Word2vec和TF-IDF完成向量化,给词向量增加权重,补充召回中心词相同、功能词有差异的聚类场景。
聚类算法落地在三个方向:
1)监控报警业务分类内部提取热点反馈,确定问题现象;
2)自动识别增量反馈与已知问题是否存在关联关系,相同问题不再重复跟进;
3)反馈实时关联,挖掘小批量问题。
这三类场景因数据集合的特征聚集程度不同,在相似度阈值的设置上有所差别,以满足各准召率需求。如下图所示,为调用反馈聚类关联的系统监控报警,通过监控分类反馈量变化率,发现异常业务分类,聚合热点反馈辅助问题场景复现,并关联已知线上问题降低重复跟进。
反馈聚类为我们提供了一种批量问题挖掘的思路,对于提取监控报警。
对应的问题现象非常有效,但是它对少量或单点问题的召回效果一般。反馈聚类是以内容特征进行数据挖掘,类似地,以其他特征为依据判定单条反馈的质量,理论上可挖掘单点问题。
3、高质量反馈识别
(1) 未登录用户
——场景合理性:对于特定分类的反馈,抽象通用定位分析流程,通过自动定位得出是否异常的结论;定位结果异常,则认为反馈质量高;不依赖用户ID的业务定位无限制,依赖用户ID的可应用于登录用户。
——内容一致性:不同渠道的内容包括图片、反馈描述、系统日志等特征,不同特征之间一致性越高,反馈质量也越高。图片与内容一致性是通过提取图片文字,将图片文字和反馈描述进行相关性判断;日志与内容/图片一致性是提取日志中的专辑或剧集这类关键信息,反馈描述/图片文字中包含日志中的关键信息,则认为内容一致。
(2) 登录用户
除上述方案外,登录用户还可进行历史反馈分析,评估维度包括:内容质量、历史采纳率、反馈频度;其中内容质量从文本质量、图片占比两个方面评估,反馈频度从反馈频率、问题分类的集中程度、反馈的时间三个方面度量,运用层次分析法完成各层的定量计算与结果合并,可挖掘出单点高质量数据。
目前高质反馈挖掘选择的特征有:历史反馈分析、图文一致性、日志一致性、自动定位是否异常、是否形成一定规模的聚类簇等,可根据平台能力灵活扩展,旨在提高尾部或单点问题的召回效率。通过高质量反馈识别标记重点反馈,降低了80%的反馈跟进量。
05
1) 对于监控报警召回的中、腰部问题
监控报警的异常分析以下图6个维度展开,时间分析定位故障时间段,平台、版本判定客户端影响范围,地区&运营商识别区域网络故障,这5个维度可基本完成范围定位;片源聚类从日志中提取反馈时间段内的片源信息,片源聚集量达到阈值则认为指定片源存在故障。
服务端由业务方提供定位接口和关键分析路径,前端可从日志中提取数据特征或业务流程,平台抽象为通用定位流程框架,特定业务问题通过配置快速实现定位逻辑,结果以可视化流程图呈现。
06
2)部分具备自动定位能力的问题或常见问题解决方法转化为智能客服服务内容,辅助用户自行解决问题,降低咨询类反馈;
3)问题闭环后通过站内渠道触达用户,实现整体闭环。
07
08
09
10
想要立刻加入爱奇艺成为我们的一员吗?
爱奇艺计算云招聘中:·分布式储存架构
·深度学习平台资深研发工程师
·Kubernetes 研发工程师
·高级网络研发工程师
等岗位等你来!
关注公众号
后台回复“招聘2”
获取更多职位详细信息~
推理性能提升一倍,TensorFlow Feature Column性能优化实践爱奇艺移动端APP健壮性测试的设计与实践