查看原文
其他

干货分享 | 万字长文讲解如何基于智能推荐的精细化运营

文本智能处理专家 达观数据 2022-09-16


导读

本文整理自达观数据联合创始人于敬 4 月 19 日的直播公开课——《基于智能推荐的精细化运营》。



首先简单介绍下我们公司。达观数据是中国文本智能化处理领域的领军企业,曾先后获得国家级高新技术企业、上海市科技小巨人企业等称号,是中国文本智能化处理领域的准独角兽企业。总部位于上海浦东软件园,核心团队由来自于BAT的顶尖技术专家组成。


在文字语义自动化处理领域,达观数据已经获得100余项发明专利和软件著作权,荣获中国人工智能领域最高奖“吴文俊人工智能奖”,曾获得国际计算机学会ACM、CIKM、KDD算法竞赛全球冠军、EMI Hackathon伦敦竞赛冠军。


达观已经成功为数百家政企提供各种文本的自动化处理软件,包括文本处理、搜索推荐、知识图谱、OCR、RPA等功能,大幅提升客户运营效率,获得客户广大好评。



本次分享主要包含以下四部分内容:


  1. 精细化运营和智能推荐概述

  2. 达观推荐流程及相关技术

  3. 智能推荐赋能精细化运营

  4. 客户成功案例场景



1


精细化运营和智能推荐概述




1


什么是精细化运营?



精细化运营是一种针对人群、场景、流程做差异化细分运营的运营策略,是结合市场、渠道、用户行为等数据分析,对用户展开有针对性的运营活动,以实现运营目的行为。

  • 从流量角度来说,就是让流量价值最大化;

  • 从用户角度来说,就是“看人下菜” / “见人行事“,为用户提供专门的定制化服务。

运营的形式有很多种,常见的有用户运营、内容运营、活动运营、社群运营、产品运营等,这些运营方式的本质主要是围绕对用户的运营,因为企业生存的基础就是用户,企业的利润最终直接或间接来源于用户。


精细化运营主要关注投入产出比,它运营的粒度更细,能更加精准地根据用户兴趣、内容特征、活动状态等信息进行数据化的、科学的决策。




为什么要精细化运营?

1


流量越来越贵“人傻、钱多、流量速来”的这种粗放式运营模式早已行不通。

2


移动互联网人口红利逐渐消失随着国内互联网网民数、移动用户数逐渐趋于饱和,增量市场逐渐往存量市场转变。

3


技术的发展逐渐成熟。AI、大数据、云计算等技术为精细化运营提供了技术的支撑。

4


精细化运营的目标主要是追求价值最大化、风险最小化。基于海量数据的不断挖掘,我们可以快速迭代优化产品,使得精细化运营成为可能。可以通过细致的运营行为来提高转化率、运营效率,降低运营成本、运营风险。

以前市场更关注如何大规模并且低成本的获客,现在更多人关注如何提升存量用户的价值。通过借助精细化的运营手段,让用户感受到有温度、有灵魂的产品。




AI时代产品增长策略-AARRR模型

AARRR模型是典型的用户增长模型,从获取用户进行拉新,然后到激活、留存、变现、传播。它覆盖到了用户整个生命周期:

1


获取

用户从不同的渠道了解到你的产品;

2


激活

用户在产品上完成一系列的操作之后,用户通过激活过程和产品有更多交互;

3


留存

用户在了解产品、激活之后也可以经常打开产品,连续不断的使用产品;

4


变现

用户在使用产品的过程中,发生一些可以使你收益变大的行为,进而带来转化;

5


传播

用户通过产品帮助你做口碑效应,带动或引导他所了解的人使用产品。

从上到下来看,每一步都会有用户流失,获取、激活、留存是一个漏斗模型,这个用户增长模型主要是因为其掠夺式增长方式,也被称为“海盗模型”。


AARRR模型


早期PC互联网时代,浏览页面时有各种弹窗广告,用户体验很差。当时主要是卖方占据绝对优势,用户体验处于比较次要的地位。但在移动互联网时代,业界产品同质化现象非常严重,竞争非常激烈,我们也会看到每个产品也会一些马太效应、并存这种问题,这给现在的产品运营带来更多挑战。


AI时代的用户增长模型优先级也发生了变化。当用户来了希望能更多留存,带来更多激活,接着可以带来口碑效应(传播),从而进行转化变现,再去大量的拉新、获客。

       

AI时代的产品增长策略模型





运营本质

运营的本质主要是解决内容和用户匹配问题。从产品形态来说主要有两种方式:主动搜索和被动推荐。当然,还会有各种各样的运营借助大数据分析挖掘的技术,例如千人千面的个性化分发系统。



2


日常生活中的推荐



推荐大家并不陌生,甚至它已经成为了产品的标配,现在打开任意APP都可以看到多种推荐场景——《今日头条》的新闻资讯,抖音、快手的视频,爱奇艺或腾讯上的电影、电视剧,天猫、京东上的商品,甚至打开微博看看好友动态或各种热点……智能推荐已经完全融入到大家的日常生活当中了。



产品标配的推荐系统有各种各样的推荐场景,文本、图片、音频、视频、好友推荐……现在日常我们能看到的各种各样推荐产品,达观都服务过类似的客户。






智能推荐解决的两大问题

1


信息过载问题

用户如何在有限时间内从海量内容中找到自己感兴趣的内容?这变得很有难度。


有时用户并不知道想要什么内容,可能会存在“我有这个时间,我想找自己感兴趣的东西,但是无所适从”的窘境。

2


长尾问题

在移动互联网时代,热门的内容占据了大量的曝光机会,这时候就会带来马太效应加剧,不利于产品良好形态的构建,很多内容没有机会曝光给感兴趣的用户。


内容的产生到维护都需要很多成本,对于企业而言是很大的损失。

智能推荐的千人千面智能分发过程,可以很好的解决信息过载和长尾问题。





推荐系统对于用户的核心价值

从用户侧来说,用户期望在需求不明确的时候可以有一个贴心助手,可以从海量内容中筛选我感兴趣的内容,可以在面对陌生领域时提供参考意见。这种推荐其实很多时候有一个自己好奇心的机制,我们在刷抖音的时候,时间在上刷、下刷的不断交互中慢慢过去了。



推荐系统从本质上来说是基于用户反馈来挖掘用户兴趣,进而可以结合内容本身各种各样维度特点和用户偏好进行匹配。在合适的场景、时机,以特定的形式推荐给用户,满足用户实际心理诉求。





什么是个性化推荐

个性化推荐搭起了用户和内容间的桥梁。从用户角度,筛选出喜好的内容;从内容角度,筛选出匹配的用户群;结合用户行为反馈的变化,进行实时分析挖掘、进行实时推荐,保证推荐内容的时效性、多样性,时刻给用户惊喜的结果。



目前主流的推荐场景有首页信息流或卡片式推荐,包括详情页底部的相关推荐等。对于PC页面来说,侧边栏可以放推荐结果。

推荐的形式主要有三种:


1


个性化推荐

类似常见的feed流,常以“推荐”、“猜你喜欢”、“发现”等形式出现,一般放在首页。主要满足兴趣的广度,内容不会太单一,可以保证用户兴趣的广度。做个性化探索,给用户带来持续性、有惊喜度的推荐结果。

2


相关推荐

常以“相关推荐”、“看了还看”、“买了还买”等形式出现,一般放在内容详情页。主要满足用户兴趣的深度,用户进来之后往往想多了解一些相关的情况,可能需要多看一些内容来满足自己的诉求。

3


热门推荐

基于上报的各种数据进行计算,得到的排行榜,支持全局排行以及分类排行等,它可以让用户的逐热心理得到满足。

除了推荐结果,我们还提供推荐理由,它增加了对推荐结果的可解释性,告诉用户是因为什么推荐了这些内容。





评估推荐系统

推荐系统评估一般分离线和线上指标。

1


离线指标

主要分为AUC、RMSE、NDCG等指标,主要用来评估离线模型。

2


线上指标

主要有CTR、CVR、GMV等指标,甚至还有留存率、人均点击、人均时长等指标,这些指标和具体行业与业务场景强相关,一般通过AB测试来完成。



设计推荐系统要以用户体验作为根本,细分包括三部分:功能、效果和性能。

1


从功能来说,尽可能丰富多样化,例如:相关推荐、个性化推荐、热门推荐;

2


从效果来说,要尽可能的好,这样能够带来更多收益的提升;

3


从性能来说,要稳定快速。

另外,推荐的过程要尽可能快速,尽量做到不可感知。在我们应用过程中,良好的推荐性能需要进行全面考虑与平衡,功能、效果、性能三方面相辅相成、互相作用与影响。



2


达观推荐流程及相关技术



达观数据智能推荐已经服务过数百家企业。我们依据客户服务经验,对推荐流程进行了高度的概括抽象,进行了标准化工作。归纳起来,用户和推荐型的交互都是通过类似API来进行交互。


1


达观智能推荐流程



推荐引擎在我们内部进行标准化工作已经抽象为四步:数据预处理、结果召回、结果排序、结果后处理。经过这四步处理之后,最终有一个TOPN结果返回给用户。

             




第一步:数据预处理

推荐系统使用的数据一般包括四大类:物品数据、行为数据、用户数据,外部数据(辅助推荐)。拿到原始数据后,首先要进行数据预处理(异常数据检查或反作弊、NLP相关的文本处理、数据归一化等)。经过数据预处理之后的数据会通过消息队列的方式到不同的地方,比如HDFS、MySQL、Redis等,后面不同的推荐系统模块可以直接调用。

        

     



第二步:推荐结果召回

数据预处理后进行各种各样的离线数据分析,通过构建物品画像和用户画像,结合各种各样的推荐算法进行结果的召回。


达观目前的召回方式主要是以深度学习为主的召回,同时也有协同过滤、隐语义模型,还有基于内容的推荐等。我们有一个算法库的机制,在用户上线过程中,我们会自适应的选择不同的推荐场景自动化的处理,每种召回算法可以召回一定量的候选集。经过召回后,我们从海量的物品列表里面召回用户最可能、最感兴趣的推荐候选结果。


             




第三步:推荐结果排序

有了召回的推荐候选集,接下来我们会使用机器排序模型来进行处理。主要围绕CTR、CVR预估展开。达观的算法模型库支持可插拔操作,根据实际的推荐场景来进行算法模型的预选,然后进行针对性的调优,经过排序模型的处理后,推荐预选集的物品就会有各种各样的预估score,将score从高到低排序后即可得到优先推荐机制。

             




第四步:业务规则后处理

经过排序模型处理后的结果,经过业务规则或运营规则处理后展示给前端用户。在业务规则后处理之后,我们可以生成一个配置好的TOPN结果,基于这个结果可以把TOPN推荐给用户。

             




个性化推荐理由

除了推荐结果之外,我们可以增加个性化推荐理由。个性化推荐理由是基于内容属性、用户行为、用户特征等生成的,分为静态推荐理由和动态推荐理由。个性化推荐理由对推荐结果有更好解释性,可以增加用户信任度,增强用户体验,从而能更好的采集用户反馈,进行更好的精细化运营。

       

     


2


相关技术






NLP技术深度挖掘文本信息

推荐场景有大量文本信息需要处理,NLP相关技术应用对推荐结果会有至关重要的影响。对于客户所在的行业,达观一般会使用bert模型进行文本内容预训练的处理,深度挖掘行业的语言模型和语料资源,确保准确的把握内容语义含义。

             

NLP一般分为字词级、段落级和篇章级处理,主要用于文本信息的挖掘分析,包括中文分词、同义词或近义词的挖掘,内容关联性分析,标签挖掘、摘要提取等,最终对物品文本信息进行全方位的语义理解,为推荐精准度打下坚实的基础。





序列标注

序列标注模型的训练广泛应用在NLP若干基础组件中,比如分词、词性标注、实体识别、信息抽取等。

序列化标注就是把信息抽取问题转化为四种类型的分类问题。时间序列分析的相关思路也可以广泛应用——常用的序列标注模型有隐马尔科夫模型还有条件随机场,深度学习模型Bi-LSTM+CRF等,经过模型的处理,最终可以从海量文本内容里面提取关键的高价值信息。

     






通过Vector Representations进行低维连续空间的字词表示

在2013年谷歌开源一款用于词向量计算的工具word2Vec,引起了学术界和工业界的关注。达观基于word2Vec的相关应用非常普遍。word2Vec可以在百万数量级或上亿数据集上进行高效训练,词向量更好的解决度量词与词之间的相似性,词向量之间的矢量距离也可以体现语义的相关性,并且这个矢量还有一定传递性。

             




Embedding处理

字词向了对于Embedding来说,在各种任务中扮演很重要的角色,尤其深度学习模型在处理文本分析任务中几乎是离不开字词向量,字词向量的生成算法作为一个无监督模型,可以利用海量未标注语料进行训练,然后来捕捉其中的语料关系。

             

达观数据在Embedding主要是三方面的应用:

  1. 基于相似性运算得到物品的标签、标签相关的标签,在推荐时进行更多的召回。

  2. 在item上直接引用,进行相似item的召回计算。

  3. 特征工程主要对基于item和用户来说进行Embedding处理,进行广泛应用在排序模型。




基于知识图谱实现更好的推荐效果

在达观的推荐体系中广泛应用的基于知识图谱的推荐,通过各种构建的领域知识图谱,我们可以进行推荐结果的召回、推荐结果的解释还有排序等相关工作。这部分和专家规则类似,推荐结果准确率往往比较高。另外,我们可以借助知识图谱的推理能力,推荐出一些用户认为惊喜度特别高的内容。


       


3


深度学习算法






DNN

深度学习这个算法广泛应用在推荐系统里,尤其是DNN。DNN是谷歌YouTube这个团队进行了大量的尝试,公开的论文在2016年9月的RecSys会议上发表。DNN的应用主要面临数据规模很大、更新很快切噪音数据比较多的问题,在实践过程中分两个阶段:matching阶段和ranking阶段。

             

从结构上来看,整个模型包含三个层次隐含层的DNN结构,输入用户各种流量信息,还有历时搜索数据、人工统计信息等,组成一个向量,输出主要分线上和离线训练两部分,离线训练一般用的输入层是softmax,而线上直接利用user向量查询,最重要的是在解决问题时我们一般主要考虑性能。





Wide&Deep模型


Wide&Deep模型


Wide&Deep模型在2016年提出,Wide部分是线性模型+特征组合的方式,优点是记忆性好、可解释性强,Wide部分可以手动的进行特征交叉。Deep部分主要是利用MLP实现高阶特征交叉,所以Wide部分和Deep部分经过联合训练,就可以得到比较好的结果。早期在谷歌play上推荐效果获得一定量的提升。Wide&Deep主要是应用在排序模型阶段,就是LTR这块的。





DeepFM


     

DeepFM是在2017年时提出来的,DeepFM模型是在Wide&Deep这个架构基础上,输入层和Wide的部分进行了改进。和之前的模型相比,有两类优势:

1


模型不需要手工构建Wide部分;

2


FNN是把FM的这个隐向量参数直接作为网络参数学习,这样DeepFM可以将Embedding层的结果输入给FM和MLP,两者通过输出叠加,最终可以达到捕捉低阶和高阶特征交叉的目的。

DeepFM模型由于有效结合因子分解集和神经网络在特征学习中的优点,同时也可以提取到低阶组合特征与高阶组合特征,目前已被广泛应用。



3


常见的推荐算法



1


基于内容的推荐算法

除了深度学习之外,内容推荐主要是各种文本匹配的,比如标签相似度到类型的推荐。这种推荐的算法,结果相关性比较好,可解释行比较强,对冷启动问题也有很好的解决,但它是大量的文本进行匹配的,一般惊喜度比较差。对于一些复杂或者稀疏的数据来说,推荐结果不够理想。


2


协同过滤

协同过滤主要分两种,基于用户的协同过滤和基于物品的协同过滤。这个广泛应用了十几年,日常生活也容易遇到,比如“看了还看”、“买了还买”。


  • 基于用户的过滤首先找到和当前用户相似的用户列表,把感兴趣的物品推荐给当前用户,这里主要牵扯到用户相似度和用户感兴趣列表计算。

  • 基于物品的协同过滤通过计算相似物品的列表,把用户偏好相似的物品推荐出来,它主要牵扯到用户对物品的偏好以及物品相似度计算。在实际应用里面,相似度有很多种,我们要考虑热门物品或者冷门物品的影响,包括一些作弊机制作弊数据的防范等,有大量变形。

     

4


排序模型机制



从流程来说,排序模型机制主要包括样本数据的生成、特征抽取、离线训练和评估、模型serving、还有在线评估这几步。目前我们这边使用的离线评估指标主要是AUC,基本上是AUC可以做到0.8以上。



排序模型从线性模型到非线性模型,再到深度模型。我们会结合我们所服务的新闻资讯、视频、商品、金融等领域,有针对性的选择一些排序模型。线性模型一般依赖人工特征工程,非线性模型更好的来进行多特征融合,深度学习模型是各种超参的调优。我们在实际应用中会基于用户实际推荐场景和客户数据进行有针对性的选择。



达观智能推荐有“三级火箭”机制,分为离线、近线和在线三层,离线主要是大数据复杂计算的;在线是高并发、毫秒级的返回推荐结果;近线是进行中间的衔接,它主要保证系统稳定性和灵敏性,大量使用NoSQL、内存计算、卡夫卡等技术。



三层架构分别对应召回、排序、后处理这个标准化流程。离线召回主要是海量数据分析挖掘的算法,比如各种深度学习模型、协同过滤模型等,一般是小时级,生成在千这个维度的候选集。近线主要是对推荐结果进行初排,包括线性的、非线性的、深度学习等各种各样的排序模型。在线可以对近线的结果进行各种业务规则的后处理逻辑,包括强制推荐、时效性、多样性的控制等,主要是内存型的计算,可以在几十毫秒左右生成10条左右的结果返回给用户。


层次推进


从架构来说,通用的推荐引擎会充分理解业务场景。从内部来说,达观服务的数百家客户完全使用一套推荐流程。对于行业或者推荐内容进行高度标准化工作,我们可以根据不同内容、不同优化指标快速完成需求开发、效果调优。



基于海量的数据来说,我们会在推荐里常常遇到冷启动问题,一般包括用户的、物品的、系统的,达观对这几块都有解决流程,比如做高热、专家规则和UCB算法等,都可以灵活调整上线,快速完成冷启动问题的解决,并带来用户体验和效果提升。



我们可以通过多种方式来刻画物品和用户的画像,那么对于用户画像来说,我们一般分为事实标签,模型标签和预测标签,通过用户和物品画像,我们可以全方位的了解自己产品各种内容或者了解我们的用户,最终对于用户全生命周期进行一个精细化运营。



好的推荐产品要有很好的开放性,运营规则、算法调整、效果调优在很多应用不需要停留在改代码阶段。可以让技术、运营、产品经理等角色都可以加入产品化后台进来进行深度干预。通过推荐的各种召回算法、排序过程、后处理逻辑等都可以灵活的通过页面来进行配置,并且我们还有一些效果评估机制,提供相对应的量化指标数据,提供一些数据上的支撑。




3


智能推荐赋能精细化运营




1


推荐内容管理



内容采集、上报到推荐引擎后,可以通过推荐和运营效果进行增删改查操作。同时也可以根据业务需求灵活修改内容的属性,比如标签、分类等。我们提供NLP相关的技术进行辅助,进行打标签或者分类。借助推荐效果,我们可以对物品画像进行精细化评估。


我们也可以进行相应的操作来调整权重。推荐很多时候需要人工干预,各种各样的运营指标需要兼顾,因此达观的推荐后台支持人工设置权重来影响推荐结果的曝光展示,推荐权重越高,被推荐出来的可能性就越大。



基于物品丰富了效果数据的统计,我们支持多条件的筛选、高质量的内容进行重点运营。运营同学可以基于物品列表进行规则筛选,比如效果统计数据。也可以利用物品自身各种各样画像标签,基于自己设置的条件进行联合查询,生成一部分的推荐结果。


生成的推荐结果可以直接应用到精细化运营,不仅进行个性化push,还可以干预推荐结果的生成。转化效果差的内容可以在这里做出调整。通过对内容详细数据的分析,可以为接下来的操作(如内容采购、产品调性运营)提供数据支撑。



2


推荐策略管理



推荐结果本身有大量的召回算法和排序模型需要处理,达观智能推荐做产品化过程时已经内置了数十种常用的算法模型,可以满足绝大部分推荐业务场景需求。



除了内置外,我们也支持自定义的召回和排序策略,这些策略可以由运营手动基于规则来生成,也可以由算法同学自己开发,还可以接入第三方机器学习平台的算法。同时,我们会支持AB测试的评估,通过不断调整召回、排序或者其他处理逻辑来不断迭代优化算法模型,最终达到运营指标的不断提升。



3


推荐效果分析



推荐效果有很多量化指标数据,包括留存分析(次日的、7日的或者月度的)、用户转化漏斗分析(点击、收藏、加购物车、购买等漏斗转化规则可自行配置)、推荐点击的分析、各种策略或算法的下钻分析等。图表结合的方式可以更好地展示智能推荐和精细化运营相互作用的效果趋势变化情况。这些数据都可以下载,方便使用者进行二次分析和加工。




4


用户分群及定向推荐



推荐系统的迭代优化和精细化运营很多都是围绕用户来展开。结合用户的属性、行为数据的分布和用户的心理偏好等各种维度的标签信息可以进行用户群体的划分。可以展示用户列表以及群体画像,针对特定的用户群体可以进行人群的定向推荐,也可以做个性化的push。


同时,冷启动推荐可以进行特别的人工或者算法干预,方便各种角色进行快速的配置和上线,并且可以进行数据分析和评估,对用户进行全方位的洞察。




5


推荐运营管理



不同的场景变化会带来各种各样运营活动的需求:节假日、产品改版、重大运营活动等。智能推荐的结果不仅可以由算法得出,我们可以通过添加时效性、多样性、打散、强制类别限制、去重、相似性控制等运营规则进行灵活干预。


例如资讯类这种首页产品,我们会限定视频和图文的比例。10条内容推荐结果中20%是视频,80%是图文,而且视频是不能连续。这些都可以通过达观智能推荐的后台设置干预项。




6


推荐运营评估



业界普遍采用的推荐运营评估方法是线上进行AB测试。通过在同样产品的场景之下进行不同的流量划分,一部分流量可以作为基础的,另外一部分流量可以进行线上分流测试。观察一段时间之后,查看点击率、人均点击、人均停留时长、购买转化等指标的趋势变化。



达观智能推荐后台支持直接配置流量划分,进行线上效果评估,分流支持多策略,无论是做运营规则还是做算法,可以在同一个场景里做多种流量的分配测试。除了配置流量分流之外,我们还有数据统计的后台。它可以提供各种量化指标,可以看到不同流量指标的明确变化。


从各种原始物品、用户行为等数据的上报,到最后推荐效果指标数据的生成,我们做各种各样的内容运营、用户运营、召回、排序、规则,通过AB分流查看效果,就形成产品运营全封闭的一个生态,形成一个闭环的操作,这样就可以基于这个后台做各种各样的智能调整或者精细化运营的调整。



4


客户成功案例场景



从行业来说,达观智能推荐服务的的客户覆盖了媒体、视频、电商、小说阅读和金融等多个业务场景。市面所有的推荐场景,达观都有相关的优化或者需求开发的实战经验。



服务方式主要包含两部分:私有化和SaaS,两种交互方式可以满足多样化的需求。私有化是把达观推荐引擎部署到客户现场,和客户的产品、业务系统进行适配和调优。SaaS是把推荐的各种数据通过API传到达观的推荐引擎,再通过接口调用达观智能推荐结果。



5


Q&A



1


还有哪些结合业务场景的特别标签呢?

于敬:标签生成一般通过注册数据进行采集,比如年龄、性别、位置等。除此之外,有很多标签需要在实际推荐或者用户运营过程中挖掘的。举例来说,电商场景本身有各种各样偏好,活跃用户、对价格敏感、有明确品牌倾向……还有偏个人的标签,比如商品个性化的诉求(比如买东西看尺寸、尺码)。针对这些信息,我们可以生成一些用户偏好相关的各种各样维度很丰富的标签。


另外,我们会结合用户在达观智能推荐平台上留下的各种数据进行综合筛选,针对性的给用户打上一个标签。这些标签里面有不同的应用场景,对标签的实际维度也有差异。如果你做用户流失的模型,你可能会有各种各样的流失特征。


在做关于活跃度这部分的用户增长模型时,我们会把维度标签和实际数据进行关联,这样就可以结合实际业务场景给用户打不同粒度的标签。要结合实际的业务场景,不同的业务诉求打的标签差异化是很大的。


2


推荐一定需要结构化数据吗?

于敬:未必。我们现在处理的很多业务场景,结构化数据可以推荐,例如关系型数据库里面的数据、商品、新闻资讯等推荐场景。非标准化的数据也可以推荐,比如图片、音视频、文档的推荐场景,甚至我们做的内部的工单类型文本信息的推荐场景。


对于非结构化的数据来说,我们一般根据实际的诉求,可以把它抽象为一些关键的信息出来,然后转化成结构化数据进行处理。当然,如果只是进行相似性处理,比如对文本信息进行相似性推荐,这时未必要转化成结构化数据,可以通过文本方式、深度匹配、语义理解等方式进行推荐。


3


用户分析的标签是人工打的还是自动化打的?

于敬:在实际的业务场景里,人工打标签和自动化打标签是共存的。很多时候自动化的标签有一部分是人工干预的。人工干预会结合自己设置的标签维度,比如价值度分析、活跃度分析、其他的用户模型……和用户实际的维度或者和实际数据有很大关系,这部分需要人工干预;做模型预测时有一部分数据打上标签,需要有个训练样本进行模型的预测;基于各种指标数据的统计进行综合的筛选,生成了标签,这部分标签可以通过人工的方式生成。


还有一部分是用户自动化的打标签,我们通过自己标注的数据,或者通过把物品本身的使用数据映射到用户身上的方式,都可以完成用户自动化打标签。


4


做好精细化运营需要做好哪些准备?

于敬:精细化运营是个闭环的操作。最开始有数据流准备,大量运营的前期调研。调研完成后会拿到对应量化效果数据的评估指标,运营结合评估指标和实际的诉求来制定运营活动。做好运营活动后,进行上线评估验证效果。接下来,通过这个效果反馈发现并分析运营活动的问题,通过分流、效果评估,生成闭环的机制。


所以精细化运营需要做前期的分析调研。前期需要采集丰富的数据流,还要确定一些量化指标,例如运营活动的预期、面向的用户群体、预期的收益等。




ABOUT

关于主讲人



于敬:达观数据联合创始人,中国计算机学会(CCF)会员,第23届ACM CIKM Competition竞赛国际冠军,达观数据搜索推荐组总负责人,工作包括推荐系统的架构设计和开发、推荐效果优化等。同济大学计算机应用技术专业硕士,承担公司重大紧急项目的架构设计和个性化推荐研发管理工作。曾先后在盛大创新院、盛大文学和腾讯文学数据中心从事用户行为建模、个性化推荐、大数据处理、数据挖掘和机器学习相关工作,对智能推荐、机器学习、大数据技术和分布式系统有较深入的理解和多年实践经验。




相关阅读





戳阅读原文,获取公开课资源礼包!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存