卧槽!用户画像详解。
The following article is from 数仓宝贝库 Author 汪雪飞
大家好,我是小五🧐
之前我们分享过对于用户画像的认识(点击蓝字查看前文),其中包括如何理解用户画像,为什么需要用户用画像,以及在建设和应用用户画像过程中总结的方法论。
▲图1 用户画像的概念
在大数据技术已经广泛应用于各个产业的今天,通过大量的数据塑造,筛选用户,建立产品的专属用户画像供产品经理和运营人员优化产品和服务,已经成为业界非常推崇和认可的应用方式。
那么,我们该如何建立用户画像呢?
1)用户画像的数据源
用户画像的数据源主要分为两种:一种是用户属性,另一种是用户行为。用户属性主要有两个来源:设备自有的客观被动信息(如设备型号、应用版本、地理位置等),以及用户主动登记的信息(如产品交互中提示用户选择的个人登记信息)。而用户行为类数据多为用户运营提需求,研发人员埋点(标记用户交互行为),在用户发生交互行为后统计点击或其他交互数据得到的。
了解了收集方式,下面来看数据源的具体类型(见图2)。
▲图2 用户画像的数据源
从前面举的例子中可以看到,在大数据技术出现之前,无论是小区保安还是朝阳群众,其信息库的建立基本依靠口口相传或者人工记录。不过,即便是通过这种原始的数据记录方式所得到的有限数据源都能有一套自己的模型,可见对数据源的整理和关联具有非常重要的作用。
和原始的数据记录方式相比,如今的互联网产品收集数据要容易得多,产品经理和运营人员都不会太担心数据的来源问题。用户使用一款产品,从注册到登录再到点击,我们就已经能够收集到非常多的用户数据了。哪怕产品依托于其他的大平台,平台也会提供已有的海量数据,在此基础上,我们还可以依据自身产品的特点进一步进行用户数据的收集。以常用的平台产品微信公众号为例,它的后台提供了多维度的用户数据和简单的分析(见图3)。
▲图3 微信公众号后台用户分析模块
2)用户属性
数据源有客观数据和主观数据之分,其中用户属性属于客观数据。自然属性、商业属性、垂直属性、标签属性这些都属于客观数据,而用户行为和行为关联则属于主观数据。将用户属性和用户行为这些零散的数据输出为可用、可视的数据模型,用户画像就建立了。
自然属性
我们常说的80后、90后、00后是根据年龄划分的部分人群,在这些称谓的后面一般会紧跟这些人群的一些特征。这就属于依据自然属性来对人群进行划分的分类方式。
一般来讲,自然属性指的是一个自然人的基本属性。图4列出了依据自然属性划分时常用的参数。性别属性是使用较为广泛的标签,不同性别的人群对于不同内容的喜好会有明显不同。而通过年龄、地域、学历、职业、婚姻状况、子女状况等自然属性标签,比较容易分析出一个产品用户群体的基本占比情况。不同产品所关注的点在这些自然属性里基本都有迹可循。比如目标用户是针对年轻人群体的,可以通过年龄属性看到自己产品目前的年龄层占比情况;而目标用户是妈妈群体的,可以通过婚姻状况和子女状况来判断这部分用户的占比情况是否符合预期。
▲图4 依据自然属性划分的基本参数
商业属性
商业属性也是一个比较重要的属性类别,依据商业属性划分的基本参数如图5所示。
▲图5 依据商业属性划分的基本参数
自然属性可以帮助我们确定是什么样的人在用产品,而商业属性则能帮助我们判断有多少用户可能在产品上消费,以及他们的消费意向、消费周期、消费频次。产品良性的商业化是其长线发展中不可或缺的因素,因此单独分析产品用户的商业属性是用户画像中十分重要的组成部分。
垂直属性
自然属性、商业属性都是比较通用的属性,无论何种类型的产品都有分析这类用户属性的需求。而不同类型的产品还有一类专属于产品自身的垂直属性。在相对垂直的产品里,除了通用的用户属性,还有哪些值得关注的用户垂直属性?图6以旅游产品为例,列出了依据垂直属性划分的示例参数。
▲图6 依据垂直属性划分的示例参数
旅游类产品的最终目的是向用户推荐更多的旅游类内容或服务,促使用户消费,而知道用户在旅游方面有哪些属性有助于用户运营采用针对性的运营手段。其中的属性数据可以通过用户的航班信息、不同类型的行程等信息得到。
标签属性
除了用户固有的客观属性,还有一种属性是运营本身赋予用户的属性——标签属性(见图7)。当一个用户开始使用产品、产生第一条数据的时候,用户运营就可以赋予其第一个标签——新人。之后随着产品用户的累积,逐渐可以分出低频用户、活跃用户、高频用户。如果是有增值服务的产品,还可以根据用户购买增值服务的情况分出VIP用户。
▲图7 标签属性示例参数
用户属性是在产品初期用户行为数据还不够丰富时分析用户的关键数据。需要针对不同的用户类型给出不同的运营策略。从以上4种用户属性可以看出,它们并不是单一维度的数据,而是由多种属性整合得到的用户数据集合。这个数据集合产生关于用户属性的画像,指导着产品经理和用户运营。
3)用户行为
相比用户属性,用户行为的数据更为个性化。用户行为的参数主要分为两种:一种是行为类型,另一种是行为来源。图8中分别列举了与用户行为类型和用户行为来源相关的参数。
▲图8 用户行为参数
行为类型
行为类型可以帮助我们定位产品中最受用户关注的内容和服务。我们在使用一款产品时会自然地做出一些行为,比如浏览、搜索、点击、收藏,在使用体验较好时,还会进一步做出互动行为,比如点赞、评论和分享等。在建立用户画像模型的时候,可以为以上行为设置不一样的权重值。将这些权重值汇总起来就可以定义一个群体的用户特征。
举个例子,在上述行为中,浏览、搜索、点击都属于基础用户行为,可将每一个行为的权重值设置为1;点赞、收藏则属于较深层次的用户行为,可将每一个行为的权重值设置为2;评论、分享属于交互较深的行为,可将每一个行为的权重值设置为3。那么,结合用户属性我们可以看出,属性A(浅度用户)的用户在用户行为上权重值是B(轻行为),而属性C(深度用户)的用户行为权重值是D(重行为),由此可以组成一套模型,来针对不同属性的用户进行个性化运营,目标是将更多A类用户转化成C类用户。
行为来源
行为来源可以帮助用户运营分析从不同渠道来的用户是否有共同特征或特殊偏好。一个产品往往有多种用户渠道,那么用户是从哪里过来的?是产品首页、活动页、公众号、推荐、邀请链接还是广告转化?行为来源提供了重要信息,对每一个行为来源做好标注,在拿到来源数据后进行进一步的行为关联,就可以得到一个完整的用户画像。
行为关联
用户属性与用户行为的关联是建立模型的基础。以用户ID为核心,从来源到属性再到行为进行关联,并根据自身产品的情况设定不同的权重(见图9)。通常将用户在产品中最核心的交互点的权重值设置得最高,通过筛选可以迅速找到最活跃的核心用户群体,并将次活跃的群体向活跃群体转化。
▲图9 用户行为关联
1)数据清洗
与数据相关的工作听起来是偏技术的工作。确实,对于海量数据,人工整理效率很低。然而前面提到,运营人员要进行高频的用户分析,但通用的建模时间长,流程长,比较难个性化。可以从数据平台中进行抽样,在特定时期抽取随机样本,再根据随机样本估算出用户画像的大概分布。这样做虽然会有一定的偏差,但具有实际指导意义。
所谓数据清洗,主要指的是将冗余、无效的信息剔除。当渠道来源比较杂的时候,部分用户在留下数据时想要隐藏真实信息,这就可能会出现0岁或99岁这样的极端值。我们应当将这种极端值从样本中移除,并据此做一些修正,用修正后的数据建库。
2)建库与映射
将清洗过的数据梳理成不同维度的队列,输出成标签,再将标签与用户ID进行映射。其中用户ID有唯一的标识码。基于这个标识码,将用户的所有属性和行为抽象为不同的标签,再根据标签与用户ID的映射将用户进行聚类,进行模型输出。
通过数据清洗、建库与映射、模型输出,我们可以得到满足分析需求的用户画像。对于产品经理和运营人员,最终呈现出来的可视化画像一般如图10右图所示。大数据层面的画像维度更多,可信度也会更高。
分析图10所示的用户画像,我们能得出什么结论呢?在性别上,男性用户占比56%,女性用户占比44%,可知这款产品的男性用户占比高于女性用户;在教育程度上,使用这款产品的用户中本科及以上人群占比为42%,可知这款产品面向的人群学历相对较高(相比全网网民教育程度);在年龄上,18~35岁人群占据了60%,可知年轻用户是这款产品的主要消费群体。
▲图10 用户画像模型示例
3)标签化模型输出
大致判断出用户属性特征后,再看一下用户的转化消费来源。在消费来源中,转化占比最高的是分享链接,次高的是搜索,与之接近的是某个促销页,最低的是信息流。这就给出了这款产品的画像——以教育程度较高的男性为主的年轻群体,且该用户群体喜欢通过分享拉新的产品。
本文详细介绍了用户画像的建立方法和流程,相信会对各位运营人员发现挖掘用户特征有所帮助。在运营工作中,我们又应该如何具体应用用户画像,从而有效提升用户增长空间呢?关于这部分内容本文不展开讲,如果您对此感兴趣,推荐您详细阅读汪雪飞老师的新作《用户运营方法论:入门、实战与进阶》。
本文摘编于《用户运营方法论:入门、实战与进阶》,经出版方授权发布。(ISBN:9787111703754)转载请保留文章出处。
关于作者:汪雪飞,资深互联网产品和运营专家,百度搜索产品部高级经理,从事运营工作10余年。在内容运营、用户运营、渠道运营、产品运营等领域均积累了丰富的实战经验。
▲长按识别二维码了解及购买
推荐理由:百度资深产品和运营专家10余年经验总结,凝聚猫扑、小米、百度用户运营精髓,产品和运营双视角,9维度全面展开。
推荐阅读
点击这里,阅读更多数据文章!