如何避免形式主义的用户画像？

Original 2016-10-25 北冥乘海生 计算广告

点击顶部蓝字"计算广告"关注我们

最近，频繁遇到各类公司找我交流“用户画像该怎么做”这个问题。什么是用户画像呢？就是根据某个人表现出来的网络行为，猜他是男是女，挣多挣少，孩子多大，乃至要买什么东西这些背后的特征。

用户画像，是大数据三百六十行居家旅行、装逼煽情必备的概念，它还有个类似的概念叫受众定向。个人觉得，“用户画像”这个词听起来更加关注人口属性、生活状态这些基本静态信息，这多少有点误导：我们重点关注的，往往是某用户“最近要不要旅游”、“准备买多少钱的车”这样能驱动直接效果的动态信息。从这层意思上说，用“受众定向”更加准确。

俗话说，画龙画虎难画骨，知人知面不知心。为什么知人心这么难呢，道理很简单：猜对了也好，猜错了也罢，都是一头雾水，并没有可靠的正确答案（术语称为“Ground Truth”）。对此，白居易老先生早有教诲：周公恐惧流言日，王莽谦恭未篡时，向使当初身便死，一生真伪复谁知？

用户画像，跟这个也有点类似。比方说，你把某人标成“足球爱好者”，对不对他自己都不一定拿得准。就拿中国足球事业的革命家、教育家高俅同志来说，他到底算“足球爱好者”么？恐怕答案是见仁见智的。因此，先要给大家解放下思想：除了性别、年龄这些有明确答案的标签，其他大多数兴趣标签，探讨其“准确程度”是没有意义的。

从技术层面看，用户画像的过程比较乏味，感兴趣的朋友可以参考《计算广告》一书。我们今天来讨论一个看起来最简单、却最难以把握精髓的环节：如何设计用户画像的标签体系。

什么是标签体系呢？简单说就是你把用户分到多少个类里面去。当然，每个用户是可以分到多个类上的。这些类都是啥，彼此之间有何联系，就构成了标签体系。标签体系的设计有两个常见要求，一是便于检索，二是效果显著。在不同的场景下，对这两点的要求重点是不同的。笔者见过很多做用户画像的产品经理，往往醉心于设计一个伟大、光荣、正确的标签体系，这往往是形式主义的调调儿。

一般来说，设计一个标签体系有三种思路：

一、结构化标签体系。简单地说，就是标签组织成比较规整的树或森林，有明确的层级划分和父子关系。结构化标签体系看起来整洁，又比较好解释，在面向品牌广告主开喷时比较好用。性别、年龄这类人口属性标签，是最典型的结构化体系。下图就是Yahoo!受众定向广告平台采用的结构化标签体系。

不过，实践当中即使是面向品牌广告主，售卖非人口属性的受众也存在很大困难，原因又回到文章开头说的问题：这些标签从原理上就是无法监测的。

二、半结构化标签体系。在用于效果广告时，标签设计的灵活性大大提高了。标签体系是不是规整，就不那么重要了，只要有效果就行。在这种思路下，用户标签往往是在行业上呈现出一定的并列体系，而各行业内的标签设计则以“逮住老鼠就是好猫”为最高指导原则，切不可拘泥于形式。下图是Bluekai聚合多家数据形成的半结构化标签体系。

当然，标签体系太过混乱的话，投放运营起来就比较困难。因此，实践中往往还需要对一定程度的结构化做妥协，除非整个投放逻辑是机器决策的（比如个性化重定向）。

三、非结构化标签体系。非结构化，就是各个标签就事论事，各自反应各自的用户兴趣，彼此之间并无层级关系，也很难组织成规整的树状结构。非结构化标签的典型例子，是搜索广告里用的关键词。还有Facebook用的用户兴趣词，意思也一样。

半结构化标签操作上已经很困难了，非结构化的关键词为什么在市场上能够盛行呢？这主要是因为搜索广告的市场地位太重要了，围绕它的关键词选择和优化，已经形成了一套成熟的方法论。

面向品牌的结构化标签体系，设计的好坏似乎并不太重要；而彻底非结构化的标签，也没有太多设计的需求。产品狗们碰到的难点，往往是如果设计合理的半结构化标签体系以驱动广告的实效。这里面最关键的诀窍，是深入研究某个具体行业的用户决策过程。

站在上帝造万物的视角，以电视台分频道的方法将用户分到“财经、体育、旅游、…”这样的框框里去，其实并不难，也没有太大意义。真正务实的思维，是不要关注那么多的行业，把目光聚焦在你目前服务的客户类型上。本来嘛，你接的都是电商客户，关注教育行业用户分类有啥意义呢？

在确定了行业之后，要建立该行业的用户标签体系就有点儿挑战了。什么叫深入研究用户决策过程呢？说白了就是要洞彻在这个行业里，用户决定买什么、不买什么的原因和逻辑。我们举几个常见的行业说明此事。

一、汽车行业：先来看汽车行业，是因为这里的用户决策逻辑比较清晰。一个准备购买汽车的用户，首先考虑的因素，一定是价格。有二十万预算，就买不了五十万的车，也不大会考虑十万以下的车。接下来要挑选的，就是车型了。如果家里有两个孩子，十有八九会考虑七座车；要是单身贵族，没准会弄个跑车玩玩。这两项都是比较理性甚至刚性的约束。而在这之后，才是对品牌精挑细选。

因此，汽车行业的标签体系大体应该是：价格—>车型—>品牌，注意重要程度的排序是不能错的。如果从直觉上先考虑品牌、调性，那便是形式主义的思路了。

二、游戏行业：游戏的用户决策过程总体上令人难以捉摸，这是因为它有点儿电影、音乐一样的艺术性特质。而人们对艺术的喜爱，并不是理性的，也就难以总结规律。本人不玩游戏，也搞不清RPG、ACT、SLG、RTS、STG这些类型（不玩你这词儿可够熟的！）。那么用这些分类用做标签体系行不行？这也是形式主义的思路：因为上面的分类只是为了便于游戏组织和索引，并不是用户的决策逻辑。难道一个“RPG游戏爱好者”，会看到RPG就非玩不可，其他的游戏都不屑一顾么？

那么游戏行业就没法做了么？当然不是。要想把游戏的用户标签做好，就要深入到细分的游戏场景中去深入研究。比方说，玩slots（老虎机）游戏的用户，往往经常换不同素材的新游戏，也就是说，将“slots”作为一个用户标签，与用户决策过程是相符的。而喜欢海岛奇兵游戏的用户，对于SuperCell新出的游戏也心向往之，此时“SuperCell”这个品牌就成了有效的用户标签。

三、电商行业：从消费者的角度来看，电商行业其实不能称为是一个行业，而是多个行业的集合。不过对于电商中典型的商品类型，例如服装，用户决策过程其实是相当微妙的：某个女生看了H&M的某款裙子，其实无法推断出她要买裙子，也不一定是对H&M情有独钟，也许仅仅是因为该款裙子某个特殊的造型。在这类商品中，“H&M”或者“连衣裙”都不一定是有效的用户标签。

因此，电商行业的实际做法大家都看到了，基本上不依靠分类，完全以“单品+个性化推荐”的方法构建和使用标签体系。

那么教育行业怎么做？旅游行业怎么做？这篇文章不是教材，无法一一尽述。大家掌握了上面的思路和方法，应该能够自己举一反三。有人会问了，那么是不是每个行业研究透彻以后，给出一个标准的用户标签体系，就可以一劳永逸了么？答案是否定的，这里面有两个原因。

首先，大多数情况下标签体系是开放的，并不存在一劳永逸的列举结果。上面电商行业就是个很好的例子：新的商品、新的产品类别不断产生，不断地研究和调整也就必不可少。

其次，每家公司面向的客户都有自己独特的特点，再加上拥有的数据源不同，只有根据这些灵活调整标签体系，才可能取得最好的效果。比如说教育行业，在整体上研究用户决策过程，可以得到一个通用标签体系；但是如果特别关注儿童教育、考研教育、或者英语教育，显然还要研究更加精细的决策过程和标签体系。

总之，不要以为用户标签体系的设计跟编纂新华字典一样，在案头潜心研究逻辑就能一劳永逸地做好。实际上，这是一项持续进行的、黑手黑脚的实战性极强的产品工作。

还有个小问题：前面我们说了，标签没法衡量准确性，那怎么判断用户画像结果的质量呢？这里要用到reach/CTR曲线。我们以下图为例来说说。

上图是一条典型的reach/CTR曲线：它的横坐标即reach，表示的是某个标签（例如“汽车”）触及到的用户在整体用户中的占比；它的纵坐标即CTR，表示的是该标签的用户在对应类型的广告（上例中为汽车广告）上表现出来的点击率。

为什么会是一条曲线呢？因为我们在做受众定向时，往往会在用户在该标签的得分上设置一个阈值，判断是否是该类型用户，随着阈值设置的不同，reach水平就会变化，相应地CTR也就会变化。这条曲线的最右端，即reach等于100%的点，对应的CTR是该类型广告的平均点击率，这个点跟模型无关，是固定的。而随着reach的降低，一般来说CTR会对应提高（当然这一点没有理论上的保证）。一般来说，两条reach/CTR曲线相比时，整体处于上方的曲线有较好的定向性能。

每个产品经理，都要好好理解一下reach/CTR曲线，从思想根源上破除“标签准确性如何”这样的疑问。

所有参与到用户画像工作中的朋友，在开始写第一行代码，设计第一个产品之前，本文的内容都值得好好读一读，因为关于这些问题的错觉与误解，实在是太多了。如果您觉得本文有价值，那就转给更多的朋友看看吧！

公众号文章精选：

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！