查看原文
其他

百万标签发布了,这是怎样一种体验?

傅一平 与数据同行 2021-10-16

这是傅一平的第255篇原创



作者:傅一平

个人微信:fuyipingmnb


上周团队将线下的百万标签割接到了标签库,即用户可以方便的在前台进行百万标签的浏览和操控了,这是大数据新的起点!


虽然很多企业都有自己的标签库,或者说是DMP吧,但毕竟不是每个产品经理都有机会让平台承载的标签数量超过一百万,原因很简单,要么没需求,要么没数据,要么没必要。


笔者记得当初打造1000+标签库的时候,也是觉得太多了,但大数据运营几年后,却有了观念的转变,为什么?


1、百万标签是当前趋势下的必然选择


马云说,淘宝上比基尼卖的最好的地区是新疆和内蒙古,显然其是基于特定的商品类别做的统计,对于电商来说,这些数据或标签服务的主要对象是个人用户或是小B商家,但我们面对的客户完全不一样,远远超越了线上电商的范畴:


(1)他们是更挑剔的ToB大客户,非常强势


(2)他们是小B客户,要么没有经历过互联网的教育,要么觉得现在线上流量太贵


(2)他们横跨各个行业,从旅游、金融、交通、政府、零售、第三方再到工业、农业等等,不一而足


(4)他们覆盖线上线下,甚至主要还是线下


正是由于全行业、重线下、小B等的这些特点,使得我们面临的需求非常多变,自身的标签体系面临着巨大的挑战。


“能不能分析下这个商圈的用户特征?能不能看下哪些用户群体更喜欢XX品牌?能不能找到计算机专业的应届大学生啊?能不能给出六洞山旅游群体的洞察报告?”


你会发现这些已经不是简单的用性别,年龄、地域等传统标签所能解决的,即使是电商,号称拥有海量的用户标签,但面向这些客户时估计也是有点力不从心。


大数据运营也有段时间了,笔者有个基本判断,不管未来政策、机制、流程等等如何变化,只要大数据是一个趋势,只要企业需要数字化转型,只要企业需要服务于各行各业,只要企业需要开放合作,从而形成自己的生态,百万标签就是必需的,这是我能最确定的事情。


其实即使是现在,你只要亲身跟客户聊聊,就会觉得这已经不是要不要做的问题,至于说自身行业是否具备打造百万标签的基础,笔者写过一篇行业知识库的文章《为什么运营商大数据变现要搞“行业知识图谱”?》,感兴趣的话可以去看看。


2、百万标签是基于效率和成本的考虑


标签的定义没有行业标准,因此百万标签是否是一个口径上的新说辞,比如新品装旧酒?


技术上讲,一种承载标签的方式是做成宽表,然后一个字段算是一个标签,一般基础标签会使用这种表达方式,比如年龄,性别等,但还有一种承载标签的方式是做成纵表,一般涉及到内容,比如你喜欢的明星,喜欢的歌曲类型等等,由于不可穷举,宽表就显得不合适了(当然现在HBASE啥的数据库也能支撑),因此纵表是比较好的支撑形式。


有人会质疑:假如明星是一个维度,难道喜欢的明星有1万个,就要做1万个标签吗?


笔者觉得需要从客户、成本及知识三个方面去考虑这个问题,要能摆脱技术思维:


(1)客户角度:客户并不关心这些技术上的差别,只关注周杰伦如果来杭州开演唱会,最好有个周杰伦的标签可以来选择,把某个维度做成一个标签的主要理由是客户需要,从而需要作为一个单独的实体来管理,赋予相应的标签要素,这是百万标签的主要驱动力,你会发现金融,教育,视频类的标签很多,意味着这类客户很多。


(2)成本角度:“淘宝上比基尼卖的最好的地区是新疆和内蒙古”,其对应的用户群是否值得做一个标签,还是临时取个数?驱动来自于这类型需求是否足够多,是否有必要提炼出一套规则,从而满足这一系列的客户群提取需求,同时提炼的成本足够低。


笔者想起刚进企业的时候,取数需求一个月也就十几个,靠人工完全顶得住,但后来取数需求突破100,1000的时候,就有驱动力去打造自助取数工具,百万标签也一样,如果现在的客户需求就压垮了模型团队,哪有规模化的可能,我们需要适当的未雨绸缪。


(3)知识角度:研究数据就怕做一个扔一个,缺乏传承,笔者写过很多数据中台的文章阐述过必要性,当行业知识库积累到一定程度,我们就觉得有必要沉淀出一套内外适用的海量标签体系,这一切都是演化的结果。


3、百万标签挑战标签库操控的体验


当标签只有上百的时候,你不需要太关注标签库的使用体验,反正几页就翻完了,但如果标签达到几万百万,这将是量变到质变的开始。


我们自己在淘宝,京东浏览的时候,可能对于其分类目录的设计并无特别感觉,但如果要你自己来设计一个百万标签的目录体系,大概要分多少大类多少子类,你就会觉得挑战蛮大的,因为即使是淘宝,京东的庞大的商品分类体系,对于我们百万标签体系来讲也只是一个子类。


现在的百万标签体系分成两大类:基础标签和内容标签,所以要做这个区分是因为内容标签一般价值密度较低,完全混合将导致基础标签被内容标签淹没,比如你查询一个带有关键词“性别”的标签,基础标签可能就一个,但内容标签带有“性别”关键词的可不会少,比如图书按性别的偏好。


基础标签就是传统的分类,包括个人属性、社交关系、通信行为、线下行为等等,这类标签量不大,几千足矣。


海量的标签主要来自于内容标签,其行业属性横跨求职、房地产、政府服务、生活服务、餐饮、汽车、培训、酒店、教育、健身、金融、出行等几十个,每个子类最深的层级达到7层。


标签目录的设计一般就是通过主流网站获得分类框架,通过爬虫获取目录内容,通过人工+自然语言的方式规整合并,最后得到符合自身实际的标签目录,以下是一个示例,其实没有绝对的分类标准。



标签目录的管理虽然是个巨大的挑战,但更大的挑战来自于在标签库上如何进行海量标签的展示和查询,能让用户快速的检索到自己所需的标签,并且提供强大的组合计算能力,比如基础标签与内容标签虽然存储方式不一样,但客户前台操作要有完全一致的体验,这是一个挑战。


标签选择跟淘宝网站的商品选择使用场景还是有很大区别的,在交互设计上会有所不同,比如商品一般查询到了就一个个放到购物篮,很少有批量选择的场景,但标签更多是基于类别的批量选择,因此,这块交互设计特别重要,比如客户查询了“银行”关键词,可能跳出来几千个具体银行信息,这就需要给出这些银行的归属层级或父层级,方便二次删选,这些都是设计上的细节。


下图示例了基于内容标签“喜欢两岸咖啡的用户”标签与基础标签“校园用户”组合计算的配置示例,你能快速的在1分钟内完成一次配置计算,获得“喜欢两岸咖啡的在校学生用户群”,这是我们需要的效果。




4、百万标签的打造是一个系统工程


在打造百万标签的过程中,笔者最大的感受是,这个工作绝对是个系统工程,除了常规的开发流程,只有在框架管理、需求获取、发布规范、评估规范、运营推广上做到精益求精,也就是要有点工匠精神,才能有做成的可能。


另一方面,标签的量一旦突破了某个限度,其技术和管理的难度是几何级上升的,我能想象出淘宝技术人员到底要付出多大的代价来确保商品浏览的体验。


就拿标签的框架管理需求获取发布规范三项工作来说:


(1)框架管理:数据中台的一个工作就是确保基础模型目录、融合模型目录、标签目录的标准化和规范化,并且能与时俱进,面对百万标签的时候,要求标签运营人员不仅能建章立制,而且能依赖系统将管理嵌入到生产流程中去,千里之堤,毁于蚁穴,这种教训太多了。


(2)需求获取:传统标签库的一大问题就是没有“后劲”,其利用率一般会越来越低,比如1000个标签中有100个有人用已经很好了,可能的原因有两个,一是大环境问题,企业离真正的数据驱动业务还有距离,这个没办法,得一步步来,二是标签运营人员并不能找到一线的真正痛点,比如调研的时候只是简单的听一线人员说,得到一堆的伪需求,然后自己脑补一下。


企业对外价值运营有一个好处就是客户对你的数据需求是真实的,甚至是压迫性的,这个时候缺的可能就不是需求了,而是提炼标签的意识。


(3)发布规范:当标签达到百万的时候,一定是要能在没有任何培训的前提下让业务人员学会自己使用,初期的标签运营靠宣传、培训、运作可能有点作用,但到了百万标签肯定不行,务必让业务人员能一眼看懂这个标签到底是什么意思,有多大的价值,到底如何使用。


这对标签库的体验提出了很高的要求,从标签命名、业务口径、优秀案例、使用方法到效果评价等不一而足,就好比是淘宝网上的商品介绍一样,但其实要求更高,其实我们当前也仅能在标签发布的时候做到管控住命名及业务口径,而且还经常出现问题。


这让我想起了爱迪生的故事,1880年他就已经发明了电灯、发电机、电力、电动机,各个工厂直接就可以用电力干活,但是爱迪生很困惑,我什么都给你们搞好了,你们为什么不用呢?到1890年,美国工厂使用的动力之中,只有5%使的是电力 —— 绝大部分工厂还在使用老土的蒸汽动力。甚至到1910年的时候,企业家新建工厂还是优先选择蒸汽动力。


电力这么好,那工厂为什么还不赶紧用呢?根本原因在于,当时的企业家还在像使用蒸汽机一样使用电动机 —— 只不过是把电动机接到原来蒸汽机那个位置上而已。他们根本不知道电动机的正确用法。后世的经济学家评论说,要想发挥电力的优势,你工厂的整个生产架构和工人的生产方式都必须另起炉灶重新设计才行,你得让生产围绕“电力”这个核心运行。


我们要等待成熟的不是一项技术,而是一个系统,百万标签也一样,它特别需要一个配套的系统,才能发挥出真正的价值,而这个系统的打造,则需要一大批极具匠心的工程师,而这显然不能一蹴而就。


吴军在最近的《谷歌方法论》一期中提到,Google在工程上,严格要求每一个细节,比如,一段代码如果多了一个空格或一行超过80个字符,都不允许提交,而一个程序员的变量名起得不好,就更不能通过评审了,学过编程的人都知道这些小问题不影响程序运行。


笔者深有同感,当看到一个标签名字被叫作“性别2”的时候,你能想象这是怎样一种体验,你就能理解为什么还有那么长的路要走?


百万标签,仅仅是个开始,如果我们心中有个大数据的梦想,希望团队加油,业界的同行加油!


注:每周我将会挑1-2本我读过的书或文章进行推荐,优先大数据、人工智能类,欢迎选读!



作者:傅一平 (微信号:fuyipingmnb)




好书或文章推荐(每周我会挑选出1-2本好看的书或文章进行推荐)


《你的知识需要管理》田志刚 一本有点老的书,但笔者喜欢它的体系,学习知识、保存知识、知识共享、知识使用及知识创新。



《谁想成为百万富翁》 万维刚精英日课第一季新手读书容易犯一个特别单纯的错误,以为既然已经开始了阅读,那就无论喜欢与否都尽可能把书给读完,好像没读完就对不起作者似的。其实不存在什么对不起。在这个注意力非常短缺的时代,就算你只看一眼,你就已经非常对得起那个作者了。


科文每读十本书,只有一本是从头到尾读完的。我以前看报道,有个记者曾经目睹过科文读书。科文带着一大摞新书在机场等飞机,一边翻书一边跟记者聊天,两个小时过去飞机快起飞了,科文也翻得差不多了。他留下一两本,把剩下的一大摞书都丢给了记者:你要感兴趣你就拿走,你要不感兴趣就直接扔了吧。




可能错过的近期精选文章(点击链接即可阅读)


从芝麻信用分透露的详细数据设计,我们能从中得到什么启示?

如何避免成为一台取数机器?

哪些广为人知的数据挖掘案例其实是一地鸡毛?

数据的价值到底如何评估?

为什么我提交的数据分析报告总是被领导K?

我如何用统计学指导自己的生活?

从吴军的“算法的油水就那么多”说起!



一起成长,让我们与数据同行

忙完工作,偷得浮生半日闲,讲述自己的数据人生

大叔/电信博士/500强央企/大数据/人工智能/统计取数/数据挖掘/数据产品/数据管理/数据仓库/数据变现


视频 小程序 ,轻点两下取消赞 在看 ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存