一个数据人的自留地

其他

标签评分:海量标签如何进行系统治理?

数据人学习平台上线了:www.shujurenclub.com作者介绍@muyan数据产品经理;负责过智能标签、指标管理、算法平台、数据服务平台、数据分析平台、数据埋点采集等多款数据产品“数据人创作者联盟”成员。
其他

思考产品架构的4个视角:业务、场景、数据/功能、实现

点击上方“李宽wideplum”关注公众号点击发消息,回复“微信”,加我的个人微信我们今天以AIoT为例,来聊一聊思考产品架构的4个视角:业务、场景、数据/功能、实现
2021年12月22日
其他

自如用户画像平台建设实践与营销应用

“知己知彼,百战不殆”,使用用户画像进行精细化营销,帮助企业降本提效,乃是大势所趋。02人人都要懂用户画像企业发展的核心在于以用户为中心,服务好用户,聚焦核心,才能走向正确的方向。例如,Google
2021年11月2日
其他

标签体系

业务偏好标签业务偏好标签,用于描述用户的偏好业务内容,根据公司业务不同,划分不同的分类,通常电商行业业务偏好类标签包含运动户外、数码家电、食品保健等,其他行业的业务偏好标签根据实际业务而定。
2021年9月9日
其他

数据人该知道的埋点体系(一)

关注微信公众号:一个数据人的自留地作者介绍杭州@阿坤母婴电商行业数据分析师兼数据产品经理致力于研究电商行业的数据驱动增长以及数据产品从0到1的搭建“数据人创作者联盟”
其他

一篇文章让你掌握企业画像

SimbaIBM资深商业分析师。IT老兵。终生学习者。“一个数据人的自留地”创作者联盟成员。0101前言前一阵子在[一个数据人的自留地]群里发了一个问题:对于to
其他

如何在数据中寻找Aha时刻

predictive,即强相关。图表右下方,Amplitude还会直观的显示出做过关键行为次数>=2的用户和新用户的留存曲线对比。该例中,做过关键行为次数>=2的用户的留存率明显高于新用户留存。图5
其他

手把手教你做用户画像体系规划

草帽小子动漫《海贼王》狂热爱好者~数据产品经理一枚~用户画像等系列文章作者乔巴:公司领导让我规划用户画像体系,我之前从没做过,现在感觉就像丈二和尚摸不着头脑。用户画像体系规划是怎样的?整个画像体系有哪些模块?在实施过程中先做哪些,后做哪些?需要哪些人来参与,协作流程是怎样的?有没有一些模板可以套用?
2021年3月17日
其他

如何构建用户画像系统?看这一篇就够了!(建议收藏)

关注微信公众号:一个数据人的自留地1、回复“画像系统”,获取60页画像系统PPT资料2、回复“数据产品”,获取3、回复“商业分析”,获取4、回复“交个朋友”,进入乔巴:我是一枚半路转行的数据产品经理,现在大数据火热,所在公司想搭建画像系统,但自己对用户画像没有概念,对画像系统是怎样的架构,有哪些常见的功能等事项全然不知,真是困煞我也!索隆,会心一笑,言道:产品经理就是为了解决问题而存在,解决问题要一步一步来,想掌握画像体系可以先了解标签体系、OneID体系等基础内容。然后来细读各个大厂的画像系统是如何搭建的,如微博、百度地图、京东数科、腾讯、阿里等巨头公司的画像系统,正所谓“求其上者得其中,求其中者得其下”。取上再结合实际,才为正道。当然,此项梳理并不轻松,需耗费大量精力。在此我花了2个月时间对其做了整理,并写了一份60页的PPT(关注一个数据人的自留地,回复“画像系统”即可获取),可谓是呕心沥血,相信你学起来必然可以事半功倍~乔巴:cool,我先关注学习一波~索隆:接下来会按如下结构展开:1.V1.0:画像初级版,为画像系统雏形,选取了2015-2017年早期的画像版本,彼时部分公司的画像系统刚刚起步,各方面功能还未探索清楚,如百度地图画像系统、微博画像系统;2.V2.0:画像标准版,其基础功能完善,有了一定的分析能力,如神策画像系统、京东数科画像系统;3.V3.0:画像营销版,其进化为营销工具,助力业务增长,如腾讯广点通DMP、阿里达摩盘DMP;01V1.0:画像初级版画像初级版,选取了2015年早期的画像版本,彼时部分公司的画像系统刚刚起步,各方面功能还未探索清楚。例如,百度地图的渠道画像系统的整体设计是,在数据分析/报表系统的基础上加上一些基础的画像元素,如性别、年龄、行业、所在城市等标签数据。此阶段发力于对各业务进行数据分析,如建设了dashboard、自定义报表、订阅,类似BI平台,但缺乏标签体系建设、缺乏洞察等模块,各个画像的功能做的比较浅。
其他

数据应用系列(1)-ab测试

作者介绍前网易出口大数据产品经理一枚负责过数据采集、bi系统、ab测试、画像平台等应用层平台搭建酷爱健身、钟爱咖啡、喜爱摩托、热爱生活01为什么需要ab测试大家在日常工作中是否会遇到以下问题:1)产品经理提出一个竞品没有的功能,即便感觉自己引领了行业,但老版:“这个功能竞品都没有为啥要做?”好不容易说通了老板,到了开发大佬评审时:“这功能对用户好像没用啊,要想说服开发,又要经历一轮苦口婆心,心累!2)新功能经历灰度发版后,上线之后数据增长下跌是否是因为这次功能或策略导致,要想拆分清楚,分析师小伙伴又要经历一次抽丝剥茧3)我有两个想法,但不确定哪个对用户更有效,如何能进行验证……我们每天的工作都要处理各种各样的决策,而人们决策的方式会偏好自己习惯或者熟悉的方式,但往往结论与其相悖,要想以实际效果来驱动业务。这就需要一个科学、并行、可操作的方法来验证每一种策略的可能性,这种方法就是我们今天要讲的A/B测试。近几年来随着用户增长,精细化分析概念的普及,作为核心方法的ab测试也仿佛成为了互联网圈小伙伴们必须掌握的基础技能之一。Google、facebook、linkin、快手、字节等国内外大厂都把ab测试结果作为推动业务发展的基础。但ab测试方法具有一定的使用门槛,对于业务人员需要具备统计学、平台操作等相关知识;对于平台人员需要具备统计学、平台设计、数据采集、系统搭建以及异常问题处理等相关知识,乍一听起来,好像有点难度。别慌,听我慢慢给大家逐一阐述。02ab测试与控制变量AB测试的定义是指为Web或App界面或流程制作两个(A/B)或多个(A/B/n)版本,在同一时间维度,分别让组成成分相同(相似)的访客群组(目标人群)随机的访问这些版本,收集各群组的用户体验数据和业务数据,最后分析、评估出最好版本,正式采用。这条定义有几个关键词,同一时间、组成成分相同,随机访问,目的是尽可能的避免其他变量对实验产生的影响。看完这条定义,不知大家是否有些似曾相识。我们初中上物理或生物课的时候,老师介绍过一种方法——控制变量法。控制变量法是指把多因素的问题变成多个单因素的问题,只改变其中的某一个因素,从而研究这个因素对事物影响,分别加以研究,最后再综合解决的方法。该方法最早被设计出来是在进行科学实验时把多因素问题变成单因素问题来研究对事物的影响,目的是为了减少方差。下面我们来举个例子说明一下控制变量法和ab测试有多么的相似:例1:某兴趣小组做了个实验,研究问题是种子生长情况收到什么因素影响,提出研究假设:种子生长情况是否收到洗涤剂影响,实验设计如下图:研究对象组别操作现象分别放入5粒有嫩芽相同品种的种子实验组A棉花中加入洗餐具用的中性洗涤剂生长收到抑制实验组B棉花中加入洗衣服用的合成洗涤剂生长受到抑制对照组加入自来水正常生长例2:例如某app打算优化一下签到功能,研究签到功能的点击率受什么因素影响,假设:签到点击率是否受到文案的影响,实验设计如下图:组别操作点击率涨幅对照组签到(线上)45.00%-实验组签到有礼53.00%+17.78%实验组签到得奖54.34%+18.53%我们从实验流程角度来看两组实验:流程ab测试控制变量目标签到功能收到什么因素影响种子生长收到什么因素影响提出假设、猜想签到点击率是否收到文案的影响种子生长情况是否收到洗涤剂影响实验设计相同组成成分、相同时间下:1.对照组:展示签到2.实验组1:签到改为签到有礼3.实验组2:亲到改为签到得奖相同光照、相同温度、湿度下:1.实验组:正常生长2.实验组1:加入中性洗涤剂
其他

4万字全面掌握数据库, 数据仓库, 数据集市,数据湖,数据中台

如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天大约有超过2.5亿亿字节的各种各样数据产生。这些数据需要被存储起来并且能够被方便的分析和利用。随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生,如从最初决策支持系统(DSS)到商业智能(BI)、数据仓库、数据湖、数据中台等,这些概念特别容易混淆,本文对这些名词术语及内涵进行系统的解析,便于读者对数据平台相关的概念有全面的认识。1.1
其他

干货 | 阿里/网易/汽车之家画像标签体系

关注微信公众号:一个数据人的自留地1、回复“标签体系”,获取2、回复“数据产品”,获取3、回复“商业分析”,获取4、回复“交个朋友”,进入前言上一篇《阿里/网易/美团/58用户画像中的ID体系建设》,索隆进行了画像体系中的地基建设,ID-Mapping体系的打通。接下来一起探究阿里、网易、汽车之家标签体系搭建方法。1阿里为打破数据孤岛,创造更大的数据价值,阿里设计了OneEntity来提供全域数据与服务。OneEntity体系主要包含统一实体、全域标签、全域关系、全域行为4大类。01标签分类其中GProfile全域标签的分类,将“人”的立体刻画划分为“人的核心属性”和“人的向往与需求”2大部分,具体包含4大类:人的核心属性,可分为自然属性、社会属性。-自然属性:是指人的肉体存在及其特征,是人自出生后自然存在的,一般不会因人为因素发生较大的改变。例如“性别”“生肖”“年龄”“身高”“体重”等。-社会属性:指人在实践活动基础上产生的一切社会关系的总和。人一旦进入社会就会产生社会属性。例如经济状况、家庭状况、社会地位、政治宗教、地理位置、价值观等。人的向往与需求,可分为兴趣偏好、行为消费偏好。-兴趣偏好:是人堆非物化对象的内在心理向往与外在行为表达,是一种法子内心的本能喜好,与物质无必然关系。例如渴望爱情、需要安全感、讨厌脏乱环境等。-行为消费偏好:是人对物化对象的需求与外在行为表达,涉及各行业,与物质世界存在千丝万缕的联系。例如母婴行业偏好、美妆行业偏好、洗护行业偏好、家装行业偏好等。在以上四大类的基础上,我们又尝试根据不同的业务形态进一步细分二级、三级分类。02标签萃取标签的萃取工作包含:数据采集;清洗,去噪声并统一;反复试用并确定最佳算法及模型;为模型选择计算因子并对模型中的每一个计算因子调配权重;产出标签质量评估报告以辅助验收。我们随机抽查了若干个在用的标签,预估工作量和工作周期,一个有价值的标签的萃取,平均耗时2周。慢的主要原因,一是由于萃取流程复杂,每个标签萃取都依赖底层的基础数据,而较少依赖上一层汇总的数据中间层数据;二是大量重复的人力,对应的标签萃取逻辑时可以复用的,包含算法的选择、模型训练和计算因子的加权等,但由于不同人来做,造成了很多重复工作。标签萃取过程复杂,那有什么可以参考的流程呢?首先,数据源层面:建设一套完整的数据源,以OneEntity体系为核心,将OneEntity相关实体及其行为全部串联起来,与存量的标签一起作为数据源。其次,标签计算层面:将标签萃取逻辑沉淀为2种,分别对应到偏好类标签和分类预测类标签的工具型产品的生产过程中,包含计算因子、权重等业务规则、数据样本选择、模型与算法选择等。最后,标签监测层面:沉淀质量评估报告和生产监测、上线等管理流程。当一整套工具型产品上线之后,批量生产十几个同类型标签只需要2天左右,这是因为在补足数据源、确定业务规则、选择数据样本、选择算法与模型的过程中,减少了大量的代码开发与模型训练的工作。在这个过程中,参与的角色也发生了变化,从原本的以数据产品经理、数仓工程师、数据科学家为主导,转变为对业务更为熟悉的业务人员、数据分析师为主导。GRelation全域关系、GBehavior全域行为在此不再赘述,详情可查看《阿里巴巴云上数据中台之道04——解密OneEntity体系》2网易网易大数据融合用户娱乐、电商购物、教育、新闻资讯、通讯等多行业10+产品线,构建起全域用户画像数据,目前总标签1000+,ID量URS、phone、idfa、IMEI、oaid等均达到忆级。01标签分类1.基础标签:性别、年龄、教育背景、生活习惯(早起晚起)、地理位置(POI信息)、职业状况、经济情况(有车有房)、设备信息(手机、运营商等)、会员信息(会员等级)、衍生信息。其中衍生标签,如评估是否已婚,在原由标签体系下没有此类标签,但可通过多个标签进行组合生成新的标签,包含是否有小孩、30岁等条件组合。2.
其他

阿里/网易/美团/58用户画像中的ID体系建设

关注微信公众号:一个数据人的自留地1、回复“标签体系”,获取2、回复“数据产品”,获取3、回复“商业分析”,获取4、回复“交个朋友”,进入前言在《标签构建过程中,如何快速盘点业务及数据需求?》梳理完标签画像体系的业务需求后,索隆开始了对画像体系的整体设计,其中首要遇到的就是用户ID体系的打通相关的问题。公司各业务线ID繁多,数据割裂,如何才能尽可能关联更多的数据,以准确的描绘出一个用户的画像呢?接下来我们来看看索隆通过对界内科技巨头:阿里、网易、美团、58的调研分析,来一步步建立自己公司的ID-Mapping体系的过程。1阿里OneID阿里巴巴作为一家包含多条业务线的公司,如电商、金融、广告、文化、教育、娱乐、设备和社交等领域,数据区域包含国内、国外;数据场景包含线上的人货场钱、线下的人货场钱位置等数据,以及物流、用餐、咨询、影视、出行、阅读、音乐和健康等相关数据。ID类型包含phone、PC
自由知乎 自由微博
其他

用户标签从0到1,我踩了这些坑(入门篇)

各大公司在推进精细化的过程中,无论是技术方还是业务方,都已经从过去粗放的“流量运营”思维,转变为如今人人都在谈论的“用户运营”思维。这时,用户不再是一个个整齐划一的流量,而是有血有肉的个体。
其他

从0搭建用户画像系统(一)之系统五大常规模块介绍

作者介绍酒仙桥@道明学长自如数据PM一只告别野路子,带你探索数据新世界相信很多小伙伴们,从《画像“标签”实操指南》系列文章中,已经get到如何构建清晰的用户标签。标签生产的核心目标,从本质上讲,是为了服务企业的精准营销。而为了更好的服务精准营销,搭建一个可视化的用户画像系统,可以很大程度上降低运营营销的同学们使用数据的门槛,真正将”埋”在数仓底层的数据挖掘出来,转化为有价值的数据资产,赋能企业业务。
其他

标签构建过程中,如何快速盘点业务及数据需求?

关注微信公众号:一个数据人的自留地1、回复“数据中台”,获取2、回复“数据产品”,获取3、回复“商业分析”,获取4、回复“交个朋友”,进入我是要成为世界级大剑豪的男人——索隆
其他

数据产品索隆,标签体系建设流程02

关注微信公众号:一个数据人的自留地1、回复“数据中台”,获取2、回复“数据产品”,获取3、回复“商业分析”,获取4、回复“交个朋友”,进入我是要成为世界级大剑豪的男人——索隆索隆系列篇会记录小白数据产品索隆,在数据中台部门的工作点滴,让我们一起来看看索隆在进入伟大航路新赛道摸爬滚打的历程。
其他

数据产品索隆,坎坷的标签体系建设之路

我是要成为世界级大剑豪的男人——索隆2017年,索隆离开了校园,跟随草帽小子出海,进入伟大航路,从事数据产品工作。他心中一直怀揣着一个成为世界级大剑豪的梦想,并为此不断的刻苦训练着。在数据浪潮的推动下,索隆所在的团队想要0-1构建标签体系。这对于之前毫无画像体系建设经验的索隆来说,无疑是一个重大的挑战。但索隆还是欣然的接受了这个挑战,毕竟构建标签体系还是个很有意思的事情。接下来的篇章会记录小白数据产品索隆,入职某一创业公司的工作点滴,看其在数据产品道路上摸爬滚打的点滴。精细化运营场景下需要对用户画像进行刻画,而要对一个人进行刻画,常见的方法就是描述出其属性,通过各种属性能够还原一个人的行为全貌,相当于一个人的个人简历。
其他

画像“标签”生产实操指南(二)之产出清晰的标签数据需求

作者介绍酒仙桥@道明学长自如数据PM一只告别野路子,带你探索数据新世界上一篇,我们明确了如何进行标签需求分析,画像“标签”生产实操指南(一)之需求分析,今天我们来看看数据产品经理如何将业务语言的需求转化为规范化标签数据需求,让研发能够真正”懂你”。开始之前,我们还是看一下小王的案例:通过上期的方法,小王明确了业务方最紧迫最重要的20个标签需求,并仔细填充《标签需求收集模板》中涉及的关键信息,力图在评审时让研发对需求一目了然。完成表格后,他和研发同学约了第二天进行需求评审,万万没想到这次评审他又翻车了,评审会上,研发同学毫不留情地对他”开怼”:1、
其他

画像“标签”生产实操指南(一)之需求分析

这些标签生产出来后,能够给业务带来什么价值?2、
其他

广告预算分配—Excel规划求解应用

作者介绍@小宇专注流量数据分析,就职过360和58。主要负责流量分析和商业变现等相关数据分析工作。Excel在我们的日常工作中应用极为频繁,也较为基础。但其功能及其强大,里面总是有这样那样的功能是我们没用过、不熟悉的。今天就带大家一起来探索一个分析工具—规划求解,从预算分配应用案例出发,带大家了解这一工具的应用方法。首先,来了解一下规划求解的原理。规划求解可用来计算线性、非线性规划问题,线性、非线性规划问题均为运筹学中的重要分支。线性规划是一种研究线性约束条件下线性目标函数的极值问题的方法。非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。本文主要介绍线性规划求解,即求目标函数的极值,在资源有限的情况如何做出最优的决策?流量采买业务场景下,分配预算求得收入最大化,是日常工作中极为常见的问题。案例场景:老板给出日均10万的追加预算,要求增量采买,整体要求APP激活成本小于5元、投放roi大于等于1.2。目前可增投的渠道A、B、C的投放能力如下:那么我们该如何分配预算才能达到收入最大化呢?此时,就需要应用到规划求解。解决此类问题就像做一道数学应用题,解决方案与解题步骤一致:第一步,审题,明确已知条件和要求解的问题。即明确约束条件和目标函数第二步,列出公式解题。即列出目标函数和约束条件,配置求解。第三步,检查校验解出答案。即根据模型给出的解决方案确定最终决策。01约束条件和目标函数案例场景中需要求解的A、B、C渠道日均分配预算值设定为:X1、X2、X3;总收入设为:Y。根据当前的投放能力和可优化到的投放能力需要进行两次规划求解,从而得出预算分配的决策区间和预期的收入区间。1、现投放规划求解:de约束条件1:整体APP激活成本小于5元(X1+X2+X3)/(X1/3.8+X2/4.7+X3/6.1)=1.2约束条件3:日均分配10W预算X1+X2+X3=0;X2>=0;X3>=0目标函数:Y1=0.98X1+1.07X2+1.41X32、优化投放规划求解:约束条件:(X1+X2+X3)/(X1/3.4+X2/4.2+X3/5.5)=1.2X1+X2+X3=0;X2>=0;X3>=0目标函数:Y2=1.03X1+1.12X2+1.48X302配置求解根据总结的约束条件和目标函数,整理数据并配置如下图:根据工具求解得到:1、优化投放能力前A渠道分配预算:3.6W;B渠道不分配预算;C渠道分配预算:6.4W预计日均收入:12.5W2、优化投放能力后A渠道分配预算:1.6W;B渠道不分配预算;C渠道分配预算:8.4W预计日均收入:14W03确定预算分配方案根据上面求解结果发现,模型计算过程中不会考虑渠道产能的问题,从理论上择优分配。在业务实际中A、B渠道历史上每天至多消耗预算3W;C渠道历史上每天至多消耗预算5W,因此需要添加约束条件重新计算。优化后结果为:现投放能力下—A渠道分配预算:2.3W;B渠道分配预算:2.7W;C渠道分配预算:5W
其他

阿里巴巴云上数据中台之道04——解密OneEntity体系

关注微信公众号:一个数据人的自留地1、回复“数据中台”,获取2、回复“数据产品”,获取3、回复“商业分析”,获取4、回复“交个朋友”,进入前几篇你跟草帽小子一起了解了阿里数据中台的建设计划,接下来我们一起来解密OneEntity体系。一、数据孤岛阿里巴巴作为一家包含多条业务线的公司,如电商、金融、广告、文化、教育、娱乐、设备和社交等领域,数据区域包含国内、国外;数据场景包含线上的人货场钱、线下的人货场钱位置等数据,以及物流、用餐、咨询、影视、出行、阅读、音乐和健康等相关数据。仅是与人相关的数据就包含业务账号信息、PC
其他

如何从0-1构建用户画像体系?

从PC到移动互联网,一批搭乘流量红利快车的互联网产品,曾极速崛起。而如今,流量红利消失,一个疯狂的、传奇般的流量时代,已然结束。增量乏力,存量市场竞争更加激烈的环境下催生了精细化运营,结合大数据,对用户进行分群,针对不同群体的用户采用不同的营销策略。兵法云:“知己知彼,百战不殆”,在整个精细化运营过程中,用户画像体系的搭建起到不可或缺的作用。前面草帽小子介绍了埋点数据采集、指标体系搭建、数仓和OLAP分析等数据基础层建设,接下来我们来研究如何从0-1搭建用户画像体系,以及用户画像的应用场景。初识用户画像用户画像的概念,最早由交互设计之父Alan
其他

美国确诊超20万、日新增2.6万?数据人如何选择核心数据指标?

一个数据人的自留地是一个助力数据人成长的大家庭,帮助对数据感兴趣的伙伴们明确学习方向、精准提升技能。
其他

实战案例 |如何参照阿里OneData构建数据指标体系?

一个数据人的自留地是一个助力数据人成长的大家庭,帮助对数据感兴趣的伙伴们明确学习方向、精准提升技能。
其他

【探寻one piece的埋点之旅】03埋点文档设计——橡胶jet鞭

一个数据人的自留地是一个助力数据人成长的大家庭,帮助对数据感兴趣的伙伴们明确学习方向、精准提升技能。
其他

【探寻one piece的埋点之旅】02业务需求分析 ——橡胶jet火箭炮

在整理需求池时,通过深入的分析,挖掘各业务方重点关注的数据指标是什么,确立产品的第一关键指标。即分析是在什么样的场景下要解决什么业务问题,为了解决这个业务问题,要通过什么样的数据指标衡量。
其他

【探寻one piece的埋点之旅】01初识埋点——二档技能开启

奇数学院是一个助力数据人成长的大家庭,帮助对数据感兴趣的伙伴们明确学习方向、精准提升技能。在这片数据人的自留地,让我们一起探索数据领域的神奇奥秘。