木东居士

其他

数据百问系列:DAU为何会骤降?

先分析是新用户还是老用户引起的下降2、如果新用户发生下降,a、看下最近的投放的渠道是否发生改变b、看下是否有版本流程变动,
2020年2月28日
其他

数据仓库系列:如何优雅地规划数仓体系

需求分析了解业务过程,每个业务过程的参与实体和各实体可能的分析维度等信息;
2019年12月9日
其他

数据仓库系列:初识数仓

水大人,数据开发小哥,爱折腾、爱记笔记,热衷方法论提炼和效率提升。虽然半路出家,但致力于全栈远景。《七天数据埋点之旅》系列作者。0x00
2019年11月18日
其他

直戳泪点!数据从业者权威嘲讽指南!

前言数据行业中一些奇奇挂怪的外号的称呼,比如大表哥、Sql工程师、调包侠。他们都是什么意思呢,本文带你一起走近数据从业者的嘲讽之路。注意:前方高能,心理脆弱者慎入!0x01
2019年9月1日
其他

数据团队思考:如何优雅地启动一个数据项目!

所需的资源。第一点是让大家了解项目的整体规划,第二点是要自己争取相应的资源支持。将上面的内容整理成一个详细的流程图,就是下面了:0xFF
2019年8月19日
其他

算法工程师应该具备哪些工程能力

工程能力概览算法工程师,从名字上我们就能看出,一名算法工程师首先应该具备算法能力和工程能力,我们可以认为这是基础的技术能力。由于现在开源技术的普及,Sklearn、Tensorflow
2019年7月29日
其他

数据团队思考:数据人的通用技能要求

Python掌握指数:4颗星掌握人群:数据开发、数据仓库、数据分析、数据挖掘Python,基本上是偏研发向岗位必备技能了,重要性毋庸置疑。这里只简单聊一下
2019年7月10日
其他

数据团队思考:数据驱动业务,比技术更重要的是思维的转变

为什么会造成这种情况?经过深入的沟通发现,核心原因在于他在一年的工作中,只做到了完美地完成业务需求,但没有主动去发现和提出问题。
2019年7月1日
其他

数据团队思考:数据团队的工作内容

闲谈受欢迎程度从受欢迎程度上来讲,机器学习相关的工作内容受欢迎程度最高,因为它的技术深度更深,同时更为流行。大数据平台开发在13年-15年的时候,受欢迎程度同样很高的,近些年热度稍减。而且,随着
2019年6月30日
其他

关于「数据分析师」的一些理解

本文为数据茶水间群友原创,经授权在本公众号发表。关于作者:我是Jing,茶水间非资深潜水员,一个快3岁的数据分析师;爱数据分析爱读书爱海贼,欢迎一起交流探讨~因为个人从开始进入数据分析职业到现在,已经小三年了,故希望能总结下个人对「数据分析师」的理解,一来梳理自己的专业认知,二来可以进一步思考接下来的职业规划。本文主要聊一下三个内容:为什么需要以及什么阶段需要数据分析师数据分析师的主要工作内容和工作流程数据分析师的能力模型拆解所有回答均为个人现有知识储备、阅历和思考深度下的产出,水平有限,请多指教。0x01
2019年6月12日
其他

数据分析师做成了提数工程师,该如何破局?

为什么成了提数工程师?为什么做数据分析会变成提数工程师?我们来看一下数据分析的大致工作流程:1.
2019年6月10日
其他

警惕,导致数据仓库失败的六大原因!你占了几条?

前言本文描述数据仓库建设中,最容易导致项目失败的六大原因!如果遇到,请警惕:脱离业务设计数据仓库错误评估数据仓库的影响力空谈多于实践增加不必要的复杂度项目负责人缺乏适当的权力糟糕的项目管理0x01
2019年6月8日
自由知乎 自由微博
其他

《七天数据埋点之旅》指引篇

埋点设计(下)埋点设计的四大思维和典型场景,埋点的核心。埋点注意事项《七天数据埋点之旅》第五天
2019年4月26日
其他

《七天数据埋点之旅》第七天 埋点实战

clickid:点击位置专栏内容页时长离开专栏内容页scl_content_exitfrom:参考本sheet的专栏内容来源
2019年4月19日
其他

《七天数据埋点之旅》第六天 埋点管理和验收

埋点管理是埋点设计的组织方式,可以细分为面向开发者的管理、面向监控者的管理和面向使用者的管理。本节节介绍面向使用者的管理。通过本节的学习,你将获得以下方面的认知:管理目的管理准则管理方式埋点验收0x00
2019年4月15日
其他

《七天数据埋点之旅》第五天 埋点注意事项

本文为数据茶水间群友原创,经授权在本公众号发表。关于作者:我是水大人,资深潜水员,一个基于开发、面向分析、走向全栈的饱经摧残的数据新手,爱折腾不爱玩,爱总结爱思考的老兵,错了改改了又错的惯犯。0x01
2019年4月11日
其他

《七天数据埋点之旅》第四天 埋点设计(下)

以选择上报所有操作之后的最终态,也可以记录修改态(增什么减什么保留了什么,开什么关什么不变什么)点击附着具有附加信息的点击事件上报,建议单独拿出来,这是因为每个点击对象都导致不一样的结果,而这些
2019年3月29日
其他

《七天数据埋点之旅》第三天 埋点设计(上)

埋点,避免一大堆不可复用的垃圾事件,增加管理的难度。具体的措施如下:采用字典的方式进行埋点,尽量不要采用分隔符分割的列表方式,例如:vid1_vid2_vid3
2019年3月27日
其他

《七天数据埋点之旅》第二天:埋点之前

关于作者:我是水大人,资深潜水员,一个基于开发、面向分析、走向全栈的饱经摧残的数据新手,爱折腾不爱玩,爱总结爱思考的老兵,错了改改了又错的惯犯。0x00
2019年3月19日
其他

《七天数据埋点之旅》第一天:初识埋点

关于作者:我是水大人,资深潜水员,一个基于开发、面向分析、走向全栈的饱经摧残的数据新手,爱折腾不爱玩,爱总结爱思考的老兵,错了改改了又错的惯犯。0x00
2019年3月15日
其他

闲聊数据库和数据仓库的区别

电商早期,基本不需要太多数据分析,先跑起来系统就行,这时候买一套电商系统,搞点服务器,加一两个研发就能跑起来了。这时候对数据的需求就是只需要有个数据库就行。最多就是看看营业额就够,不需要数据仓库。
2019年3月5日
其他

数据对业务价值帮助的一些思考

本篇文章多谢这几位群友的意见:cathy、刑胖、jessie、coco、jing、水原居士,初稿极其粗糙,看过的几位是知道的,听了大家的意见后完善了一下思路,由此可见交流的重要性。
2019年2月15日
其他

数据仓库实践之业务数据矩阵的设计

然后是业务主题的设计,本文的例子是根据公司的业务来划分主题的,即一个大的业务为一个业务主题。这里当然可以更细致来进行划分,比如把一个使用场景当作一个业务主题,比如买家和卖家对话可以是一个业务主题。
2019年1月1日
其他

一种通用的数据仓库分层方法

另外,公众号不便于文章的后续更新和修改,因此公众号会发文章的第一版,然后小的改动会在github上进行。因此,单独建了一个github的repo,大家感兴趣也可以点“阅读原文”进入github地址。
2018年12月26日
其他

漫谈数据仓库和范式

第二范式第二范式在第一范式的基础之上更进一层。第二范式需要确保数据库表中的每一列都和主键相关,而不能只与主键的某一部分相关(主要针对联合主键而言)。即在第一范式的基础上满足属性完全依赖于主键。
2018年12月16日
其他

推荐数据相关的书单

这本书是我看的第二本数据仓库的书,个人感受是理论比较强,刚开始看基本就是一头雾水,然后当你做了一段时间后,再回头来看这本书会有很多理论指导,比如说元数据该怎么做,模型该怎么设计,参考性很强。
2018年11月12日
其他

聊一聊数据仓库的 KPI 怎么定

首先,要明确的一点是数据最终是要服务于业务的!但是,数据仓库一般又不直接对接于业务,而更多地对接数据分析系统、用户画像系统和推荐或广告系统等。因此不容易用业务指标来衡量数据仓库的效果。
2018年10月14日
其他

数据仓库的一些建议

请尽早布局数据质量管理的内容,不要等到发生严重的数据事故后才注意到数据质量问题。关于数据质量监控,如果没有足够的时间和精力做一套完整的系统,可以先从以下几个点入手,这样至少能对自己有一层基本的保护:
2018年10月12日
其他

No.22 漫谈数据质量监控

一名数据老兵,为大家分享数据领域的方方面面,早年专注于技术干货,近年较多职场经验和商业思考。万事在变,一直不变的是对数据领域的热爱,以及不增停歇的思考和常年保持热情的持续分享。
2017年10月30日
其他

No.14 【大数据算法】BitMap的原理和实现

操作,完全精确的算法会十分占用空间资源,而且也很难在快速计算出结果。如果这时候允许一定的误差,就可以在极短的时间使用少量的内容算出结果,比如基数估计算法中的Hyperloglog。本系列会包括
2017年10月3日