你不知道的数据分析师
这是一个用数据说话的时代,也是一个依靠数据竞争的时代。数据分析师成了一个公司的标配,特别是互联网公司。
什么是数据分析师?数据分析师需要哪些技能?数据分析师的日常工作又是什么样的?带着这三个问题,并结合作者的实际工作经验,带你认识下你不知道的“数据分析师”。
其实每个公司的数据分析师的定位不尽相同,分工明确的大公司要求数据分析师精通特定技能,而更多小型公司需要的是多面手。
那如何如定义数据分析师呢?引用百度百科词条-数据分析师是数据师Datician['detɪʃən]的一种,指的是不同行业中,专门从事行业数据搜集、整理、分析,并依据数据做出行业研究、评估和预测的专业人员。在大部分公司,数据分析师搜集、整理、分析的工作更多是服务于产品和业务。产品部门和业务部门就是数据分析师的需求方。
就作者的公司而言,我们的需求方有:产品经理、编辑、运营、会员团队、广告团队等等。那需求是一个接一个,根本不带停的。
要想知道这些,其实很容易,找个数据分析岗位的招聘说明看看就明白了
今日头条数据分析师职位要求
1、统计学、数学、经济学等相关专业,扎实的机器学习或数据挖掘理论和技术基础,具有相关领域较深入的技术应用的经验和能力;
2、至少熟练使用R、SQL、SAS、MATLAB、PYTHON中的一种,熟练掌握SQL,熟悉常用数据统计和分析方法;
3、良好的沟通能力、团队合作精神、工作规划能力和主动意识;
4、良好的逻辑思维能力、业务解读能力和快速学习能力,能够独立领导完整的数据分析项目;
5、对数字比较敏感,热爱数据分析工作;
从职位要求上可以总结出数据分析师的技能:
1、统计学基础:理论知识的基础,理解业务的基础
2、会写SQL:可以拍着胸脯说,50%的时间数据分析师是在写SQL(至少我是)
3、逻辑思维能力:理解业务,将业务需求转化为数据需求
4、沟通能力:这个很重要,一个需求的完成,需要对接多个业务部门,没有沟通能力,你怎么和需求方“撕”?
先看看数据分析师招聘说明的岗位职责:
今日头条数据分析师职位职责
1、通过对数据的敏锐洞察以及定性和定量分析,迅速定位内部问题或发现机会;
2、负责商业化日常数据分析及监控,针对异常情况协调资源进行跟踪和深入分析;
3、能够根据实际业务完成较深入的专项数据分析,并形成数据分析报告;
4、负责数据分析体系建设和完善,挖掘流量、产品、策略方面的商业变现机会,驱动商业化业务发展;
以上涵盖了大部分数据分析师的岗位职责,下面结合笔者的自身经历,总结下数据分析师的工作日常。
1、处理异常
每天上班第一件事情先看看有没有相关的邮件告警,如果有,那就呵呵了,如果没有,也别高兴的太早,可能正在路上,其他同事或者业务方也许会找上你。一般有哪些异常呢?简单的分为数据异常和指标异常。
a)数据异常
原始数据生成失败、脏数据导致的统计程序执行失败导致统计结果缺失。这里的原始数据指的是做统计分析的基础数据,拿APP用户行为数据来说,用户的行为通过预先前端埋点,通过日志收集系统将用户的数据收集生成到HDFS系统,最后进入数仓。一般用来分析的数据指的是数仓中的数据,而数仓中的数据生成环节中如果出错,后续一系列的调度统计程序肯定会受到影响。
b)指标异常
经常关注的指标突然上升或者下降是比较容易发现的,实际上我们面对的指标系统极其复杂,所以单单凭借肉眼去观察指标的异常是不切实际的,可以通过监控指标的异常变化来发现问题。可以重点监控指标的同比、环比、趋势。ps.还有一种指标异常是业务方觉得异常
2、沟通需求
一个需求的完成,沟通是贯穿全程的。从一个项目的KO(kickoff)到一个项目的结项,需要参加的会议有:需求评审、技术评审、测试用例评审、效果评估。除此之外,还需要定时的“骚扰”需求方以及被“骚扰”。
3、取数
进行数据分析之前,需要进行取数准备,如果公司没有专门的数据库工程师来负责这一块,那么数据分析师就需要自己来取数。这里就需要对数据库、表、字段的具体含义有所了解,这些是具体业务的数据化。取数平台一般是hive、mysql居多,使用sql语句居多。
4、数据分析
其实这里才是数据分析师的本职工作,熟悉业务、准备好数据就可以开始分析工作了。常见的数据分析方法有:
a)对比分析
与期望值对比,不同时期对比,不同分组对比,与大盘对比,同行业对比……,对比指标、指标的平均值、指标的增长率等。
微博指标图
最直观的对比就是观察核心指标的趋势,一般是折线图或者柱形图,可以快速定位到异常的点。
b)交叉分析法
对比分析既有横向对比,又有纵向对比。如果既想横向对比,又想纵向对比,就有了交叉分析法。交叉分析法用于分析两个变量之间的关系,将这两个变量及变量的值交叉排列在一张二维表里面,各变量的值变成不同变量的交叉节点,通过分析这张交叉表,进而得出两个变量的关系。
案例:对各渠道的转化率和价格进行分析,得到一张一维数据表
渠道一维表
针对所有的数据进行分析,重点考虑价格和转化率两个变量,将所有的数据进行交叉分析,得到一张二维交叉表:
渠道价格二维表
行和列交叉的单元格中的数值是与价格和转化率匹配的渠道的数量。比如第一个数据12,代表的是转化率小于10%并且价格在10-20区间的渠道有12个。通过这张交叉表,可以了解到不同转化率、不同价格的整体情况。从上图可以找出转化率低价格高和转化率高价格低的渠道,前者减少合作,后者加深合作。
c)多维度分析
一个指标会受到多个因素的影响,所以分析一个指标的异常与否不能只看一个笼统的值,这样会忽略掉内部其他维度对这一指标的影响,多维度分析是常用的将不同维度拆开进行针对性分析。对于APP类应用来说,这些维度可以是推广渠道、手机系统、软件版本等等。
播放量总体趋势图
不同入口播放量趋势
从播放量总体趋势图可以看出3月6号-3月9号整体播放人数是上升的趋势,但是从不同入口播放量可以看出有些入口的播放人数是呈下降趋势。
d)漏斗分析
漏斗分析主要针对一个业务流程从开始到结束各阶段用户转化率分析。常见的用于用户的购买行为分析、策划活动的参与分析。下图是用户购买行为的转化率分析。
用户购买行为转化率
e)其他数据分析方法
除了上述介绍的一些数据分析方法,比较常用的还有用户细分、留存率分析,还有一些高级的数据分析方法:聚类分析、相关性分析、因子分析等。
5、结果输出
根据需求的简单程度,结果输出可以是一个简单的excel、一封邮件、一个PPT,甚至是一条sql,也可以是定时发送的邮件报告或者是可以随时查看的BI报表。
1)临时需求
如拉取即将过期会员用户的mac,可以提供一条sql让业务方做些简单的修改自己去执行得到结果,或者是将需要的mac直接导出数据到excel文件给到业务方。
2)分析报告
如新版本上线的效果评估,这就需要一份逻辑性强、架构清晰、有理有据、并最终给出评估结论的报告。
3)固定报表:BI报表系统
BI报表系统不同于一般的报表,它将日常需要关注的指标变化的趋势通过可视化报表直观的展示出来,并方便导出数据,进一步帮助决策。所以它是一个不断迭代优化的辅助商业决策的智能报表系统。这样的报表系统可以公司自己搭建,这样会更加贴近业务,也可以使用市面上比较成熟的商业化BI软件。
数据分析师需要熟悉业务、编码、常用工具。最基础最重要的是对业务的理解,加上一定的编码能力,借助一些强大的分析工具,基本上是可以胜任数据分析职位的。但是如何做好这个岗位,需要形成一套自己的业务记录、处理、分析思路,面对问题能够快速准确的找到对应的解决方案。这需要在平时的工作和学习中有意识的汲取和积累经验,及时复盘总结。
最后,由于作者本人经验有限,写的不合理的地方,各位大佬请批评指正。
-end-
还能看点啥?