超级菜鸟如何入门数据分析?
The following article is from 数据管道 Author 宝器
正文开始
经常看到很多朋友会问,入行数据分析之前我要不要学个java,学个Tableau,然后在学个Python会比较容易。好像是说,数据分析一定需要Python才能做,分析变成了为某种编程语言、某种可视化工具服务。
其实这样误区的是很不对的,按这种方式学习下去,即使最后Python学的很好,也挺难找到一份数据分析的工作。
01
什么是数据分析
所以在讨论这个话题之前,第一个问题可能要思考的是什么是数据分析。为了简便,第一部分宝器先用之前整理的几张图回答,详细文章请见:
请先耐心看完第一部分:
02
数据分析职业发展不同阶段
第二部分谈的是关于数据分析这个岗位不同阶段所需要业务能力和技能需求(这一部分来源参考了各种大佬的解答)。
第一阶段:助理分析师,这是个使命必达的阶段,你核心要做的是快速学习,执行配合,业务能力上你需要做到几点:
问题识别:在一定指导下准确识别问题
分析规划:在一定知道下完成分析规划
数据获取:提取简单数据,了解分析方法
展示演示:能够形成报告,展示分析结果
价值应用:完成业务需求,提出自己的见解
执行和管理能力:合理分配和安排,完成分析任务即可。
影响力:这一阶段基本上是学习阶段,没什么大的影响力。
第二阶段:数据分析师,这是个无懈可击的阶段,你核心要做的是独立执行,小有成就,业务能力上你需要做到几点:
问题识别:能够独立清晰的识别问题
分析规划:明确范围并做好分析规划
数据获取:熟练提取数据,应用分析方法
展示演示:展现的条理、逻辑、表达清晰
价值应用:提出建议并推动建议被采纳
执行和管理能力:作为核心成员、控制项目进度和质量
影响力:推动建议被采纳,跨团队沟通协调
第三阶段:资深数据分析师,这是个无中生有的阶段,你核心要做的是发掘项目,主动执行,业务能力上你需要做到几点:
问题识别:发现问题并转化成分析目标
分析规划:提炼问题并做好分析规划
数据获取:熟练提取数据,指导员工分析
展示演示:结论突出清晰、指导员工
价值应用:提出有效建议,独立主动
执行和管理能力:领导跨部门项目、寻求资源
影响力:具备一定判断力和影响力
第四阶段:数据分析专家,这是个独当一面的阶段,你核心要做的是推动业务,辅导团队,业务能力上你需要做到几点:
问题识别:识别问题并推动解决问题
分析规划:提炼问题并做好分析规划
数据获取:熟练提取数据,指导员工分析
展示演示:结论突出清晰、指导员工
价值应用:提出有效建议,独立主动
执行和管理能力:完成影响力大的复杂项目
影响力:具备较强判断力和影响力
第五阶段:高级数据分析专家,这是个红杏出墙的阶段,你核心要做的是统筹规划,名声在外,业务能力上你需要做到几点:
问题识别:思考数据的价值并规划推进
分析规划:提炼问题并做好分析规划
数据获取:熟练提取数据,指导员工分析
展示演示:结论突出清晰、指导员工
价值应用:提出有效建议,独立主动
执行和管理能力:完成影响力大的复杂项目
影响力:分享和指导,在公司层面具有强影响力
第六阶段:资深数据分析专家,这是个诸葛连弩的阶段,你核心要做的是参与决策、指挥有度,业务能力上你需要做到几点:
问题识别:提出业务的前瞻性建议
分析规划:提炼问题并做好分析规划
数据获取:熟练提取数据,指导员工分析
展示演示:结论突出清晰、指导员工
价值应用:提出有效建议,独立主动
执行和管理能力:完成影响力大的复杂项目
影响力:在专业领域有一定影响力
03
你需要的技能树拆解
这一部分谈的数据从业者需要学习的一些技能,下图后面有拆解版(图打开看更清晰)。
概括为以下内容:
1、SQL脚本取数
SQL一定要写的非常熟练,最好是熟悉Hive-sql,可参见以下几篇文章:
2、统计学理论
统计学可分两部分学习,第一部分是描述性统计,分别要掌握以下知识点:
第二部分是推断性统计,你最少要知道中心极限定理、大数定律、置信区间、假设检验、t检验、f检验、卡方检验、ABtest等等。(面试考这一部分较多)可参考这篇文章:
3、机器学习理论。
这部分你需要从几点准备,第一要理解每个算法的应用背景,优缺点(最重要的)。第二,熟悉常见的公式推倒(不需要每个都会)。大致要掌握的是逻辑回归、SVM、决策树、随机森林、Adboost、XGboost等集成学习、神经网络。(DNN、CNN、inception、ResNet、RNN、LSTM等深度学习算法在数据分析面试中很少问,不需要准备那么多)
4、业务分析。
这部分可以从“人人都是产品经理”社区、增长黑客等内容学习,你最少要知道Pv、Uv、DAU等各种指标,如何进行指标拆解、如何进行流量分析、留存分析、用户行为分析,啥是海盗模型,RFM模型、某个指标下降/上升如何分析等等。宝器之前做流量分析的时候会做一个这样框架图,其他的也可参考:
5、 工具类
语言:非大数据类R、Python最多(比较geek的也有用julia的,不差钱和某些公司要求的用SAS、Matlab)。
可视化:Tableau、http://plot.ly、d3.js、echarts.js,R里面的ggplot、ggvis,Python里的bokeh、matplotlib、seaborn、Pyechart等都不错.
其他框架、类库(选学):爬虫(requests、beautifulsoup、scrapy).
04
想好自己的发展方向
数据分析的小方向比较多,分类方法也不尽相同。在这里根据技术要求的侧重点不同,简单的划分为三个方向(这部分回答乘次不齐,有的是直接简单的分技术类和业务类,这里参考广大网友作答):
1、BI方向
BI的概念已经出现很久了,但仍然不过时。
重点在于如何设计高效的数据模型,以及如何通过BI工具从多个角度观察数据,了解数据内部的规律。
传统的BI工具可以满足大部分传统企业的数据分析场景。近些年随着分析工具功能日趋强大,大数据领域的BI平台也有了长足的发展。所以BI仍然具有强大的生命力。
2、机器学习方向
机器学习与BI的区别在于,更多的依赖机器模拟人类学习的过程去发现数据内在的规律,构建一个数据模型,通过某些算法来预测未来的可能性。
机器学习和深度学习概念非常火热,但相对入门门槛也较高,因为想真正理解那些算法的原理需要高等数学的基础。
3、行业分析方向
还有一些数据分析师,仅仅通过一些公开的市场宏观数据,通过经济学和统计学分析方法,观察经济的运行状况,从而发现行业的经济发展规律,进一步预测未来行业发展的趋势。这个方向也很不错的,但是需要对统计和经济学有一定基础。
首先要认准自身的优势,参考上面列出的几个发展方向,选择其一进行深入的学习和实践。
如果计算机基础比较好,擅长SQL和BI工具,可以向着BI方向发展;如果数学基础比较好,可以考虑机器学习方向;如果对所在行业的业务比较精通,也可以从事业务分析或行业分析方向。
做适合的和喜欢的最重要。不论哪个方向,都是要先掌握工具使用,了解你要分析的业务流程,培养独到的分析思维模式,锻炼自己的表达。
05
一些优秀的DA大佬,书籍推荐
Sql类我只看了三本书(我不会推荐sql必知必会系列,对比看,你会发现这里SQL基础和进阶书写的非常好,至少是很适合分析师看的数据库书):
《Sql基础教程》
《Sql进阶教程》
《Hive编程指南》
统计学:
《统计基础》人大版本,
《女士品茶》
《统计陷阱》
《漫画统计学入门》
《机会的数学》
Python、爬虫:
《Python学习手册》
《Python for everyone》
《对比Excel,轻松学习Python数据分析》
《Python3网络爬虫开发实战》
业务、方法论及其他:
《增长黑客》
《精益数据分析》
《深入浅出数据分析》
《谁说菜鸟不会数据分析》
《决战大数据 》
一些大佬,排名不分先后,履历真的厉害,有行业领军人物,有年轻的数据总监,有几十万粉的博主。就不一一介绍了,因为我也是网上看到这些大佬的相关问答,各位有兴趣可自己看:
空白白白白:
https://www.zhihu.com/people/jiafeimao/activities
邹昕:
https://www.zhihu.com/people/xin_zou/activities
张溪梦:
https://www.zhihu.com/people/simonzhang1/activities
何明科:
https://www.zhihu.com/people/he-ming-ke/activities
秦路:
https://www.zhihu.com/people/qin-lu-17/activities
当然还有很多优秀的书籍和作者,这里不在一一列举了,希望以上回答对想入手数据分析的朋友有些帮助。
《与数据同行》为您提供最好的文章!
长按二维码关注“与数据同行”
要看更多,请点击左下角阅读原文即可阅读整理好的所有文章!