查看原文
其他

想做数据分析,都需要学些什么?

云朵君 数据STUDIO 2022-04-28

数据分析职业晋升路径

首先看看数据分析职业晋升路径。

职业薪资
数据分析专员8-15K
数据分析师12-20K
资深数据分析师20-35K
数据分析专家35-60K
数据科学家60K起

这篇文章的受众一般是转行数据分析或者加强现有职位的岗位技能的小伙伴们,一般是处于数据分析专员或者数据分析师,至于资深数据分析师相比也许不会对本文有兴趣。因此我们从这两个职位看看,数据分析师到底需要学习哪些内容。

数据分析在企业管理运营中的应用

主要看在战略规划、市场营销、生产管理、物流采购、财务管理、人力资源等方面的应用。

数据分析项目参与角色

项目成员参与角色
业务人员业务人员主要负责提出业务需求、
从业务角度检验分析结果的准确性、
使用分析结果指导业务工作
分析人员分析人员负责数据的分析挖掘及制作分析报表、
汇报分析成果等工作
IT技术人员技术人员提供必要的IT 技术支持,
比如应用网络爬虫搜取数据、创建数据仓库、取重要字段等

市场需求对数据分析的要求

在学习数据分析前,需要想好自己的兴趣点,毕竟既然想转行数据分析或提升数据分析技能的你,并不希望又入一个坑,又是自己不喜欢的行业。

你可以从各大招聘网站上搜索你所感兴趣的职位,研究他们的实际需求,可做到针对性的学习。比如在拉钩网上搜索「数据」,可弹出相关推荐:数据分析师、数据产品经理、数据分析、数据运营、数据挖掘工程师、数据仓库工程师、数据工程师、数据库工程师等。此时心理心里可大致知道,原来与数据分析相关的职位有这么多。

你可以搜索具体的职位,先看看一些大厂对数据运用岗的要求。研究下多数公司的数据部门或其他相关部门开设哪些岗位,每个职位的JD,了解下他们对数据分析职位都有哪些需求。

比如搜索数据运营

某大厂数据分析师(数据运营方向)的招聘需求如下:

先抛开1和2两条软硬条件;看看第3:有一定项目经验;第4:熟练掌握ppt,excel,熟悉sql,python,BI背景优先。这类岗位对数据挖掘、机器学习相关知识要求不是很高,但对业务知识需要有一定的认知。

比如搜索数据产品经理

一般的职位除了产品经理的要求外,还有熟悉SQL,精通Excel/Python等数据分析工具。

一些优秀的小伙伴们可以充电大数据体系相关内容:大数据技术体系(Hadoop、Hive、Spark、Mahout等),大数据平台、数据治理、数据加工等。

比如搜索数据分析师

这类岗位较数据分析专业要求较高,除了需要对基本工具Excel/Python等熟练使用,还需要对数据挖掘、机器学习有一定的了解。

比如搜索数据挖掘工程师

先看看数据挖掘的相关搜索:机器学习、算法、数据分析、自然语言处理、推荐算法、深度学习、计算机视觉、hadoop、python。

数据挖掘对计算机编程语言、算法要求较高,如果对计算机算法有兴趣的小伙伴们可以往这个方法发展。

这里就不一一列举,在准备学习之前一定要了解清楚市场需求,自己定位一定要明确,只要方向明确了,才好有的放矢,全力出击,不担心走弯路。


技能需求

说了这么多,到底需要学习什么内容呢?正所谓技多不压身,当然学习越多,越受市场欢迎。但毕竟精力有限,相信大部分小伙伴们需要先由浅入深,都想学习最需要的内容并快速入行,入行后再根据实际需求拓展学习。

以下总结出大部分数据分析师所需要的知识技能。

一、数据分析基础

数据分析基础技能、数据库应用技能、商业智能分析技能、数据挖掘数学基础

数据分析基础技能

此部分主要是针对运用Excel工具,对一般小数据进行数据分析。

这部分主要学习

  • Excel基本操作
  • Excel基本公式
  • Excel常用函数
  • Excel数组
  • Excel查找引用函数
  • Excel图表
  • Excel数据透视表
  • Excel基本分析方法、帕累托分析、杜邦分析、RFM模型

Excel常用函数


完整内容可关注公众号并回复excel函数获取。

数据库应用技能

主流关系型数据库

数据库特点
Oracle运行稳定、可移植性高、功能齐全、性能超群,适用于大型企业
DB2速度快、可靠性好、适用于海量数据、恢复性极强,适用于大中型企业
MySQL开源、体积小、速度快,适用于中小型企业
SQL server全面高效、界面友好易操作,但是不跨平台,适用于中小型企业

这里可以从MySQL学起,其使用人数相对较多。只要掌握SQL语言即可。SQL 是一种结构化查询语言 Structure Query Language ),它是国际标准化组织( ISO )采纳的标准数据库语言。

「SQL语言分类」

  • 数据定义语言 DDL :用于创建,修改,删除数据库中的各种对象(数据库、表、视图、索引等),常用命令有 CREATE ALTER DROP
  • 数据操作语言 DML :用来操作数据库表中的记录,常用命令有 INSERT UPDATE DELETE
  • 数据查询语言 DQL :用来查询数据库表中的记录,基本结构 SELECT < 字段名 > FROM 表或视图名 > WHERE 查询条件
  • 数据控制语言 DCL :用来定义数据库访问权限和安全级别,常用命令 GRANT REVOKE

商业智能分析技能

这部分主要是学习一些BI工具,将数据分析结果漂亮的可视化出来,很多公司运用的BI工具不相同,Tableau、PowerBI、MicroStrategy、Qlikview、FineBI、永洪 BI。所有工具都是无关紧要,重要的是如何运用这些工具,将数据分析师的数据分析结果完美可视化出来。

我这边用了两款(Tableau、PowerBI)网上有挺多测评,这里就不多说。但使用Macbook的小伙伴需要注意了,PowerBI只能在Win系统上使用;Tableau两个系统都可以使用。如果你想用Tableau但又没有很好的解决办法,可联系云朵君(咳咳)。

数据挖掘数学基础

这部分注意是统计基础知识,包括

  • 微积分基础(函数、微分、积分)
  • 线性代数基础(向量、行列式、矩阵、特征值与特征向量等)
  • 描述性统计方法(集中趋势、离散程度等)
  • 描述性统计方法(集中趋势、离散程度等)
  • 抽样估计(抽样分布、样本均值与方法分布)

这部分内容的完整版同样可以通过关注公众号,并回复统计知识获取。

二、Python相关

Python编程基础、Python数据清洗、Python数据可视化、Python统计分析、Python机器学习。

Python 作为一种程序设计语言,凭借其简洁、易读及可扩展性日渐成为程序设计领域备受推崇的语言。同时,Python 语言的数据分析功能也逐渐为大众所认可。因此做数据分析,学习Python也是至关重要的。对编程语言存在天生恐惧的小伙伴们不用担心,Python的设计哲学是“优雅”、“明确”、“简单”。你可以在学习Python过程尽情享受Python之美。

近几年 Python 语言不断攀升,热度不减。

https://www.tiobe.com/tiobe-index/

Python编程基础

  • 基本数据类型(数值、字符串、列表、元组、集合、字典)
  • 内置函数(逻辑判断、类型转换、数值运算等)
  • 函数创建与使用(函数定义、函数参数、匿名函数等)
  • 类和面向对象(类的定义、类的对象、类的方法等)
  • Python模块(模块导入、自定义模块使用等)
  • Python链接数据库
  • Python IO操作

Python数据清洗

利用Python进行数据预处理,Python 完成数据获取、数据清洗、数据探索、数据呈现、数据规模化和自动化的过程。主要内容包括:Python 基础知识,如何从 CSV、Excel、XML、JSON 和 PDF 文件中提取数据,如何获取与存储数据,各种数据清洗与分析技术,数据可视化方法,如何从网站和 API 中提取数据。

需要学会如何利用各种 Python 库(包括 NumPy、pandas 等)高效地解决各式各样的数据分析问题。

Python数据可视化

常用的可视化第三方库,包括matplotlib、seaborn、PyEcharts

这里需要掌握常用的可视化图形,包括饼图、条形图、柱状图、线性图、散点图等。

Python机器学习

这里需要学习机器学习基本思路、常用算法分类、算法库等。

这里可以重点学习机器学习算法库Scikit-Learn

2007年,Scikit-learn首次被Google Summer of Code项目开发使用,现在已经被认为是最受欢迎的机器学习Python库。

Scikit-learn被视为机器学习项目(尤其是在生产系统中)最佳选择之一的原因有很多,包括且不限于以下内容:

  • Scikit-learn是一个非常强大的工具,能为库的开发提供了高水平的支持和严格的管理。
  • 清晰一致的代码样式可确保我们的机器学习代码易于理解和再现,并大大降低了对机器学习模型进行编码的入门门槛。
  • Scikit-learn得到了很多第三方工具的支持,有非常丰富的功能适用于各种用例。

如果你正在学习机器学习,那么Scikit-learn可能是最好的入门库。其简单性意味着很容易入门,通过学习Scikit-learn的用法,我们还将掌握典型的机器学习工作流程中的关键步骤。

需要重点掌握简单线性回归、K-近邻算法、特征提取、多元线性回归、逻辑回归、朴素贝叶斯、非线性分类、决策树回归、随机森林、感知机、支持向量机、人工神经网络、K-均值算法、主成分分析等

另外说下,市面上有很多Scikit-Learn书籍解释的也很不错,但如果有一定的英语基础的小伙伴们(其实不需要英语有多好,现在谷歌、有道翻译都挺好)可以经常浏览Scikit-Learn官网。里面方法,实例都很好,是学习最好的教科书了。

https://scikit-learn.org/stable/

当然,有小伙伴们说,看到英语就头疼,实在不想看英文,Scikit-learn也是有中文文档的。

http://www.scikitlearn.com.cn/

三、其他技能

Python网络爬虫

网络爬虫通过爬虫技术自动高效地获取互联网中指定的信息。如果你是入行数据采集人员、或你在需要掌握一定的数据采集能力的职位、或对数据非常感兴趣的小伙伴们,这个技能最好了解下。

这部分内容需要对于不同目标的小伙伴们要求不尽相同。

如果你只是获取一些简单的网页数据,你只需要对网络爬虫有一定的认识、了解Web前端、多种网络请求模块中的一种、网页数据的多种解析方式中的一种、了解爬取动态渲染的信息。

如果你对网络爬虫有更加浓厚的兴趣,或更多的岗位需求的小伙伴们,你可以学习更多的爬虫技术,可以再了解多线程与多进程爬虫技术、App抓包工具,识别验证码、Scrapy爬虫框架等。


数据分析项目

最后,项目经验也是比较重要,网上也有很多优秀的Kaggle数据集的分析项目,这里总结了几个适合新人的Kaggle项目,可供参考:

1、Hotel booking demand酒店预订需求

"https://link.zhihu.com/?target=https%3A//www.kaggle.com/jessemostipak/hotel-booking-demand"

该数据集包含城市酒店和度假酒店的预订信息,包括预订时间、停留时间、成人/儿童/婴儿人数以及可用停车位数量等信息。

「适用场景」:社会科学、旅行、酒店、用户行为,不具有明显的行业标识,可进行常规用户行为分析

「数据量」:32列共12W数据量。

「可以定义的问题」

  • 基本情况:城市酒店和假日酒店预订需求和入住率比较;
  • 用户行为:提前预订时长、入住时长、预订间隔、餐食预订情况;
  • 一年中最佳预订酒店时间;
  • 利用Logistic预测酒店预订。

2、US Accidents 美国交通事故分析(2016-2019)

"https://link.zhihu.com/?target=https%3A//www.kaggle.com/sobhanmoosavi/us-accidents"

该数据集覆盖全美49州的全国性交通事故数据集,时间跨度:2016.02-2019.12,包括事故严重程度、事故开始和结束时间、事故地点、天气、温度、湿度等数据。

「适用场景」:无明显行业标识,通用。

「数据量」:49列共300W数据量。

「可以定义的问题」

  • 发生事故最多的州,什么时候容易发生事故;
  • 影响事故严重程度的因素;
  • 可视化应用:讲述4年间美国发生事故的总体情况
  • 预测事故发生的地点;

3、Video Game Sales电子游戏销售分析

"https://link.zhihu.com/?target=https%3A//www.kaggle.com/gregorut/videogamesales"

该数据集包含游戏名称、类型、发行时间、发布者以及在全球各地的销售额数据。

「适用场景」:电商、游戏销售,常规销售数据。

「数据量」:11列共1.66W数据量。

「可以定义的问题」

  • 电子游戏市场分析:受欢迎的游戏、类型、发布平台、发行人等;
  • 可视化应用:如何完整清晰地展示这个销售故事。
  • 预测每年电子游戏销售额。

4、New York City Airbnb OpenData纽约市Airbnb开放数据(房价预测数据集)

"https://link.zhihu.com/?target=https%3A//www.kaggle.com/dgomonov/new-york-city-airbnb-open-data"

「用途」:房价预测和可视化展示

5、The Movies Dataset电影数据集分析

"https://link.zhihu.com/?target=https%3A//www.kaggle.com/rounakbanik/the-movies-dataset"

「用途」:多表关联、评分排序、收入分析、推荐引擎

6、Lending Club Loan Data贷款数据分析

"https://link.zhihu.com/?target=https%3A//www.kaggle.com/wendykan/lending-club-loan-data"

「用途」:金融小贷、逾期分析、逾期预测

7、Bitcoin Historical Data比特币数据分析

"https://link.zhihu.com/?target=https%3A//www.kaggle.com/mczielinski/bitcoin-historical-data"

「用途」:时间戳、数据清洗、价格预测

8、Telco Customer Churn电信客户流失问题

"https://link.zhihu.com/?target=https%3A//www.kaggle.com/blastchar/telco-customer-churn"

「用途」:流失客户分析、客户终生价值LTV


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存