查看原文
其他

转行数据数据师不用怕没项目!

Johnson Zeng 凹凸数据 2021-08-09
↑ 点击上方 “凹凸数据” 关注 + 星标 ~ 
每天更新,大概率是晚9点  


来源:曾哥数据分析

经常会有挺多小伙伴担心数据分析没项目怎么办,这篇文章将会给大家一些思路。

1

没有项目经验怎么办?


技能学了许多,却没有实际操作过?时间久了,新学的技能也生疏了。

Excel、PowerBi、MySQL、Python看起来都懂,实际运用时,却毫无头绪。

跟着课程老师,做了几个泰坦尼克、伦敦房价、链家二手房、淘宝母婴产品等项目,洋洋洒洒写到简历里,却和他人千篇一律。

网上数据源辣么多,万花丛中挑花了眼,到底哪个项目适合数据分析新手练习?

找到适合的数据源后,该从哪里开始?

你可能被这几个问题击中了好多次,怎么办?别急,本文问你慢慢解答。

2

项目数据源去哪儿找?


自己又不会爬虫,那么数据源该去哪里找呢?

随手一百度,选取了几个热到烫手的数据集,如Titanic生存分析、London房价预测、淘宝母婴用品分析。

这种过热的数据集往往不容易分析出亮点(亮点都被别人挖掘完了),同时在你之前,面试官就看过上百份同样项目描述的简历,听过不下10个人说同样的项目经验,就算项目很美好,也难免审美疲劳。

要么简历石沉大海,要么面试回去等通知,一首凉凉送给自己。


针对广大小伙伴的痛点,我分析了各个数据源网站的特色,同时列举适合用来做数据分析的数据源,供大家取用。


  • AWS(Amazon Web Services亚马逊云服务)——重度开发用户的后花园


AWS是Amazon公司的云计算IaaS和PaaS平台服务。AWS提供了一整套基础设施和应用程序服务,使几乎能够在云中运行一切应用程序:从企业应用程序和大数据项目,到社交游戏和移动应用程序(例行介绍,自行百度)。

AWS提供了一份公共数据集,也类似于从各个网站(不限于Kaggle、GitHub等)收集整理的资料,截止到目前为止,共有118个数据集集合和相应教程,包含Python、R、Spark等多种工具的使用,涉及数据分析、图形挖掘、API搭建等多方面。数据集内容范围广阔且较为专业(部分附有学术论文链接),适合想深入学习的大白。

地址:https://aws.amazon.com/cn/public-datasets/

主界面如下:

干货来啦!

直接上适合用来数据分析的数据集:
1、Amazon Customer Reviews Dataset亚马逊客户评论数据集(需aws账号)

链接:https://registry.opendata.aws/amazon-reviews

说明:这个数据集数据量1亿3千万(如果能用于分析,简直是项目中重磅炸弹!),来自于亚马逊客户的评论,包含各种评论的情感类数据。

缺点是数据集无法下载离线版本,需利用aws账号登录,在亚马逊云端完成整个分析。

2、Deutsche Börse Public Dataset德意志交易所公共数据集(强推)

链接:https://registry.opendata.aws/deutsche-boerse-pds/

说明:包含5个非常适合用来做数据分析项目的数据集,SQL、Python等均可操作,每个数据集均可离线下载。



3

拿到数据集以后,该从何开始呢?


那么问题又来了,找到了合适的数据源,怎么开始一个项目,还是一头雾水呀?

我根据个人所学习和练习的数分项目,总结出项目分析流程基本上可以分为以下5步:

1、数据收集(了解业务模式,清楚字段含义)
2、定义问题(根据业务认识,从需求出发,自定义需解决的问题)
3、数据清洗(脏数据处理,数据精简以及整合)
4、数据分析(利用何种分析手段,探索数据,且进行可视化,展示数据,得到结论)
5、输出报告(撰写项目分析报告,落地项目结论,形成体系)


以上,套上自己最熟悉的技能(Python、MySQL、powerBi等),完成从数据清洗到数据报告的整个流程,最终洋洋洒洒写到简历中,面试上也能侃侃而谈,岂不美滋滋。


后台回复「进群」,加入读者交流群~

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存