心路长文 | 24岁, CS, 我希望走出自己的舒适圈。。。
数据在近几年被各行各业的企业视为兵家必争之地。如今数据的收集、清洗、筛选、传输、存储、调用每一个环节都是巨大的技术挑战。电商的双十一就像一场无硝烟的战场,一个强大的构架和手握“千军”的数据工程师们才能保证十亿级别的访问和交易并发。每每觉得能参与解决这样的世界性难题就觉得很燃。
Sheryl Sandberg这个Facebook庞大帝国背后的女人曾经说过:“如果有一个坐上火箭的机会,别管是什么位子,先上去再说” 她建议年轻人在职业发展上时刻保持自己竞争力,找准机会。试想七八年前你加入的是蒸蒸日上的Facebook,这些年在这个平台上要解决的世界性难题会比其他地方有更多挑战,同样得到更丰厚的回报。
如果三个月前,你问我如何加入一家成长很快的大数据公司并进入核心的数据组,我很可能站着不腰疼地说出很多准备时用的网站去学习,但现在我变了。因为,我也走在这条路上,体验兴奋、小挫折、焦虑还有找到好方法后的欣喜,谨献给一起努力的你。如果你也觉得认同,也欢迎分享给一起进步或者还在寻找更好机会的小伙伴们。
为了保住现在的工作和被人肉的风险,我笼统地说一下我不满现状的原因:
1. 作为程序员任职在一个有稳定企业用户的大数据公司,意味着产品足够成熟,维护软件花费的时间和精力是远远多于开发有挑战的新程序的,成就感低。
2. 技术飞速进步,传统数据企业逐步被新型解决方案抢占市场,并且这趋势绝不可逆。坐等被裁员不是我的风格。对于时间只有一份的焦虑经常让我思考:怎么选择最优化的未来职业发展呢?
3. 在老板眼中我是可以填补一块技术空白地带的“资源”,他对我的规划和我对自己的规划不重合。
于是三个月前的接连发生的几件事情像电影中的一根根稻草一样,压倒了我心里的不愿意走出舒适区的骆驼。一个学弟问了我数据行业data scientist,data engineer,data analyst到底都指的是什么,他应该往哪里发展?我神采飞扬的解释让我逐渐意识到自己已经好久没有深入学习最新的技术了。
同一天,和硅谷的好友聊天,印象特深刻他说一个成长很快的好平台对于一个工程师是多么重要,就好比张小龙做了将近十年的腾讯邮箱vs不到十年的微信,如今的影响力不可同日而语。
全职工作中,百分之百投入到一件正确、自己有激情并且未来有很大发展前景的事情,才算好好利用好了时间。最后,回国了的老友在视频时问我:”你上一次兴奋是什么时候?”
振聋发聩!!!
(让我文艺一下)
当天上班走神,问自己很多次我到底对什么兴奋。于是我做了一个决定,重新了解现在的数据市场,找准前行的方向。
在那个“扫地僧”高人出现并且真的让我开始行动之前,我还是先讲一下学弟很喜欢的大数据行业工种介绍。Data Pipeline大数据管道,是一个以数据驱动的公司的生命线,也是未来每一个公司都必需的。这平台上存在着很多不同的职务。
Data Engineer 就像备菜的后厨工作人员,准备好巧妇难为无米炊的食材(数据),绝对有存在的必要但不显山露水。
Data Scientist 犹如主厨,决定今天的每一道菜应该如何用哪种菜谱来烹饪各种食材,并且时刻准备有优化创新的需求(运用模型,和服务企业其他部门商业需求)。
Data Analyst 就如餐厅中负责摆盘的大师傅,令食客赏心悦目,容易消化(呈现可视化结论)。
扫地僧出现了
他在我年轻的时候一直在技术和某些人生方向上指引我,这次他告诉我两点,如果已经决定想探索新机会:请专注和高效。专注意味着把其他事情搁置,经历集中解决这个需求,于是我每天学4个小时,周末更多。高效意味着需要知识框架,学那些面试需要的,未来工作中需要的技能。因为公司希望进来的人有基础不需要重新培养。
我感觉天将降大任于斯人也,有了尚方宝剑在6月6日准备“踏上征程”,目标9月9号拿到面试。但之前的伏笔肯定要用上吧?出师不利发生了。因为我每天开始花很多时间准备,我开始不得到家人的支持,他们觉得我太辛苦,太折腾。现在公司大且稳定,为何要跳?在我几次三番说服下,他们默默支持了我的决定。
也许你不会遇到这样的问题,但以下这些问题是你我在找工作时,没法回避的:
1.知识框架缺乏或者已知的框架不是行业最新动态
2.工作后哪怕是学生时代,认识的人不够多,海投没有内推有效可是时间本来就不够如何找内推
3.没有对口的过往工作经历,简历无法进入下一轮
我也尝试过:
网络课程(Coursera,Udacity,Hadoop Cognitive Programming,Lynda,Linkedin Learning) 恨不得每家每一个视频都看完,但缺点也较为明显:课程难度太浅,应用项目少或者答案不完整,一个人学容易放弃
找行业内大牛咨询(周末的中国城餐厅绝不是个深入聊学习和技术的好地方)
各类博客、资源搜集和学习(信息来源无从考证且没有框架的学习,会越学越烦躁)
于是我开始陷入一种忧伤有时候甚至一丝恐惧:我花出去的时间到底值不值得?我能不能去那几家我很想去的职位?万一跳不成,多丢脸?等等。。。
我前几周都在缓慢前行,直到有一天,我被一个数据行业的小伙伴拉上,要一起报名数据应用学院的课程。他说他已经做过好多research,这个课程很靠谱、没毛病。我权衡了下利弊就和他一起上了这个课程。虽然学费昂贵,但其实想想也就是相当于新入职工作不到三周的工资。我一直相信:花钱得到的成长是自己的。作为爱钱之人,我激励自己当年背GRE红书的时候就是,考一次试1500元,上某培训班5000,相当于每个单词值5元,背一个坐收5元。现在学新知识也是一样的,我时薪50+刀,浪费一个小时看不够好的资源,就是撒钱,早一天去新工作,也许就多挣100刀。
请答应我看完好吗?
我写了一段关于这个课程的介绍,之后便是我踩过的坑和好的资源分享给你。
这个课能帮我梳理多得令人头疼的技术
Hadoop, HBase, Spark, Hive, Pig, SparkSQL, Kafka, Storm…
HDFS作为底层架构,滋养了许多不同的应用。Yarn保证了资源的合理分配,HBase颠覆了传统的必须有indexing的数据库,Spark号称自己最理想状态下因为有可以在内存里计算,比MapReduce快100倍?虽然Spark有众多应用场景特别是在机器学习方面重复频繁调用同一个数据集,但这仍然不能取代MapReduce的江湖地位。NBA的视频分析球员投球战术,Netflix如何让全世界都看到不卡的视频,Twitter当年前无古人地解决streaming 数据流,这些神奇的技术应用被解构,清晰地呈现出来。
我还是真心感谢他抓我一起上了这个课程,但后来他说只是因为我也上他学费可以减几百,我考虑一下是否要友尽。在这里我还是想诚心实意地推荐一下大数据应用学院的课程,因为它解决了这样的问题:
1. 为我构建了完整的,行业实际应用级别的知识框架
2. 紧凑的课程搭配了每周一个新的实际操作的项目(用来丰富简历,运用工业界最普遍使用的AWS,Cloudera Cloud,用Scala实现NBA Data Analytics等)
3. 据说有很好的校友内推网络,还有模拟面试,足不出户,收获建立好的人脉(面试前)
4. 我个人很喜欢讲MapReduce和Spark的老师,因为教学上会提出很好的问题,引发我的思考,讲课的时候就像面试,真正学懂程序。
5. 有助教来敦促并负责回答问题,有一起上课的同学,我也不会半途而废。
作为一只在数据行业飞了几年的新鸟儿,我还是有一定的鉴别能力,希望这些判断对你有所启发:
选择比努力更重要,仔细研究一下Google的最高层们,几乎都是当年在最重要的组(search,advertisement)最早期就加入并且贡献很多的大牛,公司飞快的发展意味着你也水涨船高(把你从到底要不要跳槽的困境中解救)
高效解决问题,其他都是浮云(如果有人给你铺好了路,放心走,快点儿走,坚定目标了就不要左顾右盼,而是直中靶心)
行业变化是不可逆的大趋势,不跟上就会被淘汰的,想想当年的柯达、诺基亚、被电商折腾的传统零售。
精力(时间分配)是属于你最宝贵的财富,每天都在使用,无法充值,请放在最重要的地方。
下面贴出一些好用的网站,仅供参考:
网课MOOC:
Udacity/Lynda/Coursera/Youtube 搜索Hadoop,MapReduce,Spark 等关键词
我个人比较喜欢Udacity的课程
Cognitive Learning (喜欢这个网站的操作感)
https://cognitiveclass.ai/learn/big-data-hadoop-programming/
Github几个比较好的repo(看源代码是一件道阻且艰的过程,但这些是精华啊)
入门级别:MapReduce等的tutorial
https://github.com/romainr/hadoop-tutorials-examples
中级:
https://github.com/adamjshook/mapreducepatterns
高级: (开源项目源代码)
Spark (Berkeley In Memory Computation Lab/Databricks 主要贡献)
https://github.com/apache/spark
Tech Blog:
Netflix tech blog:
https://medium.com/netflix-techblog/how-data-science-helps-power-worldwide-delivery-of-netflix-content-bac55800f9a7
一个Facebook早期商业智能工程师(BI)写的数据工程师的崛起
https://medium.freecodecamp.org/the-rise-of-the-data-engineer-91be18f1e603
DataSet下载:
https://www.data.gov/ 白宫出面引导的公开政府数据集
StackOverflow可以下载sample用户数据
https://archive.org/download/stackexchange (公开的很多好数据集)
Kaggle.com 作为世界第一data scientist之家,有很多一线互联网公司的数据可以下载来练手,有专业大牛的真迹供你模仿
其他:
微信公众号:InfoQ 等,DataTau信息流式的数据行业信息
小密圈(数据分析之路):硅谷一些大神们互相交流,分享的地方,需要rmb加入
书籍:Spark In Action, Learning Spark,等等O Reilley的书籍
如果你和我一样,还在走向自己期待的人生的路上,那我希望你一直记住扫地僧当年点醒我的那句话:
请专注和高效。
我真诚地给大家推荐数据应用学院的Data Engineering课程,这是你可以找到的最佳选项。
没有什么比在最快的时间学好一件东西更有价值的事情了。
如果你也想学习这个课程,
你可以点击阅读原文看看课程介绍。
如果你想先了解下这个课程,
你可以点击阅读原文看课程syllabus。
如果你觉得身边的朋友和你一样需要这个课程,
你可以分享给他看。
#予人玫瑰,手有余香
我也还在路上,希望之后面试顺利,但无论结果,
我更加了解行业动态,创新也是建立在懂得基础上的,
所以学了不会亏,没有白走的路。
不能等着天上砸下的苹果,因为牛顿能推出万有引力,
而你可能只能被砸出一个包。
24岁,迈出自己的舒适圈,还不晚。
不管你是24,34,还是44;
我希望你和我一样勇敢。
点击阅读原文,早日成为自己的牛顿❤️