查看原文
其他

数据科学:让我继续对世界好奇

2016-04-20 陈衢 开智学堂

如果说开智学堂 Python 基础班让我走出了洞穴,那么数据科学基础班则让我进入了文艺复兴时期:蓦然发现,仰望星空,世界之大,美不胜收。

我曾用直觉预测未来

我是一个以交易为生的人,大学毕业之后,没有按部就班去找工作,而是凭着血气,投身到波动的证券二级市场中。当时的自己是那种相信市场所有信息都会反映在价格的波动中的「技术派」,靠直觉进行交易,靠直觉预测未来趋势。

七年来,我无时无刻不在和这个「令人着迷的市场」打交道,随着投入市场交易的时间和精力越来越多,我渐渐发现市场中有许多行为模式具有某种的周期性特征,单凭眼睛和直觉去寻找和区别这些规律费力又不讨好。当时我就隐隐在想:对于重复行为,包括群体情绪反应和行业投资规律,一定有更好的方式和路径来描绘。也就是在那时,我意识到自己生命中还缺少一门必要的基础知识。

和 Python 初次相遇

一次偶然的机会,我和一位转行程序员的同学聊天,发现 Python 非常适合我,似乎是命运的安排,就在萌生学习 Python 的时候中看见了开智学堂 Python 二期的课程报名。

在与导师大妈学习 Python 过程中,我愈发看到 Python 作为一门数据分析性语言的优势,也渐渐迷上了大妈特别推荐的「数据科学家范」的 ipython notebook。虽然在学习过程中遇到了很大的困难——对 shell 和 linux 等计算机操作有天然的排斥,出现 Error 时会脸红心跳等,但最终也克服了种种困难,治愈了「Error 恐惧症」,自此爱上魅力无限的 Python。

Python 课毕业之后,我已具备坚实的Python基础,这让我有信心重新启程接受更大的挑战,是的,下一个挑战就是数据科学课。

扬帆起航,向通才迈进

带着期待与憧憬,我报名了开智学堂数据科学基础班一期,也有幸和本次课程小赖助教(感谢他在 Python 课中的帮助)再次一起学习。习惯了 Python 课强调操作的学习方式,一开始对强调理解基础知识的数据科学课有些不适应。当然,在导师和助教的帮助下,我很快就抓到了重点和正确的学习方法,全身心投入到课程中去。

数据科学是一门交叉性很强的学科,也是一门通才课,一方面需要扎实的统计学和计算机科学的基础,另一方面,又需要有对于特定领域的感觉和经验。这是一门值得花时间和精力投入的课。

刻意训练

耐心地、谦虚地保持大时间周期的刻意练习。—— 阳志平

阳志平老师写过一篇关于刻意练习的本质的文章,强调一万个小时定律只有在投入时间有助于塑造长时工作记忆(Long-term working memory)的前提下才有效,否则投入再多的时间也无法取得好效果。这在数据科学的学习中尤为重要。

数据科学课涉及知识很多,涉及数据抓取、到数据清洗、到数据可视化和数据建模和机器学习,而且国际计算机和统计大牛或多或少都会涉足数据科学,使得数据科学积聚了大量的研究资料。虽然「数据科学家」这个词汇问世不久,但之前的 Data mining 和统计学、建模都已经成熟。因此,如果没有刻意训练,就会陷入情绪瘫痪之中。

这期数据科学课提供了一种从整体俯瞰数据科学领域所有知识架构体系的视角。从工具基础到简单的数值计算和数据绘图,再到之后相对难度大的统计分析和机器学习,此课程都有一个总览。更关键的是每一节课程都能够基于一个 Python 包进行使用,从 Numpy、Matplotlib 到 Pandas、Statsmodels 和 Sklearn。在结业阶段,我已经基本具备获取和处理数据的能力。这种课程安排符合必要难度的理论,让我能接受「难度适中、能收到反馈」的训练,使我能持续学习近 3 个月多而丝毫未想过中途而废。

咀嚼数学的味道

学习数据科学离不开数学,在课程中,我改变了长久以来对数学的偏见。小时候学习数学很在意数学竞赛中获得的名次,后来优势减弱,以至于在大学学习高等数学时遇到复杂的公式就望而生畏,似乎从来没有真正进入过数学世界。

课程初始,我认真思考了一个问题:数学为何存在?头脑中蹦出了一个答案:为了简化人们对于世界的认识。可是,在学习中,我一直觉得「数学是高大上的」,这并不有助于学习数学。当真正想明白之后,也就不再执着于理解所谓的「复杂公式」,而要从源头理解这些公式的最初目的和局限所在。

数据符号并非不可破的密码,在数据课程课中,我第一次如同咀嚼美食一样有滋有味地咀嚼数学。

如果学科都是有性格的,那么数学的性格是谦卑的:描述一个新概念,把将所有前提都列出来;不夸口任何她不知道的东西;做预测时附上置信度,如同在说:你不用相信我,相信你已有的知识,用它判断吧。

与数学做朋友,难道不是荣幸吗?

不仅学数据科学,更学思维

对数据并不敏感的我,却一直对抽象世界好奇和执着。现在岁数不小了,正觉得学习数据科学是最后一次能够改变思维的机会。

网络资源浩如烟海,但我相信,功夫不负有心人,只要功夫深铁杵磨成针。本着这种信念,我从学习最简单的公式推导开始,进而理解数据分析最基本的方法,最终将数据分析思维融合到未来工作生活中。开始的改变困难重重,但在最后,这些困难都成为我人生的惊喜,以下就是我得到的惊喜:

  1. 矩阵 Matrix:感受最深的思维之光来自 Matrix 矩阵,矩阵将分散的数据构成一个有序的整体,同时在不同维度上自由组合和拆解,是这次数据科学学习之后放入思维框架中的魔方。

  2. 数据可视化:相信大部分人会有和我一样的苦恼,容易被各种华丽的图形所诱惑而选择远离,但既已明白人类天性难改,那主动重构视觉对象或许是更明智的选择。好的内容需要好的承载形式,可视化可帮助自己更高效和轻松地理解数据意义,真正将数据转化为行动力。

  3. 机器学习:此次的数据科学课带我进入了机器学习的大门。机器学习尤其是深度学习,使机器人第一次能够站在人的视角看点问题。与此同时,作为一个人,也要懂得站在机器的角度看问题。这就让学习本身就变得非常有趣,最直接的体现就是,机器学习的经验积累指数级的增长让我一直引以为豪「直觉思维」不再傲娇,让我明白我需要不断地学习,逐步打破原有的思维疆界。

网络的传播使得知识被广泛传播,但相对于知识的传播速度,杂质的传播速度更快。

—席佛 《The Signal and the Noise》

学习过程中肖凯老师的每一个讲解,小赖助教的每一次示范,学员的每一次提问,都值得关注和学习,无处不在的同侪压力让我不断进步成长。这让深刻感受到:善用集体智慧助力个人学习是很棒的学习方式。

这次的数据科学基础课的学习也让我开始认真思考自己成为数据分析师或者寻找编程方向职业的可能性,尝试除投资之外更多有趣的事情。

碧波千里,乘风启航,来吧,与我乘上数据科学这艘航空母舰,继续对未知好奇,继续对未来憧憬,一起去探索更广阔的新世界!

点击下方「阅读原文」,立即报名参加迷人的开智学堂数据科学基础班第二期!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存