查看原文
其他

没用过TF,没摸过GPU,我算不算是真正的数据科学家?

2018-01-14 专注报道AI AI前线

作者|Brandon Rohrer
译者|Debra
编辑|Emily
AI 前线导读:KDnuggets 每月都会评选几篇优秀博客,其中在一篇被评为“silver blog”的文章中,一位数据科学家描述了自己作为数据科学家的心声。在他的眼里,自己好像一个“诓人的骗子”。

更多干货内容请关注微信公众号“AI 前线”,(ID:ai-front)

我从来没有用过 TensorFlow 或 Keras 这些深度学习框架。

我从来没摸过 GPU。

我没有计算机科学和统计学学位。我的学位是机械工程。

我不知道 R 是个神马东西。

但我没有放弃希望。在阅读了大量的招聘信息后,我发现要想成为一名真正的数据科学家,我需要有五个博士学位,以及 87 年的工作经验。

如果这听起来很熟悉,你就知道你并不孤单。你不是唯一一个不知道自己打着数据科学家的名头还能蒙混多久的人。你不是唯一一个会做噩梦,梦到在下次面试中被嘲笑的人。

患上“诓人综合征”的人会常常感觉你所在的领域所有人都比你更强,你永远不会得到工作机会,或者已经有工作时会觉得你被录用一定是招聘过程出了什么岔子。尽管统计上不可信,但我们大多数人都觉得自己低于同行的平均水平。我从和同事交谈中估计,十分之九的人时不时地会认为自己是个“诓人的骗子”。(如果你对这个完全不熟悉,建议你读一下 Kruger 和 Dunning 的《不熟练,不知道》这篇具有反省意味的文章)。



真正的数据科学家是什么样的?
“数据科学”是一个让人激动的词,它就像一块磁铁一样对附近的子领域产生吸引力。我们所说的数据科学领域还比较年轻,这个领域之广让一个人很难成为所有子领域的专家。以我的经验来看,数据科学万事通之类的人才是一个神话般的存在,因为没有一个人的专业可以涵盖所有的知识。那么,我们该怎么办呢?
有两条路可走:通才或专家。

一个优秀的多面手


  • 对数据科学的所有部分都一知半解,

  • 认识所有的术语和技术术语,

  • 对于需要什么工具和专业知识来解决特定问题有很好的概念,

  • 在技术评论中可以提出有见地的问题。

而一个优秀的专家


  • 需要深入了解某一领域

  • 可以向非专家解释他们的专业领域

  • 了解不同方法之间的利弊

  • 时刻跟上最新的研究和新工具的步伐

  • 以及可以快速使用工具产生高质量的结果

而通才不一定知道算法的工作原理和使用工具的技巧。他们会告诉你,数据清理是至关重要的,但可能无法枚举替换缺失值的不同方法之间的利弊。他们会告诉你,Spark 是加速计算的好方法,但可能无法建议你应该如何最优化设置。

专家不一定对自己专攻领域之外其他领域的事情了如指掌。他们知道在 5 亿个数据点上进行线性回归的最佳架构,但可能无法解释朴素贝叶斯分类器。他们可以敏锐地捕捉到平方损失、铰链损失和逻辑损失之间的权衡,但可能无法从 Hive 表中查询数据。

另一套可以描述通才和专家的词是“宽泛”与“深度”。他们都精通技术,但他们擅长的的专业知识不同。我们都是某些领域的通才和某些领域的专家。随着你的事业发展,你会发现最适合你的领域。

当雇用数据科学家时,这种区别也是有所帮助的。招聘一个具有深度神经网络研究经验或财务数据可视化背景的人才,将会比招一个“全面”的数据科学家更符合岗位需求。

 如何证明你是一个真正的数据科学家?

通常,我们通过获得高等学位证书来证明自己的资格。不幸的是,对于我们大多数人来说,数据科学方面这样的学位不多。当有人质疑我们的资格时,我们没有可以拿来当挡箭牌的论文。那我们该怎么办呢?我们怎样才能回应来自批评者、采访者、同事,以及最难听的质疑——我们脑海中的声音呢?

这就好比木匠做工。想象一下,你想在你的厨房里放一个定制橱柜,有三名木匠争取这份工作。其中第一个人给了你一个证书,她说:“我在本市跟着最好的橱柜木匠学习了七年木工。”第二个打开她的工具箱,说:“我的凿子是最新的设计,没有人比我的更锋利。”第三个人递给你一个光滑的樱桃色小盒子。当你用手指轻拉手柄时,一个小巧的抽屉无声地滑出来。她说:“这是我做的。”

证书、工具,以及代表作品集都是你树立职业资格的方式。我不会觉得这三个人谁更优秀,但是对于数据科学家来说,代表作品集更有说服力。数据科学家的认证不多,且没有一个标准,拿出算法和计算机语言认证并不代表我们对其了解有多深,或者我们可以用其做什么。我们可以向非专业人士讲构建之类的事情,向技术采访者和同事讲专业知识。当然,这并不能保证你在第一次面试时会顺利找到工作。如果被 pass 了也没关系,这很正常,接着找。

 成为真正的数据科学家的感觉如何?

请注意,通才和专家都有很多他们不知道的东西。这意味着,即使是真正的数据科学家很多时候也会感到迷茫。项目负责人会问一些我们不知道答案的问题。同事们会高谈阔论我们从未听说过的算法。团队成员会编写我们无法解读的代码。一些文章会引用我们根本不知道的热门子领域。档案文件里的方程式可能是象形文字似的胡言乱语。实习生可能会指出我们的推理中最基本的错误...... 好吧,你没做错什么,别在意。

我们的目标不是累积答案,而是提出更好的问题。如果你可以提出问题,并使用数据找到这些问题的答案,那么恭喜你,你就是真正的数据科学家。虽然只是暂时的。

今日荐文

点击下方图片即可阅读

人工智能的价值一定在于进攻,而非防御



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存