其他
我要这金牌有何用:Kaggle 竞赛成绩真能「保送」谷歌、FB 吗?
参与:李泽南、郑丽慧
转自:机器之心
那些在 Kaggle 上获得金牌的数据竞赛大神们都找到了好工作吗?现实或许没这么美好。
有很多 Kaggle 入门教程都会提到:这是一个在业内拥有很高认可度的竞赛平台,在你的简历中附上 Kaggle 成绩,会对找工作很有帮助。
我不是金牌获得者,但是在自身领域也得过两枚银牌。其实得 Kaggle 的奖还是有用的,很多 Kaggler 在 Linkedin 上加我,面试的时候这段经历也经常会被提到。就算搞自由职业时,这也是你谈价格的筹码。 你可以说,我值这么多钱,因为我在 Kaggle 上解决过一个类似的问题,并且排在前 100 位。
我也赞同,在 Kaggle 上做得好不代表就是一名好的 ML 工程师,Kaggle 太过关注纯数据科学,寻找创意集合体,然后花费大量时间(或者你还要花很多钱)进行实验,同时尽可能减少过拟合。对于竞赛而言,最好的模型就是能够供整个社区使用,你的主要任务也是做到这点。
「Kaggle 不会主动带来大厂 offer,但非常有用」
我现在就是一名自由职业者,职业方面还不错。Kaggle 确实给我带来了一些不错的资源和回报,我也经常收到创业公司的邀请,这还是在我没有推销自己的前提下。 不过没有 Google/OpenAI/Facebook 的邀请,也没有天价薪酬。
我个人觉得你应该在 Kaggle 上多努力,如果说是为了找工作,Kaggle 是不会为你自动带来 offer 的,但是一个好的 Kaggle 成绩当然非常有用。
还有一位网友建议发帖者更关注实践经验:
首先我觉得这个取决于你参加比赛的类型。 在我(有限)的 Kaggle 经历中,我发现那些获奖者很少拥有最佳模型。如果模型要通过准确性得分/ AUC 进行评估,可以说前 10 名团队的得分都会大于 99.5%。你知道,这些模型大部分都被遗忘了。
所以我觉得赢得 Kaggle 比赛不一定会让你成为优秀的 ML 从业者。不错,接近完美的准确性是很好,但如果暴露在真实数据中时完全瘫痪,那就不是一个成功的模型。
而且,通常在一些数据竞赛的最终排名中,前几名之间的区别只是算力的区别,有时甚至前 20 名之间的分数差距都不是特别明显。我见过在一些竞赛上,排名榜单从头到尾使用的模型都几乎相同。我个人认为,使用可行的,耗费算力更小的模型,要比一个过拟合的巨型网络要好得多。」
以我有限的经验看来,赢得 Kaggle 比赛最重要的问题在于赛会设置的评估标准——而它们并非总是有意义的。我们必须选择一些标准来评估每个人的水平,而这个标准并不总是适合他们要解决的实际任务。 Kaggle 竞赛往往关乎如何按照最佳规格进行工程设计,而不是如何构建最好的模型,来解决数据科学的具体问题,前者意味着更多的竞争意味。
Kaggle 可能不像大多数人印象中的那样,是表现人们擅长机器学习、数据科学的最好指标。在工作中,我面试过一位全球总榜排名约 100 位(Kaggle competition master)的求职者,以及一名在某项竞赛中排名第二的求职者。 当我问机器学习理论细节时,回答的很好,但在架构设计问题上就显得一般了,抛出代码挑战问题之后,他们都惨遭失败。我很确定他在 Kaggle 竞赛上所做的一切只是学习公共内核(Kernel)、调好超参数、几何模型,然后花大量时间测试。我怀疑他每一步都使用了别人的代码,耗费了大量的时间和精力。虽然我们知道他的 Kaggle 成绩没有造假,但是他的代码能力太差,让人不由感到怀疑。
如果喜欢本篇文章,欢迎转发、点赞。关注订阅号「Python数据科学」,回复「进群」即可进入无广告技术交流。
1、微软也爱 Python!VS Code Python 全新发布!Jupyter Notebook 原生支持终于来了!