参加Datathon是怎样一种体验?
本文作者张婧子,数据应用学院Data Scientist bootcamp学员及实习生。
她刚刚参加了一次Datathon,本文是她的赛后总结:
在刚刚落幕的Southern California Datathon上,有一组同学斩获了一等奖,获得了$20,000的奖金,而且将前往NYC参加The Data Open并参与$100,000奖金的角逐。
什么是
Datathon
”很多朋友听说过Hackthon,其实Datathon跟Hackthon的整体概念是一样的,是为了让对数据科学感兴趣的同学有机会在一起做一个Project,从而能更好的锻炼自己的技能,获得更多实战经验,跟与自己志同道合的人合作与交谈,拓宽自己的视野。
Southern California Datathon是由Citadel and Citadel Securities联合Correlation One举办的。
比赛以小组的形式,在7个小时之内,给定数据集,并且自己定义问题,最终呈现一份报告作为评判依据。
Citadel和Correlation One今年已经在美国各大高校举办了19场比赛,南加是今年最后一场,所有获得第一名的队伍(共20个队伍)将前往纽约,参加最后$100,000大奖的角逐。
如何参加
Datathon
”我是从学校系统里收到该活动的邮件报名的。Citadel官网上也会有如何报名的信息。
报名的过程要提交Resume and Transcript,并且要做一个关于数据科学的测试。
然后Citadel会从所有的申请中挑选参赛者(据说有500人报名南加的比赛,最后Citadel选了84个人组成了20支队伍参加最后的比赛)。
比赛难点
在哪
”主办方在设计比赛的时候,就想要这个比赛对所有教育背景的同学都是有挑战的,不论你是本科生还是博士生。
对于我这样的在校学生来说,最大的难点是如何找到一个有趣的又可以在7小时之内做好的问题。
7个小时看上去很多,但其实一般的Hackthon会给12个小时,7个小时对于有10+ million data points的数据集来说还是很紧张的。
掌握好时间是脱颖而出的关键。
南加最后获胜的队伍的优势在于他们想到了一个很好的问题:研究NYC一些偏远地区Uber和Taxi的影响(对,我们的数据集是NYC的Uber和Taxi的pickup information)。
他们能够想到这个问题,首先说明,他们对NYC的情况比较了解,而且可以在短时间内把数据整理出来做分析。
这是Data Science比较注重的两个方面,一个是business sense,还有一个就是technical skills: programming and statistical skills.
记得在比赛最后总结的时候,主办方就说,现在有很多的数据,但是你怎么define problem往往比你的分析手段要重要。
但在这个7小时限时比赛中,熟练的掌握所有的分析技能也非常重要。
所以,在数据科学这个领域,熟练的掌握所有的技能和获得更多的经验显得尤为关键。
Citadel举办的Datathon就是在校学生获得更多经验的很好的机会!虽然今年所有初赛已经结束了,但是大家可以关注Citadel官网关于明年的比赛信息。
不成熟的
小建议
”留出充足的时间准备report。我这组最后只剩下不到两个小时准备report,最后的效果自然是一般的。因为report是评判的唯一标准,所以留出充足的时间好好准备至关重要。
2
7个小时时间很紧,所以想一些有趣又好实现的问题会对最后胜出有很大帮助。
3
不要想着在比赛的时候去学习新的算法或者新的技能,时间很紧,用自己最熟悉的工具往往能得到更满意的结果。
4
平常心,享受比赛。虽然最后没有得奖,但是我对这场比赛感受很棒,觉得自己学到了很多东西,也感受到还有很多东西可以学习。其实不在乎输赢好好玩一场也是不错的体验。
往期精彩回顾
点击“阅读原文”查看数据应用学院核心课程