特写|Kaggle被谷歌收购能否复制,中国的Kaggle们走到哪了
大数据文摘作品,转载具体要求见文末
大数据文摘记者 魏子敏
Kaggle被收购的消息让国内数据竞赛平台的先行者们在探索的路上“似乎看到了新的希望”……
当地时间3月8日,Google CloudNext 谷歌云计算开发者大会上,谷歌官方宣布收购 Kaggle。这条扑朔迷离了将近一周的流言终于得到了官方证实。(点击查看大数据文摘相关新闻《谷歌宣布收购全球最大数据科学社区Kaggle》)
Google Cloud Next 谷歌云计算开发者大会上,李飞飞宣布了收购 Kaggle这个消息
“一大早就被这个消息刷屏了”,范向伟笑着说,“很多人转这个消息给我,好朋友、合作伙伴、投资人,说要恭喜我。”
位于上海的数据竞赛平台科赛网创始人范向伟是国内最早探索竞赛平台的先行者之一,他直言不讳的称Kaggle为“前辈”,也坦诚的说,当初做竞赛平台就是受到Kaggle模式的启发。
Kaggle被收购的消息让这些国内数据竞赛平台的先行者们在探索的路上“似乎看到了新的希望”。
“之前大家普遍对于数据竞赛的认真没有那么高,看不到发展模式,盈利模式也在探索,Kaggle的消息出来之后,大家会觉得,原来竞赛平台是这么玩儿的,原来也是有发展前景的。”
Kaggle模式何以震动业界?
▼
在2010年创建之初的时候,没有人能够想到这么一个专注竞赛、商业模式不那么明朗的平台会得到谷歌的青睐。
不管是初学者还是大魔王,只要浸润过数据科学和机器学习界,那么对于Kaggle一定不陌生。各路英豪在这个平台上实战练习、膜拜大神、打怪升级,用某个媒体人的一句话,“简而言之,Kaggle 是玩数据、机器学习的开发者们展示功力、扬名立万的江湖。”
Kaggle之所以成为继Deepmind之外,谷歌收购的另一家震动业界的企业,得益于其对于竞赛平台和社区运营的专注:活跃用户基数大(具体数据从50万到100万仍有待确认)、粘性强。
本次收购Kaggle对于谷歌的意义,同样位于极高的战略层面。谷歌云对于社区的发力,及对于AI民主化的探索,都让人们对于这两个品牌的联手可能产生的化学反应浮想联翩。
国内竞赛平台大势
市场大但处于早期
▼
Kaggle创立于2010年,专注数据科学、机器学习竞赛的举办,很快吸引了大量数据科学家、机器学习开发者的参与。在B端,Kaggle的模式也对接了大批优秀企业,为各类现实中的商业难题探寻算法解决方案。而其基于社区提供的招聘服务以及名为Kaggle Kernels 的代码分享工具也是其社区运营的关键竞争力。
经历了7年的探索,如果姑且把被谷歌收购当作一种成功的话,Kaggle的飞跃得益于数据科学、AI、机器学习的商业机会的被认可和成熟度。而在国内,尽管数据科学、机器学习的热度不亚于美国,但是,相关社区的发展不可否认有着巨大的市场,且依然处于发展的初期。而国内的投资者和参赛者,尽管对Kaggle都有所耳闻,直到看到Kaggle被收购,仍然看不清这样一类只运营社区的公司出路何在。
“中国大赛平台仍处于起步阶段,大家都只是做了一两年。但这个市场充满了机会,用崭新的模式为人才和企业缔造了一个新的沟通方式。”DataCastle数据城堡联合创始人张洋这样看待中国的竞赛平台市场。
国内主要数据竞赛平台发展概况
数据来自各平台官网
总部位于成都的DataCastle数据城堡大数据竞赛平台是中国起步最早的数据类竞赛平台之一,其发起人、电子科技大学教授周涛是《大数据时代》的译者之一,也是国内最早关注并推进大数据的先行者。(点击查看大数据文摘文章:《对话周涛:抓住大数据最性感的方向》)
数据城堡官网首页及其Slogan
周涛教授在其翻译的《大数据时代》一书里曾多次提到过Kaggle及其模式。他非常认同这种竞赛平台的模式,也展开了相关实践,和他的创业合伙人张琳艳共同打造了DataCastle数据城堡这个平台。
在大数据文摘对周涛的几次采访中,他都不无骄傲的提及过竞赛平台对于中国数据科学人才培养以及产业发展的重要意义:
对于企业而言,这样的竞赛一方面可以解决一些具体的问题,另一方面可以推广企业的雇主品牌,也能够帮助个别企业进行大数据人才招聘;
而对于大数据爱好者来说,在一场竞赛中可以得到很多东西:学以致用、拓展人脉并找到自己的圈子,还有收获奖金和机会。
“盈利模式的探索需要缘分”
Kaggle模式可以复制吗?
▼
“其实我们也对Kaggle的模式有很多疑惑,比如它到底赚钱吗?”科赛网创始人范向伟称Kaggle本身也曾经尝试做过咨询和猎头,但都不是很成功,后来就开始专注做竞赛,“但是我们还是一度怀疑过竞赛平台到底是否真的有盈利模式存在?”
数据城堡官网首页
范向伟创建的科赛网可以说是几家竞赛平台中背景最“草根”的一个,而“科赛”的名头也远不如它所承办的第一场竞赛“上海开放数据创新大赛(下称SODA大赛) ”响亮。
15年3月跟上海交通大学合作了国内第一个比较专业的数据创新大赛后,硕士在读的范向伟和他的团队得到了学校和上海政府的支持,拿到了承办上海开放数据创新应用大赛的机会。当时范的团队里只有4个没有毕业的研究生同学,却因为这个成功将政府、开放数据与年轻的数据血液对接起来的数据大赛一炮而红。
“我们基于SODA大赛的机会认识了现在的天使投资人,然后就休学,去跑业务,找投资,直到现在。”范这样轻描淡写地说完了自己3年的休学创业之路。
而大赛之路虽然起步了,想探索持续有效的盈利模式却并非易事。采访中,几家数据竞赛平台的创始人也都表示,做大赛运营、推广渠道门槛比较高,仅靠竞赛的企业佣金来作为盈利模式也太过单一。
“Kaggle在历经了6、7年的发展后始终没有找到一个很好的商业模式,主要靠卖比赛收取服务费赚钱,但平台上的比赛频率并不高,大部分奖金也很少,所以收益应该不高。”阿里云高级专家,天池平台负责人,王一婷如此评价Kaggle模式。
DataCastle(数据城堡)联合创始人张洋也称,“竞赛平台是赢利点,但不存在爆发性、高增长的价值,因此被互联网巨头所关注的是其在其他方面具有的意义。”
与企业合作办比赛拿佣金,一般是抽取奖金的10-20%作为服务费,这样简单的模式,只是办比赛的话勉强自负盈亏,但是如果同时需要应对技术研发上的投入,则会面临比较大的压力。
背靠阿里云的天池竞赛平台无疑是国内最大的竞赛社区。作为国内最早起步,积累了全球近7万数据极客的平台,天池拥有着计算能力、数据科学家团队、生态合作伙伴等各种资源。但即使是天池,依然面临着盈利模式的挑战。
天池平台官网首页
“阿里云对天池的态度是投入,阿里云希望把计算能力开放给更多在天池平台上进行数据探究、进行数据创新、进行数据研发的年轻人”,王一婷表示天池也在积极探索盈利模式,“而对于天池团队的成员来说,我们是希望能做到自负盈亏的,现在也看到天池的品牌被越来越多的客户认可,并愿意支付一定费用。”
创始人的背景和资源决定了DataCastle数据城堡大数据竞赛平台的发展道路与“教育”有比较紧密的结合。
与Kaggle和天池专注竞赛的模式不那么一致,DataCastle数据城堡在探索一条基于社区、相对明晰的生态闭环。DataCastle数据城堡的联合创始人张洋介绍道,“竞赛是一种很好地学习交流的方式,但是中国当前更多的是需要系统培训的种子用户,通过集中培训后输送到企业。通过竞赛,帮助用户发现知识盲点和弱点,再对接在线教育,依托高校背景提供优质课程资源,人才输出的业务再跟上。既有学习资源,又有企业招聘对接,这是流程化的闭环生态,可以源源不断的为社会输送大量优质的机器学习与数据科学人才。”
黑客不够用了?
中国的竞赛平台市场有多大
▼
“黑客大赛太多,黑客都不够用了”,这句在业内流传颇广的段子也道出了国内数据竞赛平台发展的另一个挑战:C端用户的积淀。当被问及平台发展最大的挑战时,一位很看好竞赛平台市场的投资人如此回应。
除了阿里这样的本土企业,海外大的软件巨头如赛仕软件公司(下称SAS)也在不遗余力的举办相关大赛,争夺人才市场。去年,SAS举办的“汇丰杯"2016年中国高校SAS数据分析大赛涵盖了17个赛区658支队伍,参赛人数超过2000人。“(举办这样的大赛)是我们培养大数据分析人才,非常重要的一个推手、摇篮。”SAS大中华区总裁吴辅世如此评价相关大赛对于公司的战略意义。
B端企业对竞赛的敏感度正越来越高,政府也在认识到竞赛对于解决问题的重要性。Datafountain大数据竞赛服务平台是中国几家最主要的大数据竞赛服务平台之一,也已经连续四年组织中国计算机学会(下称CCF)大数据创新创业系列赛事。从历年大赛参赛人数看,企业方对于竞赛平台的敏感度正越来越高。
去年,CCF大数据与计算智能大赛的参赛队伍达到了8654支,比历年翻了几番。一些企业级参赛队伍在参赛获奖后,也获得了政府端赛题提供方后续的项目承接,这也让工业界也越来越看重竞赛平台的优势。
Datafountain大数据竞赛服务平台官网首页
大数据、机器学习的持续火热,使得更多的中国年轻人希望进入数据科学领域,也为中国竞赛平台的发展提供了巨大的空间。而除了比赛的需求,竞赛参与者对于行业的了解、社交的需求等,都要求竞赛社区提供更进一步的优质服务。
而C端用户的运营模式能不能得到认可则需要平台运营者去了解用户的需求点,需要给用户一个简单易懂的工具把大数据玩儿起来。
尽管天池平台注册用户量非常大,一些火热的大赛,参赛人数甚至超过了Kaggle,但天池平台负责人王一婷坦言,目前国内用户乐于分享和交流的习惯仍然需要培养,这是国内社区和国外社区用户的明显不同,也是天池目前面临的最大挑战。
而像科赛网、DataFountain这样更小更垂直的平台,社区活跃度的运营就被摆在了更重要的位置。尽管创业团队小,时间精力都有限,社区运营人员还是占到了团队中除技术开发人员之外人数最多的职位。而国内几家竞赛平台在运营上也依托各自的资源,有不同的玩儿法。
几家竞赛平台都开发了相关论坛,希望用内容分享的方式留住参赛选手,也调动社区的活跃度。Data Fountain从去年年底开始拓宽内容运营团队,引入了不少新媒体运营人员。
此外,与企业合作进行线上培训也是留存用户的另一种方式。去年年底,科赛网开始与合作企业共同举办免费的数据科学训练营,通过线上培训解决问题的方式,解决企业的问题,希望能够借此产生比较持续的产品。
尾声
▼
当被问及最大挑战时,科赛网的创始人范向伟犹豫了几秒钟:“这个我得好好想想,挑战太多了。”
“中国大数据发展还处于早期,我们自己的团队也比较年轻,没有特别完整的商业模式可以照搬。怎么借鉴中美的经验找到一个我们自己走得通的商业模式,是很有挑战的事情。很可能你事情做得很好但是商业模式不成立,最后就变成了做公益。”
Kaggle被收购似乎标志着一个对标对象的退出,对于这些竞赛平台来说,这肯定是一个好消息,“至少我们更加肯定自己选了一条有前途的道路”。
点击图片阅读文章