其他

被谷歌收购后,改变很大 | 独家专访Kaggle华人“主考官”甘志雯

2017-08-06 DeepTech深科技


在数据科学(Data Science)领域,Kaggle 可以称得上是一座人人都想挑战的高峰。今年 3 月, Google 在自家 Cloud Nest 大会上,由 Google 云端人工智能兼机器学习首席科学家李飞飞正式宣布收购 Kaggle。消息一出,立刻引起整个数据科学界的热烈讨论。


不难猜想, Google 想要做的是透过 Kaggle 提升在数据科学、机器学习方面的影响力,进一步还可以扩大 Google Cloud 业务,强化发展人工智能所需的竞争力,同时吸引众多优秀人才。

 


Kaggle 成立于 2010 年,是一个集合社群、竞赛、用数据解决问题三个核心于一身的平台。不论是企业、某个领域的研究组织、甚至是政府机构,都可以把数据集(dataset)跟想要解决的问题丢上去,请数据专家来帮忙解答。


从另一个角度来看,Kaggle 上聚集了众多对机器学习、人工智能有兴趣的人,包括数据科学家、统计高手、工程师或者是学生,他们利用数据采矿、深度学习、统计等方式搭建出解答问题的模型或算法,胜出者就有机会获得礼品、奖金或是工作机会,当然也有不少参加比赛的人是纯粹出自兴趣。

 

例如,全球最大卫星影像公司 Planet,主要是透过卫星影像监控亚马逊雨林的变化,但他们发现还是有些问题无解,例如无法分辨雨林的减少是人为造成还是自然因素,所以在 Kaggle 上举办比赛,希望可以有更好的算法来保护亚马逊雨林,吸引了不少关注生态议题的人参与。

 


另外,美国国家海洋和大气管理局(NOAA)阿拉斯加渔业科学中心利用飞机空拍与定点摄影机,长期观察阿留申群岛上的海狮数量,前阵子就在 Kaggle 上办了一个数海狮数量的比赛,要选手利用照片算出五大类海狮的数量,计算结果最接近实际数量者获得冠军,最后成功摘下冠军的是来自台湾的 outrunner。

 

十分低调的 outrunner 对DT君表示, Kaggle 是一个能吸引人进一步学习的平台,他透过参加比赛的方式研究深度学习、目标识别等,加上他个人喜欢自然生态,如果能透过数据科学帮助生态环境的比赛往往都能吸引他参与,除了数海狮之外,他也分别在大自然渔业监测大赛和亚马逊雨林的比赛夺下银牌和铜牌。

 


正因为 Kaggle 上高手云集,吸引不少大型企业、机构都到此举办比赛,比如Google、Facebook、Airbnb、沃尔玛、Benz、Bosch、英特尔、西班牙国际银行(Santander)、欧洲量子物理研究所(CERN)等,而且奖金额度更已有突破百万美元等级的案例。

 

近期的例子就有美国知名线上房地产资讯平台 Zillow 的 120 万美元奖金,希望优化现有的房价预测模型。美国国土安全部(DHS)更大手笔抛出高达 150 万美元的竞赛奖金,寻找高手以协助他们处理机场安全检查的问题,因为美国交通安全管理局(TSA)每天得检查超过 200 万人次,但 DHS 发现既有算法有高错误警报率的问题,他们除了要求扫描设备供应商升级算法,更跑到 Kaggle 向来自全球的数据科学家求救。

 

图丨Kaggle上奖金排名前五的竞赛


Kaggle 创始人 Anthony Goldbloom 在澳洲墨尔本大学毕业后,曾经在《经济学人》杂志当过实习记者,之后进入澳洲联邦政府财政部(Australian Treasury)、澳洲储备银行(RBA)担任经济计量学家。当时他就预见数据科学将在未来扮演重要的角色,就在澳洲曾建立了一个数据科学家的线上社群。但他心想,为何不把数据开放,让大家通过比赛的方式找到最好的算法?


图丨Kaggle 创始人 Anthony Goldbloom 


所以,他把公司搬到硅谷从而创立了 Kaggle,依靠社群成功累积了庞大的用户, Goldbloom 日前接受澳洲媒体采访时表示,“Kaggle 今日已经拥有一百万用户,未来几年还会成长十倍甚至百倍,因为这个领域的人才需求缺口还很大。”他曾被评为 2013 年《麻省理工科技评论》全球35岁以下青年科技创新人士,而 Kaggle 在今年加入 Google,更是近年创业领域的成功范例。

 

怎么出考题?

 

然而,想要参与到 Kaggle 的比赛中却并非易事,因为一道道挑战题目都难度极高,不少中国的数据专家都参加过这些竞赛,而且成绩都非常好。


在 Kaggle 选手排行榜上(依照选手比赛成绩),目前排名全球第五的 Eureka 就是来自中国。据了解,在 Kaggle 内部有一个依照比赛成果的国家排名,中国就在前三名之内。

 

不过,在背后设计竞赛考题的人又是谁?DT 君独家专访了 Kaggle 数据科学家甘志雯(Wendy Kan)。 


图丨甘志雯


一头长直发,作风干练,是甘志雯给人的第一眼印象。从台湾的清华大学电机工程硕士毕业后,她跑到美国继续念书,而且还转换专业,到德州大学奥斯丁分校攻读生物医学工程博士,她笑说:“刚去美国时,考试都要带电子辞典”,不过尽管初期辛苦,但她始终很清楚知道自己的目标:“换专业是要让自己变得更强,被丢到全新的领域就只能往前冲。”

 

博士班毕业后,甘志雯先进入 GE 旗下专门负责研发跟创新的 GE Global Research 担任生物医学工程师,帮忙设计公司内部使用的一套软件,为从事癌症研究的同事们提供更好的影像辨识软件,来侦测癌症细胞不同阶段的变化。之后,她又进入知名生物技术公司基因泰克负责后端软件开发,直到三年多年她加入了 Kaggle,成为 Kaggle 的数据科学家。

 

图丨甘志雯在演讲


Kaggle 的数据科学家要做什么?“我的工作就是负责设计算法的比赛,把客户给的数据快速整理成可以上架到 Kaggle 平台,简单来说就是出比赛考题”,甘志雯简单扼要地说明她的工作。乍听之下好像很简单,但其实却是冗长的过程。


举例来说,当企业或机构单位想要在 Kaggle 举办比赛,会先接触到 Kaggle 类似产品经理角色的人员展开初步沟通,合作共识达成后,就会开始由数据科学家接手。他们与企业沟通,理解对方想要解决什么样的问题、拥有什么样的数据、怎么衡量模型的效益、评价指标有哪些等等。



所以客户会将庞大的数据交给甘志雯,她必须在很短的时间内熟悉这些数据,并且设计出适合这份数据的比赛规则和目标。


但她经常会遇到客户说:“这些数据很机密,但我又很想办这比赛,怎么办?”所以就要得帮他们想出适当的方法。直到双方都认同后,就会把数据整合为比较干净的模式,也就是数据清理(Data Cleansing),去除错误或不一致的数据。最后再把这些数据放到 Kaggle 平台上让使用者取用。一般 Kaggle 上的比赛赛程最多是 2~3 个月,参赛者必须在期间内递交自己设计的算法。

 

但因为客户来自各行各业,每一家公司的数据政策跟技术能力落差非常大。一般来说,如果客户技术水准高,有很强的数据科学家,甘志雯就会提供 Kaggle 的准则请对方把数据弄干净,但有些客户没有这些能力,这时就得花费许多时间协助,经常得来来回回沟通好几次。据了解,如果客户需要 Kaggle 人员帮忙清理数据,一小时计费 200~300 美元。

 


“这工作就很像去别人家,把他们的衣柜搞清楚,有人的衣柜很整齐,有人乱七八糟,Kaggle 协助你把前面一半到三分之二的路走好。”甘志雯打了一个有趣的比方。所以数据科学家不只是懂工具、懂逻辑,好的沟通能力同样很重要,而且投入时间并不是每次都能开花结果。

 

前阵子就发生了一个案例,一个关注海洋生态的环保机构找上 Kaggle,希望能开发一个算法可以取代现有的人工标记方式,甘志雯带着客户一起做,从拿到数据到整理就花了差不多两个月的时间。一切准备就绪后,才发现客户先前在某一个网站上就已经曾公开所有的数据,所有人都可以取得,但根据规范,参赛者必须使用 Kaggle 所提供的数据集来训练模型,为了维护竞赛的公平性,因此客户必须选择把网站的数据撤下,或是再搜集新的数据来做比赛,因此这个案子只能临时喊停。

 

Kaggle 被纳入 Google

 

把时间拉回到今年初,那时甘志雯正接下一个重要的案子,就是与 YouTube 合作举办一场视频分类比赛。

 

在 Google 机器感知研究中心(Machine Perception Research)底下有一个视频理解(Video Understanding)小组,主要的任务是建立大规模的计算机视觉和视频理解系统,好让 YouTube 的使用者可以更简单的找到一些很棒的视频内容,因此他们在去年 9 月公布了 YouTube-8M,那是一个包含了 800 万个 YouTube 影片、合计影片时数超过 50 万小时超大规模、带有标记的影像数据集,让开发者可以用来训练机器学习的模型。而 Kaggle 与 YouTube 合办的这场比赛就是希望挑战者利用 YouTube-8M 的数据,开发出能够正确指派标签的分类算法。

 

图丨YouTube-8M


甘志雯回忆,这场比赛是一个企业界跟社群建立起非常好的互动关系的案例, YouTube 他们本身的技术就已经走在很前面, 当时他们内部设定预估模型准确度分数(Leader Borad score,LB score)的基准(benchmark)是在 0.78,不过,社群里出现很多好的想法,比到一半就有参赛者的 LB score 来到了 0.8,大家持续来回切磋,最后获得第一名的分数是在 0.849。这一种出于善意交流的态度,激励彼此一起往前走,这也是 Kaggle 的真缔。

 

不过,她也透露了一个小故事,就是在她接这个专案一个月后,听到公司创始人说他们要被 Google 买了,“他对我说,这个跟 YouTube 的合作案你千万不能搞砸!”尽管公司被收购,但并非所有人都可以直接成为 Google 员工,所以“当同事都开始准备跟 Google 面试,我没有时间准备,因为要弄 YouTube 比赛,当时真的很想哭。”她开玩笑的说。

 

图丨李飞飞在 Cloud Nest 大会上宣布收购 Kaggle 的消息


今年三月,李飞飞宣布 Google 收购 Kaggle,传言成了真实的交易,没有时间准备面试的甘志雯,现在成了 Google 庞大体系的一分子。嫁入豪门后的 Kaggle 会有什么改变吗?“这个问题常常被问,对用户来说,不会看到有改变,都是独立的平台,这是当初准备卖的时候 Google 给予的保证”,她说。

 

不过,对员工而言改变却很大。以前的 Kaggle 办公室位在日常的公寓里,里头两个房间、两间厕所,被买了之后,Google 替他们退租了,Kaggle 团队搬进了 Google 办公室工作。更重要的是“资源变很多”,不论是可运用的运算资源或是 Google 内部跨团队的专案合作,甚至是更远大的目标。

 

“我们必须降低进入 AI 领域的门槛,让更多开发者社群、用户和企业使用 AI,进而满足不同的需求。Kaggle 加入 Google,我们可以加速这一个使命”,这是李飞飞在 Google Cloud 博客写下的一段话,Kaggle 在社群累积了庞大的用户,而且不乏愿意分享心得、代码、解决方案的高手,让更多的人可以学到知识及技能,“有助 AI 民主化”是 Google 看中 Kaggle 的原因,也是那个更大的目标。

 


对于身为一个出考题的人,在采访时 DT 君问她:有没有什么可以在 Kaggle 赢高分的秘技?甘志雯不改酷酷本色的说,“多学, 就算你很有经验也不一定会赢。” 多参加比赛、多在 Kaggla 或社群平台与其他人交流,另外网络上有不少课程可以利用,多上且多听。


鼓励女生勇闯数据科学领域

 

在科技产业,女性一直相对少数,不过近几年在数据科学领域女性的重量级人物越来越多,产业界里除了华人圈比较熟悉的李飞飞,还有亚马逊首席科学家 Animashree Anandkumar、商业数据分析软件公司 SAS Institute 全球副总裁 Jill Dyche、Netflix 科学及算法副总裁 Caitlin Smallwood、AI 新创公司 Nara Logics 首席执行官 Jana Eggers 等。

 

图丨亚马逊首席科学家 Animashree Anandkumar


今年三月,在斯坦福大学举办的女性数据科学会议(The Women in Data Science Conference,WiDS)上,早期临床试验的数据科学平台 Litmus Health 联合创始人 Daphne Kis 就讲,“数据将会扩大女性领导人的社会影响力。”她认为,过去大部分的大数据决策工作都保留给电脑科学家,但我们正从大数据转向数据科学,目前全球统计专业毕业生有40%为女性,这是一个很好的指标,为女性打开了大门。

 

身为相对少数的女性数据科学家,甘志雯同样很鼓励女生积极参与相关社群,象是鼓励女生学写 R 语言的全球 R-Ladies 社群,在台湾举办女生参与 Kaggle 的活动时,甘志雯还特地通过视频鼓励大家,同时她也正在筹划明年 WIDS 相关活动。

 

图丨全球 R-Ladies 社群的发展


她认为,数据科学一直都存在于日常生活中,过去,可能是统计学家或IT人员才会使用,不过近年随着科技的进步,电脑的计算能力进步很多,再加之网络的普及,让大家比以前更容易地获取数据并进行分析。


就像有人在网上随便讲一句话,其他人就可以迅速找到资料来证明所说的东西是对的还是错的,每个人的能力都凭借网络得到了极大的提升。而对于甘志雯来说,这也是数据科学对她的意义,“如果你对世界有好奇心,想要回答问题,就加入吧!”


-End-


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存