其他

数据科学进阶之路:了解数据科学工作,管理数据科学家团队

2018-04-19 隔壁王大喵 AI研习社

雷锋网 AI 研习社按:本篇是来自 Schibsted 多媒体组的数据科学经理 Alex 发布于 Medium 上的一篇文章,作者结合自身四年的行业经验,详细介绍了实际的数据科学工作,以及如何管理好数据科学团队,雷锋网 AI 研习社对原文进行了编译整理,译者 s5248、隔壁王大喵。

2014 年我加入 Schibsted 传媒集团的一个小团队,当时是第六位数据科学家。这些年,我在这家公司研究了许多数据科学方法,目前该公司已经有 40 多名数据科学家了。在这篇文章中,我将回顾过去四年所学到的经验-——首先是作为数据科学家的经验,然后是作为数据科学管理者的经验。

这篇文章仿效 Robert Chang「在推特搞数据科学」一文,他的那篇文章非常有价值。我希望能为世界各地的数据科学家和数据科学管理人员提供同样有价值的思考。

这篇文章分为两部分:

  • 第一部分:数据科学家的实际工作

  • 第二部分:如何管理数据科学家团队

第一部分着重于描述数据科学家要做的实际工作,而第二部分则讨论如何管理数据科学团队以获得最大的影响力。我认为这两个部分对科学家和管理者来说是相互联系的。

我不会花很多时间来界定怎样才算或不算数据科学家 ,网上已经有很多文章来讨论这一点了。

关于 Schibsted:这是一家在全球 20 多个国家拥有用户和市场的媒体公司,我主要负责市场业务。如果你想看几个 Schibsted 数据科学工作的一些具体案例,这里有 3 个选择:

  • 汽车定价

  • 预测可能的新闻订阅者

  • 推断用户属性

说完这些,让我们进入正题吧!

  第一部分:现实世界中的数据科学

充满雄心壮志,在一家公司当数据科学家,这真的很让人兴奋,但也会让人望而生畏。比如:周围人对自己的期望是什么?同龄人有什么技能?应该怎样工作才能对公司有用?

作为一位被吹得天花乱坠的数据科学家,有时很难觉得自己不是骗子。

由于担心被认为是在做一些容易的事情,数据科学家常常被迫选择首先关注更复杂的情形。这就引出了第一课。

1. 太复杂会增加成本——从简单的开始

他们聘请了一名数据科学家,所以这个问题肯定很复杂,对吧? 

不要被复杂的事物所诱惑

这种假设常常会使你误入歧途,从而不能成为一名真正的数据科学家。

首先,你在行业中遇到的问题通常可以用相当简单的方法来解决。

其次,重要的是要记住太复杂会增加成本。一个复杂的模型可能需要更多的工作,具有更高的错误风险,更难向股东解释清楚。因此,你首先应该采取最简单的方法。

那么,怎么知道最简单的方法是否足够好呢?

2. 总有基准

如果没有比较模型性能的基准,那么你的评估指标可能毫无意义。

我们建立了一个模型(保留模型,retention model)来预测用户回到我们网站的概率。基于用户的行为,我们的模型大约有15个特征,ROC-AUC 在 0.8 左右。与随机性能的 0.5 相比,我们对这个结果相当满意。

但当我们把模型分解为两个最有预测能力的特征:recency(最近访问的那一天)和 frequency(过去访问的天数),通过这两个变量的 logistic 回归,ROC-AUC 达到了 78% 。换句话说,我们可以扔掉多余 85% 的特征来达到超过 97% 的性能。

我有很多次看到数据科学家基于复杂的模型报告离线实验结果,没有任何比较基准。每当你看到这种情况,你都应该问:我们能用一个更简单的模型取得同样的结果吗?

3. 使用你所拥有的数据

一天,我和一名数据工程师、一名数据科学家共进午餐。这位科学家谈到,只要他有 X,Y,Z 的数据,就能做出令人惊奇的事情。他的眼神都在发光。但工程师突然说道:“你们数据科学家总是在谈论你获取了实际获取不到的数据时能做什么。那么就你所拥有的数据你能做些什么呢?!”

这听起来很刺耳,但工程师表达了一个重要的真理:永远也不会有完美的数据集,而且总会有你可以使用的数据。在大多数情况下,你可以用你的数据做点什么。

4. 拥有数据

与上述观点相关的是,数据质量和完整性几乎总是同一个问题。你需要去获取你需要的数据,而不是坐在那里等待某人把数据给你。

我不是在讨论数据治理模型中的真正所有权。我的意思是扩展你的角色,帮助你找到自己需要的数据。

这可能有助于数据收集的模式和格式,这可能意味着查看 Web 应用程序前端执行的 JavaScript 代码,以确保在合适的时候才触发事件。或者这可能意味着建立数据管道——不要期望数据工程师来为你做好一切。

5. 忘记数据

这似乎与我上面说的一切相矛盾,非常重要的一点是不要太受束缚于手头的数据。

 

空白的黑板

当出现一个新问题时,首先应该尝试忘记数据。为什么?现有的数据会限制你想出更多的解决办法,它会分散你寻找最佳方法的注意力。你会陷入局部最优,只在手头已有数据的基础上思考问题(开发胜于研究)。

6. 形成一种微妙的因果性

我们都知道相关性并不意味着存在因果关系。问题在于,许多数据科学家都止步于此,并回避做出因果声明。

 

懦夫对因果关系的探讨

为什么那是个问题?因为产品经理、营销团队、CEO,或者和你一起工作的人都不在乎相关性。他们更关心因果关系。

产品经理希望当她决定推出这个新功能时,有信心将订单量提高 10%。营销团队希望知道,电子邮件数量从每周 2 封增加到 4 封不会导致人们退出邮件列表。CEO 想知道,投资于更精准的功能可以带来广告收入的增加。

那么有折中办法吗?似乎有两个。

最著名的是在线实验。基本上你会进行随机试验 —— A/B 测试是最常见的。想法很简单,随机选择目标群体和对照组,如果发现两组之间有统计学上的显著差异,我们所采用的办法就被认为是因果参数。

另一个不太有名的因果关系推断方法是因果模型。这里的想法是,你假设世界的因果结构,然后你使用观察(非实验)数据来检验这些假设是否与预测数据一致,或者估计不同因果效应的强度。Adam Kelleher写了一系列很好的因果数据科学文章,我推荐阅读下。除此之外,因果关系分析的圣经数据是 Judea Pearl 的因果关系(Causality)。

根据我的经验,大多数数据科学家在构建机器学习模型和离线评估方面有丰富的经验。而在在线评估和实验方面有经验的数据科学家要少得多。原因很简单:你可以从 Kaggle 上下载一个数据集,训练一个模型,并在几分钟内对它进行线下评估。另一方面,对该模型进行在线评估,需要访问真实世界。即使你在一家拥有数百万用户的互联网公司工作,你也常常需要越过层层关卡找到一个针对当前用户的机器学习模型。

现在,很少有数据科学家有广泛的在线评估以及因果模型推断的经验,出现这一现象的原因有很多。其中一个原因是大多数因果关系的文献都是相当理论性的,对于如何在现实世界中构建因果模型并没有实际的指导意义。我预测在未来几年我们会看到更多关于因果建模的实用指南。

形成微妙的因果关系观意味着你可以给股东提供可行的建议,同时也能保证科学性。

  第二部分:如何管理数据科学家团队

和许多其它公司一样,Schibsted 有两条职业路线——「个人贡献者」和「人事经理」。在数据科学领域,前者适用于那些真正想要减少数据科学专业知识,并通过实践工作和技术为公司做出贡献的人。而经理的路线则是为那些对开发人员和领导团队更感兴趣的人而准备的。

实际上一开始我也非常不确定自己最适合哪一条路线,我最终决定试试经理人路线。幸运的是,在决定不久之后我便发现这是条适合我的路线,尽管这一决策导致我面临许多的挑战。

你将面临的第一个挑战便是,你会发现在这个世界上只有很少的人从事数据科学经理这一工作。如果你认为经验丰富的数据科学家非常罕见,实际上经验丰富的数据科学经理的数量比这个还少。所以在工作中你基本上只能依靠自己。

但是管理一支数据科学家团队真的就和管理其他团队如此不同吗?

如果你以前从未管理过一个团队,那么你肯定会从阅读 Andrew Grove 所写的《高产出管理》一书中获益匪浅。此外,主动向其他更多高级管理人员寻求建议也至关重要。

但是,数据科学家团队在几个关键方面与其他团队有着本质不同,所以接下来我将重点关注与数据科学家团队特别相关的内容。

1. 数据科学家团队实际上并不是一个团队

每当我们谈到团队时,大多数人脑海中的第一反应也许是联想到以下的画面:

像巴萨罗那这样的足球队具有哪些特质呢?在我看来至少有三个方面:

  • 一个共同的目标

  • 团队中有不同的角色,并且每个角色都有自己不同的分工职责

  • 每个人都拥有实现目标的自主权

如果你要管理一支仅由数据科学家组成的团队,那么以上的这些特质可能都不适用。你的团队将具有:

  • 多样、多变的目标

  • 高度专业化,并且他们都擅长于同一件事情:数据科学

  • 需要与其他团队协作,最终对用户的收入产生影响

比起足球队,对数据科学团队一个更合适的类比是:

X-档案

Mulder 和 Scully 的服务需求会随着时间的推移而发生变化。当需要他们的专业知识时,他们会被带进去。但是如果不与联邦调查局(FBI)之外的人交谈,他们将永远不会解决任何案件。

为什么这种区别如此重要呢?

因为如果你拥有一支数据科学团队,然后以管理“传统”团队的方式管理他们,也就是给团队设立统一的目标、不同的角色分工和完全的自主权。那么你很快就会感到团队的表现令人沮丧。

我曾经见过有人将数据科学团队按产品或者是工程团队的方式进行运营,这么做无法避免的后果是:除了数据科学之外,团队中的数据科学家们什么都需要做,他们最终将变成做工程、开发或者是产品管理。

因此数据科学家是不同的。但是这样我们又将面临另外一个问题,即怎样保证数据科学家不被束缚于象牙塔中?

2. 将数据科学家融入到其他团队中

当你将数据科学家和产品经理、工程师、用户体验专员、市场销售以及其他成员组合到一块的时候,神奇的事情将发生。

基本上,你希望最大化的目标函数是:团队中的数据科学家与其他团队的成员能够展开颇有建树的合作。

我喜欢用宽信道(Wide channel)的概念来思考这一问题。让我们使用产品经理作为数据科学家的合作对象来说明这一点。

最糟糕的情况就是数据科学家和产品经理之间没有任何信道:

数据科学家(DS)和产品经理(PM)之间没有任何信道

这意味着数据科学家和产品经理之间没有任何交流和沟通。换言之,就是数据学家对产品经理所面临的产品挑战没有一丝了解,这就使得数据科学家不可能分析和解决这些问题。

稍微好点的情况就是,数据科学家和产品经理之间有一条很窄的信道:

数据科学家和产品经理间有一条很窄的信道

在这种情况下,信息可以进行流动,但通常非常有限,而且是异步进行的。任何一种信息都可以通过第三者(例如管理者)或请求表单等手段来实现。当数据科学家需要服务于很多不同的利益相关者时,这种类型的交流是非常常见的。但这可能令人沮丧,因为商业环境通常不存在,并且会导致误解和无意义的来回折腾。

而最高效的配置方式则是拥有一条宽信道:

数据科学家和产品经理之间存在宽信道

从最直观的角度理解宽信道就是,数据科学家就坐在产品经理旁边。这自然能够促使他们更高效地进行沟通。虽然要让人们总是能够坐在一起进行协作并不方便,而且也不容易实现(我们 Schibsted 的成员分布于 22 个不同的国家),但是已经有很多软件足以支持我们在线协作,例如 Slack 和 Hangouts。

当然我们不可能让队伍中每一位产品经理和团队中每一位数据科学家建立一条宽信道——这样不便于扩展。而这正是你作为数据科学家经理的职责,你需要负责确定哪些宽信道是需要建立的,一旦完成建立,你就可以离开了。

这里有一个来自 Schibsted 的例子,证明我们正积极致力于建立一个宽信道。该例子涉及一款汽车评估工具的开发,这个工具可以帮助你在出售汽车时设定价格(在我们的挪威市场 Finn 进行了测试)。最初我只有一条非常窄的信道,然后尝试构建最准确的定价模型。但是我们发现这样做效率非常低,因为有很多产品决策,如果我们不及早对用户进行试验,就无法进行正确回答。

过了一段时间之后,我们最终将一位数据科学家融入了产品团队中,并且取得了不错的结果。你可以在该博客的文章中阅读到我们关于汽车评估工具的一些早期工作。

我们一个宽信道的例子是数字新订阅的预测模型。该模型有助于将销售额转化率提高 540%,并在 2017 年荣获 INMA 的“数据分析最佳使用奖”。

3. 掌握分析生产力

在《高产出管理》一书中,Andy Grove 曾表示「作为一个经理,你掌握了你们团队的产出」。这意味着一个数据科学经理必须要尽全力来为数据科学家创建一个最佳环境,以便于数据科学家能够保持高产。

高效的组装车间

这在很多方面是对前述嵌入模型的一股反作用力。如果每个人都始终处于嵌入状态,那么你很可能会多次面临数据孤岛(Data silos)和次优基础架构。

一些工程经理声称,当你成为经理时你应该停止编程。作为数据科学经理,我认为你应该花高达 10% 的时间来亲自完成一些编程工作,如训练模型、数据可视化等。这些工作可以帮助你以一个数据科学家的角度看待问题。

每次我想进行特设分析(Ad-hoc analysis)时,我都必须花费 15 分钟等待这个集群启动!必须有一个更快的方式来实现。

我们架构格式的文档说明似乎有点过时了——如何测量不同网站上这种按钮的点击次数?

诸如此类。当然,这种类型的实践工作不应该取代获取团队反馈意见,成为你的主职。但是它肯定有助于你发现关键问题,以让数据科学家更轻松地工作。

你还可以更加有条不紊,使用精益管理等框架,以消除各种数据科学流程中出现的浪费现象。这篇 xkcd 的文章可以作为一个很好的起点:

还需要谨记的是,数据科学家的工作需要相当多的灵活性和探索空间。你不是在经营工厂!

4. 数据->权利->政治

了解自己作为数据科学经理的「政治」背景非常重要——特别是在一个庞大而复杂的机构中。运营数据科学团队意味着你可以管理稀缺和高度需求的资源。这反过来又意味着你必须偶尔处理一下政治事务。

权力的游戏

一些假设:

  • 副总裁正准备提出一项新的战略措施。她的幻灯片已经完成了 98%,但是希望你的团队用数据来支持她的提议(......尽管结论已经出来了)。

  • 业务部门拒绝与你的团队共享数据,因为担心你会发现一些他们不知道的数据。

  • 一个部门坚持认为他们需要数据科学家的支持,但是当你深入了解的时候,发现这里并不存在真正的需求。

  • 另一个有着类似职责的团队拒绝分享技术方案,担心你会剽窃他们的工作。

你花费在这些事情上的时间很大程度上取决于公司文化,以及激励人们如何行事的机制。但是,能提前意识到可能发生这些事情总是好事。

我有一个天真的想法,公开透明是最好的良药:所有会议记录都向公司的每个人开放。所有 Slack 信道都是开放的。公司内部任何人都可以检查所有其它团队(和个人)的目标。实际上这意味着以身作则。

另外,公开透明是不够的。你必须积极与利益相关者建立信任。建立信任需要很长时间,但打破信任却可以非常快!

现在,只要让团队成员掌握到能够理解自己当前工作环境的程度就足够了,不需要让他们接触政治。这并不意味着让你的员工处于黑箱之中,但这确实能让他们专注于做好数据科学。

不要让政治剥夺了你的大部分精力。请记住,当你有权访问数据和资源以从中获取价值的时候,你就立即拥有了权利,政治将永远围绕着权利展开。

5. 充分利用资源,实现高投资回报

现在许多公司都在招聘数据科学家。在很多情况下,这些公司根本不知道该用这些数据科学家来干什么。这些公司只是迷信他们肯定会产生某些魔力。

如果你购买了法拉利,就不要把它放在车库里。

另外,不要只用它来购买杂货。

用斯柯达干这事可能会更好

法拉利就该用来干它该干的事。

法拉利在它的自然栖息地奔驰

数据科学家是一群雄心勃勃、聪明、有商业头脑的人。这意味着你必须确保他们正在处理那些不仅富有挑战性,而且有很高的投资回报(ROI)的问题。

数据科学经理在这里起着关键作用。你必须始终将正确的业务挑战与团队中擅于此题的人员相匹配。

回到我们的第一个观点,我们往往最容易关注到那些最复杂的挑战。根据我的经验,在考虑往哪投入资源时,主要应该考虑在哪里使用团队中的员工 。

6. 设定 OKRs

不论你是一名管理人员还是一名数据科学家,拥有一个好使的工具箱对大家而言同等重要。我的经理工具箱(Manager toolbox)中最强大的工具是目标和关键结果(Objectives and Key Results, OKRs)。简而言之,OKRs 就是要设定一些远大的定性目标,并将量化的关键结果与这些目标联系起来。通常你在每个季度都需要这么做。尽管 OKRs 还有很多其它内容,但这是它的本质。

OKRs 非常重要,因为它以一种简单明晰的方式让所有人知道我们将前进的方向,以及我们正在尝试去实现的东西。

从管理者的角度来看,它们也很吸引人。OKRs 的方法非常容易学习,但是实际上却难以掌握。通常情况下,你需要几个季度的时间才能正确做到:如何设置合理的 OKRs,然后跟进和审核。

当提到 OKRs 时,我有两项理解,并且认为这对于管理者非常有帮助。

  • 第一点:鼓励团队中的每个人分别设立自己的 OKRs。你的个人「总体」的 OKRs 应该以团队的 OKRs 为基础,然后具体细化到个人在该季度应该完成的任务。当我说「总体」的时候,这意味着个人成长目标以及个人对组织和团队的贡献。将这两件事放在一起非常重要。虽然它是一件很基本的事情,但它确实能帮助你将个人目标和公司目标保持一致。

    想要了解更多关于 LSTMs 的内容?我会给大家介绍一些 LSTMs 将被用到的项目,以便于大家参与进来做出贡献。渴望提高自己的演讲技巧?你可以和市场营销一起来完成这个留存分析项目。对经理职业感到好奇?那么尝试领导这个小组,致力于细分用户以实现盈利。

    随着个人目标和公司目标的一致,所有的团队成员将拥有一页 OKRs,他们可以将其打印出来然后张贴在显示器旁边。

    理想情况下,公司所有人都可以看到其他人的 OKRs。这创造了一种关注员工成长并互相帮助实现各自目标的文化。

  • 其次:帮助团队成员将 OKRs 集成到他们的日常工作和每周例程中。我开始使用一个简单的电子表格,尽管它并不好看但是却有效:

每周五回家前,我们会花费大约 10 分钟来填写本周的专栏。其实你写的内容并不是那么重要——真正的价值来自于填写专栏本身,这有助于提醒你本季度自己的首要任务。

在跟进 OKRs 时,没有一种最佳的方法可以适用于每个人——关键是帮助你的团队成员找到一种方法,将它们自然地构建到日常工作和每周例行程序中。

7. 心理安全是第一

最后一点也是最重要的一点。

谷歌曾花了两年多的时间对他们团队进行研究,以了解团队表现得好和表现不佳的原因,他们发现一个因素非常突出,那就是心理安全。

心理安全可以被简单概括为,你相信自己在犯下错误之后不会受到惩罚。

现在,该对第一部分的介绍进行反思了。在数据科学中,冒名顶替者综合症(Impostor syndrome)是真实存在的。当你觉得自己像是个骗子的时候,你担心的是什么?那就是犯错误。

多年来,我发现许多拥有各色各样知识背景的人进入到了数据科学领域,例如 Schibsted 的团队中,有来自金融、研究、教育、咨询、软件工程等多个领域的专业人员。

假设这些人都知道同样的事情是件愚蠢的行为。拥有如此多种不同方向人员的价值在于,每个人都能为团队带来新的东西。

数据科学家独角兽的概念是心理安全的毒素。

是否存在快速解决方法以增加心理安全?我不这么认为。但是我确实认为,作为一名经理,它需要成为你事务列表中优先级最高的那一个——尤其是当你正在建立一个新团队,或者有新成员加入时。虽然没有快速解决办法,但是你依然可以通过采取一些明确的行动来增加成员们的心理安全。以下是我们的一些实践经验:

  • 建立起反馈文化。在团队内指明每个人在做完报告之后需要大家给出意见。并培训人们如何正确给出建设性反馈意见——因为并不是每个人都擅长这么做。

  • 增加面对面交流的时间。两两结对编程、在白板上解决问题……这对于远程协作的团队而言尤为重要。为此而花费的机票费用肯定是值得的。

  • 两两结队或者是组成小团体。作为一个团队,你可能会做更少的事情,但你会做得更好。而那些一起工作的人会相互建立起信任。

  • 鼓励大家在全体会议上进行公开和坦诚的讨论。积极平衡所有参与者的对话时间——因为有些人可能需要被指定才会发言。

  • 注意文化差异。你可能关注平等主义、显性文化(Explicit Culture)和直接文化(Direct culture)。那么你很可能会错过来自等级文化、隐性文化(Implicit culture)和非直接文化(Indirect culture)成员的信号。

  • 进行团队实验以持续提升团队。让整个团队参与到「如何成功运营团队」这个问题上,让每个人都对团队的幸福感拥有主人翁意识。

  • 衡量幸福和心理安全。找到一些简单的方法来定期测评幸福感与心理安全。如果你没有这个花哨的 HR 系统,那么只需要从一个 Typeform 开始,并一直迭代,直到你和团队成员们发现它是有用的。与团队分享(匿名)平均得分或调查结果,并让他们一同参与改进。

恭喜你,你已经阅读完了这篇文章!希望这篇文章对作为数据科学家或者是数据科学经理的你能有所帮助。

via 4 Years of Data Science at Schibsted Media Group

https://towardsdatascience.com/4-years-of-data-science-at-schibsted-media-group-abba83854509

4 月 AI 求职季

8 大明星企业

10 场分享盛宴

20 小时独门秘籍

4.10-4.19,我们准时相约!



新人福利



关注 AI 研习社(okweiwu),回复  1  领取

【超过 1000G 神经网络 / AI / 大数据资料】



Must Know! 数据科学家们必须知道的 5 种聚类算法

▼▼▼

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存