查看原文
其他

数据科学家如何设计和评估指标?

Jiawei Tong 大数据应用 2022-10-18

今日份知识你摄入了么?

现如今,我们比以前任何时候都需要更清楚地思考,应该使用哪些指标来了解我们这个世界,我们的产品,以及我们自己。


指标同时也是:


  • 1)人类设计的产物

  • 2)我们观察现象的镜头

  • 3)我们设定和管控目标的方式。


这篇文章的目的是来阐述我对指标的一些看法(在我经手了众多数据科学项目,花了数年之后)我提出了指标的五个关键属性,它们代表着设计过程中的重要权衡,也描述了指标的生命周期。



我考虑过很多关于指标的问题,因为我认为,指标是科学的基础,同时也是改善政策和业务成果的关键技术。我们有无数的例子:更好的计时技术使人类能够走得更远,来绘制整个大陆的地图;系统收集的天文观测数据彻底改变了天文学;绘制出霍乱病例图也使约翰·斯诺能够确定水源是否在引起疾病。在我们对世界的进一步理解的过程中,以及在更好地解决问题的能力上,投资到我们获取数据和衡量结果的能力,通常会给我们带来超越阶梯函数的变化。



我们对测量的共同投资,创造出了我们的分布式感知系统,让我们能把注意力放在某些的事件中,某些尺度上的某些属性。指标已成为我们语言的一部分,我们用它讨论正在发生的事情,也用它通过指明目标、问题和限制来制定决策方式。


也许,最重要的是,目标的指标成为了组织内部优化协调流程的方向。正如我们谨慎地选择我们要期望什么一样,我们也应该谨慎地选择我们要优化什么。我们应该付出足够的努力,来选择我们指标里的盘山算法(hill climbing)的拓扑结构和y轴,并将风险和不利因素转变为能与目标一起监控的反指标。


指标的五个属性


在本节中,我会讨论设计指标时要记住的五个重要属性。改善这些属性会让你在制定衡量的策略时自然面临取舍,这些衡量的策略可以帮助你有效地改善产品或用户体验。但是,这些属性会广阔地从商务数据科学扩展到许多其他的科学领域。你会在这部分注意到统计学和因果效力的重要性,因为我的经历主要是通过进行实验来改进产品。


成本



我从成本开始讲起,因为它是衡量过程中经常被忽略的一个方面。 如果你愿意支付任何的费用,那么就基本能衡量任何事情。成本可能涉及到金钱、自然时间、员工的时间、用户时间(打扰用户来询问他们一些问题)、计算或技术债务。指标的成本通常意味着重要的权衡。我注意到一些趋势,如使用人工标记、调查问卷、外部数据库作为度量策略,所有这些都给测量带来了相当大的复杂性,延迟和错误。


尽管我们经常把成本视为固定限制或捆绑限制,但必须指出的是,在许多情况下,我们可通过交易时间,金钱或精力来进行更好的衡量。这种权衡在管理上很有挑战性,因为我们还必须从更优的指标中估算收益,以及如何将其传播到下游产品或决策质量中。


简易性



指标是人类设计的产物,而人们会偏爱更简单的产物。最差的指标是人们不信任,怀疑或忽略的指标。我注意到,指标通常可以通过标准化(倾向于集中它们)来改进,而会因为组合(倾向于分散它们)而变糟。例如,在运动分析中,我们发现,通过除以成功率(例如击球平均数)或考虑环境因素(例如主场优势)来调整成功结果非常有用。但是,我们不会在记录击球平均值的时候也记录击球手击打本垒打的频率。


值得强调的一点是,在对指标进行标准化时,找到合适的分母可能是很有挑战性的。

在过去的项目中,我试图通过“建模指标”来扩展指标简易性的限制,这些指标是用来流畅和提高估算精度的输出统计模型。我还没见到任何一种方法能做到完全成功------简易性可以被牺牲,但是它必须在其他属性上产生相应的改进。


真实度



不幸的是,你的测量方法有很大可能无法准确表示你所关注的概念。我在实践中观察到的两个最重要的原因是没有有效构建或存在某种抽样偏差的指标。没有有效构建的度量标准会显示出错误的结果。而具有抽样偏差的量度会度量一组错误的目标(例如人、物品、事件等)


为了达到简易性或降低成本,我们常会牺牲构建的有效性,而我经常看到团队会逐渐增加复杂性或投入时间和精力来改进它。关于构建的有效性的一个常见难题是使用人工标记的数据-------人们对标记准则的理解可能会有所不同,而同一个标记对不同的人可能又有不同的意思。


产品将越来越多地把用户反馈或带标签的数据合并到指标(调查问卷,错误报告,大众标签)中,从而给我们带来有问题的采样偏差。我们如何知道那些提供反馈的人是否可以代表我们真正关心的人群呢?如果我们不能做到随机抽样(比如问卷调查或内容分级),我们将永远无法完全解决此问题。因此,我们必须接受它作为我们指标中无法避免的错误来源。值得一提的是,即使是简单的指标(如在社交媒体上计录“赞”的次数)也可能在参与率方面存在较大偏差,并可能反映出部分偏差用户的行为。


关于衡量标准的真实度的两个有趣的失败案例:


  1. 有证据表明,广告的点击量不能预测销售。如果你将点击次数用作广告宣传的指标,那么你在优化一个不相关的结果;点击的用户并不能代表那些购买的用户。

  2. 使用社交媒体的文字来衡量的情绪与根据调查问卷得出的自我报告的情绪状态之间的相关性非常低。如果你通过Twitter或Facebook上的帖子来衡量人们的幸福感,那么很有可能会得到错误答案。


精度



精度是五个考虑因素中最简单的一种 ---- 精度越高越好,而杂乱的指标使我们无法将信号与噪声完全区分开。这意味着我们无法确定一个变化是否是我们造成的(比如实验),也无法确定一个变化是否是随时间推移发生的(比如趋势和异常)。想要了解精度,有三件事值得尝试:


  1. 你可以通过转换指标来达到相当大的精度,比如做记录,运用温莎法(Winsorizing),甚至是更高级的技术。

  2. 标准化可以大大提高指标的精度。如果分子非常偏斜,而分母也很偏斜,则它们的比率会达到低得多的方差度量。

  3. 对几个指标求和或者求平均值,对于提高精度很有用。如果你有几种相对不相关的方法来测量同一件事情,那么它们的总和会有更少的杂质。这么做的代价是降低了简单性,也许因果接近度(具体见下节)也变少了。


通常,在准确性和真实度之间会固定存在权衡取舍。尽管它们是我们最终关心的问题,但由于分布的偏斜,衡量财务结果(销售,收入或利润)的指标可能会非常嘈杂。计算离散结果时,例如交易或唯一客户(将连续结果二进制化),将带来有限的方差。


因果接近度



一个好的指标可能会受到你控制下因素的影响。Deng和Shi(2016)定义了一个称为灵敏度的属性,它由精度(见上节)和效果的程度组成。我认为将这两个属性分开很有趣,我使用“接近度”来代表这种想法,即在“因果空间”(例如,沿着因果图的路径中)中的度量有多“接近”到你能够更改的策略。


当因果接近度较低时,你就不会经常随产品变化而改变度量标准,因为必须要产生一系列事件,才能使你受到影响。把利润或收入作为大多数产品变化的度量标准时效率低下,就是因为因果关系低。我们必须选择一个更高接近度的指标,并利用对最终目标有用的理论----牺牲真实度。


我们有时将这个策略称为代理指标,它可能并不是我们真正关心的对象,但这又是我们可以检测效果的概念。对于我们感兴趣的长期结果,近来有一些激动人心的替代指数-----通过短期指标,能对(更真实的)长期结果进行估算。


很高的因果关系并不总是可取的!容易改变的度量标准很容易在游戏中发挥作用,并且能更好地用作监控指标(例如,检测程序错误带来的负面影响)或用于验证实验是否达到了预期的效果(即操作检查)



指标的生命周期


根据我的经验,指标的设计是反复进行的,并涉及到多个利益相关者的合作,需要一个冗长的过程,以及重复许多步骤。下面图片是该过程的理想化版本。你会看到它实际上是一个嵌套循环,你可以无限循环这些步骤。这是因为,指标设计从未真正完成过。指标就像代码一样,是不断发展的构件,需要不断对其进行测试,重新评估,调整,并在它们不再满足用户标准的时候,最终被替换。



以下是有关这些阶段的一些具体想法:


  • 讨论:将指标的选择过程正式化,并通过收集所需让它的评估正式化,会是一个好办法。可能听起来这两者之间有点重复,但我们正在设计的是一种可以被许多人使用的产物,我们需要仔细了解他们的各种需求,并管理他们之间的利弊权衡。很多指标被选择是因为它们:


  1. 便捷;

  2. 成本低廉,但是在这里省钱可能会严重限制你以后学到东西的能力。


  • 验证:让人相信一个新指标的有个现象令我惊讶:当少数与他们的直觉相符的例子发生时,人们更容易被说服。这说明在一个好或坏的产品更改出现后,他们会朝着预期的方向前进,这是一个很好的故事,证明它能帮助人们建立信任。Deng和Shi主张用大量的已知好/坏的实验来评估指标是否在朝着预期方向的移动,如果你已经进行了许多历史实验,我认为这是一件很不错的事情。

  • 实验:我注意到许多团队没能对他们最关心的指标准备功能强大的实验预算。我在Facebook参与了一个产品,它在几个月内进行了许多实验,但没有产生任何实质性影响,因为我们的指标太嘈杂,而且因果接近度低。如果你无法为指标带来(统计学上和实际上)显着的效果,那么它就没什么用。你可能需要为了因果接近度或精度,牺牲一些真实度,或愿意付出更高的代价。不良的指标甚至都不应出现在你的实验分析中,或作为实验平台的一部分——它们会降低实验结果的信噪比!

  • 优化:指标达到最优后会发生什么?我们可能会觉得这是一个幻想,我们总是可以做得更好。但是,对于许多指标而言,是存在一个饱和点的,或者这个点已经开始损害我们关心的其他事物。许多企业面临的主要挑战是,了解关键指标之间的权衡,并制定有原则的决策,来有效管理这些取舍。值得注意的是,在尝试最优化之后,指标在捕捉它的预期目标方面时,可能会变得不太有效,这种现象被称为古德哈特定律(Goodhart’s Law)

原文作者:Sean J. Taylor

翻译作者:Jiawei Tong

美工编辑:过儿

校对审稿:Dongdong

原文链接:https://medium.com/@seanjtaylor/designing-and-evaluating-metrics-5902ad6873bf 



往期精彩回顾


数据报告与数据分析工作职能有哪些异同?

谷歌扩招1万员工,你准备好了吗?

开始第一份数据科学工作之前,如何获得数据科学相关经验?

DataOps工程师是什么新晋“真香”职位?

三个月如何搞定机器学习的数学原理?




点「在看」的人都变好看了哦

点击“阅读原文”查看数据应用学院核心课

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存