查看原文
其他

数据科学的2/8困境

2017-11-11 翻译 肖力 云技术之家

云的出现导致了数据的爆炸式增长,这使得数据科学家处于高需求之中。一份10年前不存在的工作,以薪水、工作满意度和职位空缺数为基础,连续两年蝉联Glassdoor在美国的最佳职位排名。它甚至被《哈佛商业评论》评为“21世纪最性感的工作”。


虽然人口在增长,但数据科学家却很少,而且很忙。最近的一项研究显示,对数据科学家和分析师的需求预计到2020年将增长28%。这是目前市场需求的首要问题。根据LinkedIn的数据,截至8月底,美国有超过1.1万个数据科学家职位空缺。除非有什么变化,否则这种技能差距将继续扩大。


在这种背景下,帮助数据科学家更有效地工作应该是一个关键的优先事项。这就是为什么现在大多数数据科学家只花20%的时间在实际数据分析上。


数据科学家首先被雇佣的原因是开发算法和建立机器学习模型——而这些通常是他们最喜欢的工作的一部分。然而,在今天的大多数公司里,80%的数据科学家的宝贵时间都花在寻找、清理和重组大量数据上。如果没有合适的云工具,这个任务是不可克服的。


幕后的艰苦工作

当开始处理和理解通过云连接设备和系统进入的许多不同数据流时,数据科学家必须在数据存储库中识别相关数据集,否则称为数据湖,这不是一项小任务。


不幸的是,许多组织的数据湖已经变成了垃圾场,没有简单的方法来搜索数据,也没有明确的策略和政策,以确保数据的安全共享。数据科学家经常发现自己在联系不同的部门,以获取他们需要的数据,并等待几周的时间来交付,结果却发现它没有提供他们需要的信息,或者更糟的是,它有严重的质量问题。与此同时,数据治理(或数据共享策略)的责任经常落在数据科学家身上,因为公司级别的治理策略经常会让人感到困惑、不一致或难以执行。


即使他们能掌握正确的数据,数据科学家也需要时间去探索和理解它。数据可能是不容易分析的格式,而且几乎没有任何元数据可以帮助,数据科学家可能需要从数据所有者那里寻求建议。毕竟,这些数据还需要准备分析。这包括格式化、清理和采样数据。在某些情况下,在数据科学家准备开始培训模型之前,需要进行缩放、分解和聚合转换。


组织结构在分析过程中也会导致效率低下。数据科学家和开发人员传统上在siloes工作,每个小组执行一个相关的,但独立的任务。这造成了瓶颈,增加了错误的可能性,并耗尽了资源。一个统一的方法,利用云平台,包括适当的数据治理,提高效率,帮助数据科学家在内部和开发人员之间进行协作。


为什么这是一个难题

这些过程既费时又繁琐,但它们是至关重要的。由于模型通常会随着数据量的增加而提高,所以在数据科学家的最佳利益中,他们可以在分析中包含尽可能多的数据。

然而,由于截止日期和时间问题,数据科学家经常会被诱惑在他们所使用的数据上做出妥协,目标是“足够好”,而不是最佳的结果。


然而,在模型开发过程中做出草率的决策可能会导致大量不同的输出,并可能导致模型在投入生产时无法使用。数据科学家不断地做出判断,从不完整的数据出发,很容易让他们走上错误的道路。


为了平衡质量与时间的限制,数据科学家通常被迫一次只关注一个模型。如果出了问题,他们就不得不重新开始。实际上,他们必须加倍努力,把数据科学变成一场高风险的冒险游戏。


逃避这些缺陷

使用云数据服务将许多与查找和清理数据相关的繁琐过程自动化,这有助于为数据科学家提供更多的时间进行分析,而不会损害他们所使用的数据的质量,并使他们能够为人工智能和认知应用程序构建最好的基础。


一个坚实的云数据平台具有智能搜索功能,帮助数据科学家找到他们需要的数据,而诸如标签、评论和质量度量等元数据帮助他们决定数据集是否有用,以及如何最好地从中提取价值。综合数据治理工具也给了数据科学家们信心,他们被允许使用给定的数据集,他们生产的模型和结果将被其他人负责地使用。


因此,数据科学家得到了他们需要同时构建和训练多个模型的时间。这就分散了分析项目的风险,鼓励实验在没有集中资源的情况下取得突破,而这可能是一个死胡同。


云平台还可以为数据科学家提供服务,以保存、访问和扩展模型,使他们能够使用现有资产作为新项目的模板,而不是每次都从零开始。转移学习的概念——重点是在解决一个问题并将其应用到一个不同但相关的问题上的知识的保存,这是机器学习领域的一个热门话题。用数据科学工具开发可视化工具有助于交流模型如何工作,同时节省时间和降低风险。


数据科学家在推动创新和为公司赢得竞争优势方面发挥着关键作用。通过给数据科学团队提供今天需要的云数据工具,2/8的困境成为过去。


原文链接

https://www.infoworld.com/article/3228245/data-science/the-80-20-data-science-dilemma.html


相关阅读:

攻击者入侵2500家网站,利用访问者的 CPU挖数字货币

避免大数据分析失败的六个最佳实践

如何开始Python之旅

为什么云平台应该承诺会在Python上持续投入

云推动了IT变革 关于云未来的数据

为Docker和Kubernetes提供的4个第三方安全工具

霍金发表对 AI 的警世危言 担心人工智能将取代人类

更多文章请关注

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存