查看原文
其他

如何从0开始领导数据科学项目

Peter 大数据应用 2022-10-18

今日份知识你摄入了么?

虽然也许你也作为实习生或团队中的工程师,多次执行过相同的步骤,但如果你是刚开始领导数据科学项目,那你仍然会遇到很多问题。


在领导一个项目时,你需要从大局看,是什么能让你的项目成为一个好的产品。一个让你顾客渴望万分的产品。


为了为你即将到来的项目领导角色提供蓝图,以下是每个数据科学项目从头开始的共同点。


1

想法


首先,建立一个可以真实落地的项目组合。因为项目创意可能来自无数个地方,所以这部分在实际操控时要困难一些。


我们是不可能提前预见所有障碍,并确定能有效地启动项目的。我们可以从接受这种不确定性开始入手,启动一个迫切需要的项目。


以下问题,会非常有助于你的POI:


  • 你的客户一直想要的东西。

  • 你的客户能从项目中受益,但是他们自己还不知道。

  • 由于信息的缺失,出现了哪些问题?

  • 哪里有现成但难以发现的数据?

  • 消除一个问题后,这个问题在其他10个领域引起蝴蝶效应。


这些通常是会有众多问题的项目领域。


请记住,项目并不总是必须“将特斯拉送进太空”这种大事。有时,发现一个以前不为人知的列表同样会引起意想不到的效果。


尊重微小的胜利,因为它们通常会带来更大的胜利。


2

数据收集


实践出真知。真实世界的数据不是 Kaggle里那种清理干净过的。只有花足够的时间,才能确定所有信息来源。


确认你是否需要额外的硬件。实际数据收集可能需要一个月到几年的时间,具体取决于项目的复杂性,和记录的可用性。一些数据可能是手动记录的(门票、评论等)。不要忽视这些来源。



在机器学习或人工智能项目中,一个额外的优点是,你可以用人工信息来扩充你收集的数据。看看你是否可以根据你的需要使用开源图像、生成自己的数据集、处理现有数据、并使用更多信息来扩充数据集。


3

数据清洗


这一步就像是数据处理的潘多拉魔盒,打开它吧。


清理清除数据集中不需要的信息,并确保你拿到的是你应该查看的内容。


清理数据集后,可用数据可能比原始数据集少得多。可以提前准备好重新构建你的问题,才能适用于你的干净数据。


数据清洗的一个重要方面是人。庞大的数据集和计算能力只是过去几十年的事情,但几个世纪以来,人们一直在处理系统和数据。


与每个人沟通,了解他们在系统中的作用。获取所有有价值的信息,并增加你对系统的了解。


4

探索性数据分析


生成你的客户可以立即理解的数据总结。可以浓缩,分析和解释含义,并与各方讨论你的见解。


了解你参数之间的关系,删除错误记录、异常,并在每一层分析中都获得洞察力。同时,可以区分分类数据和连续数据,并相应地处理它们。


你可以根据你的数据是分类数据还是连续数据,选择一种方法来构建模型。并且需要检查中心趋势和变异性(平均值、中位数、众数、标准差、范围等),汇总和可视化你的数据,识别频率、季节性趋势、百分比等。


你可能会意外的发现,你在可视化和压缩数据方面的最基本发现,会让许多行业专家感到惊讶。


5

搭建模型


在选择数据和功能后,你需要了解所处理内容的基本性质,然后进入创建模型的阶段。


你想执行回归、分类、聚类,还是预测?你有多少数据?它的性质是什么(分类的、连续的)?根据你对这些问题的回答,你会选择一个模型。实际上,你可以同时选择多个模型。


你需要注意你的数据是否是线性可分的,你的目标变量是什么等等。你可以选择执行线性回归、逻辑回归、聚类模型,如随机森林、K-means、神经网络等。



根据你的模型指标、你的计算能力、以及对预测或洞察力的需求,从你的实验中选择一个模型。然后,使用更多数据来验证你的模型,也可以用数据收集过程结束后新收集的数据。


如果你要使用机器学习,请确认你的结果是否具有概括性。


6

生产


找到正确的模型、超参数集并且确定模型有效以后,你就要开始部署这个项目模型。

在部署项目时,你应该考虑它会如何扩展,以及如何为你的顾客提供良好的用户界面。


要部署你的模型,并使其广泛使用,你可能需要创建一个 Web 应用程序,让你可以向它发送和接收请求。或者,你也可以保存模型,并让你的用户通过使用这个模型来预测他们的数据。


你可以在 Django、flask、shiny 或 dash 等 Web 应用程序框架中实现你的模型。为了达到可扩展性,许多大公司会使用 AWS 或 Azure 等服务来大规模部署机器学习模型。


这是对你下一个大数据科学项目的快速总结。你有不同的做法和建议吗?

原文作者:Sruthi Korlakunta

翻译作者:Peter Mei

美工编辑:过儿

校对审稿:Jiawei Tong

原文链接:https://towardsdatascience.com/leading-a-data-science-project-from-scratch-af66670f3e6a

本周公开课预告



往期精彩回顾


数据科学家求职最重要的3个project是什么?

成为数据工程师前,我应该知道的事

数据科学家秋招上岸的六个技巧

四个数据科学求职者的常见失误

东京奥运接近尾声:Data Analysis在体育行业有哪些应用以及工作机会?

六个月零基础入行数据科学家,我做对了哪些事?





点「在看」的人都变好看了哦

点击“阅读原文”查看数据应用学院核心课

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存