其他
好享学丨为什么数据科学家需要了解可视化
好享学是高下制图推出的数据可视化经验分享栏目,我们将定期与您分享各界优秀人士的制图经验,一同学习。
小编寄语
对于数据科学家而言,他们在处理大量的数据时,不仅需要掌握复杂的编程语言,而且还需依靠开发、统计以及软件工程等方面的知识。所以一方面为了方便数据研究,另一方面为了向同事们解释研究成果,一个最好的方式就是将数据可视化。
01更容易解释复杂的过程
作为数据科学家而言,若是想开展一项研究,就得获取相应资金方面的支持,那么第一步,科学家就得让投资者理解数据研究的意义,获得投资者的认同。
例如,数据科学家想要启动一个项目,以帮助公司在电子商务网站上对服装商品进行快速分类。那为了证明这个项目对公司而言是有益的,科学家就得概述该过程预期的资源消耗以及可能出现的结果。
以下就是需要用可视化说明的项目。
我们预计该项目需要2个月的时间 对衣服进行分类需要很长时间才能手动完成 我们需要这些数据 我们需要这么多软件工程师、数据科学家和产品经理 我们将需要访问这些平台 我们将把结果推送到这个表中 我们将查询结果直观地表示出来
最后可以利用 PowerPoint、Google Slides 等工具,或是一些涉及面更广的工具,包括 Jira、Lucid Charts、Draw.io 和 ProductPlan 等来创建可视化,从而更好的描述这个过程。
02更容易解释复杂的结果
在解决了上一个问题之后,现在数据科学家就需要解释复杂的结果,最好的方式就是数据可视化。就比如下面这个例子,假设模型已经存在,当务之急就是向利益相关者解释结果。数据科学家首先根据每组的数量查看模型的结果,然后通过绘制热力图,从而显示美国在不同州的表现,最后再根据各自的规模对颜色编码。这样做的好处就是,让复杂的结果更容易被理解。
下面是一个示例,用热图来显示结果。
下面是一些流行的可视化工具,可以用来描述数据。
Tableau Google Data Studio Looker PowerBI Matplotlib library Seaborn library
03显示探索性数据分析
不管是对利益相关者,还是对自己的团队而言,可视化数据分析都是非常有用的。在实施数据科学过程中的步骤(如机器学习算法比较)之前,熟悉数据非常重要。或者你也可以通过可视化来比较数据的列和行。
示例:如何使用不同的图表来分析数据。
另一种可以轻松实现数据可视化的方法是使用 Pandas Profiling 。只需一行代码 df.profile_report() 就能轻松绘制常用的分析图表,比如通过直方图,热力图和矩阵进行描述性统计。
下面是一个用变量检查和相关图来可视化探索性数据分析的例子。
04跟踪模型性能趋势
在使用可视化的过程中,数据科学家和相关人员会从中获得乐趣:在完成所有艰苦的工作后,不仅可以看到模型是如何运行的,还可以为精度或误差指标高于或低于某个阈值时设置警报;或者逐渐发现问题,优化模型性能。
可以通过以下几种方式来可视化模型的性能趋势。
Tableau-变动和趋势分析 Looker-将结果合并至仪表盘中
05总结
数据科学可能很复杂,但有一些方法可以通过数据可视化的方式来提高对它的理解。这就是为什么一个数据科学家不应该只懂得编程和统计,还要懂得可视化技术的一部分原因,希望对您有所启发!
END
扫码阅读原文
文 丨海洋编辑丨人青
往期推荐