对于数据科学家而言,他们在处理大量的数据时,不仅需要掌握复杂的编程语言,而且还需依靠开发、统计以及软件工程等方面的知识。所以一方面为了方便数据研究,另一方面为了向同事们解释研究成果,一个最好的方式就是将数据可视化。

# 更容易解释复杂的过程

作为数据科学家而言,若是想开展一项研究,就得获取相应资金方面的支持,那么第一步,科学家就得让投资者理解数据研究的意义,获得投资者的认同。

https://oss-images-qyum.oss-cn-zhangjiakou.aliyuncs.com/undefineddocs-宣发-数据科学家-pic-1.png

例如,数据科学家想要启动一个项目,以帮助公司在电子商务网站上对服装商品进行快速分类。那为了证明这个项目对公司而言是有益的,科学家就得概述该过程预期的资源消耗以及可能出现的结果。

以下就是需要用可视化说明的项目。

  • 我们预计该项目需要2个月的时间
  • 对衣服进行分类需要很长时间才能手动完成
  • 我们需要这些数据
  • 我们需要这么多软件工程师、数据科学家和产品经理
  • 我们将需要访问这些平台
  • 我们将把结果推送到这个表中
  • 我们将查询结果直观地表示出来

最后可以利用 PowerPoint、Google Slides 等工具,或是一些涉及面更广的工具,包括 Jira、Lucid Charts、Draw.io 和 ProductPlan 等来创建可视化,从而更好的描述这个过程。

# 更容易解释复杂的结果

在解决了上一个问题之后,现在数据科学家就需要解释复杂的结果,最好的方式就是数据可视化。就比如下面这个例子,假设模型已经存在,当务之急就是向利益相关者解释结果。

数据科学家首先根据每组的数量查看模型的结果,然后通过绘制热力图,从而显示美国在不同州的表现,最后再根据各自的规模对颜色编码。这样做的好处就是,让复杂的结果更容易被理解。

下面是一个示例,用热图来显示结果。

https://oss-images-qyum.oss-cn-zhangjiakou.aliyuncs.com/undefineddocs-宣发-数据科学家-pic-2.png

下面是一些流行的可视化工具,可以用来描述数据。

  • Tableau
  • Google Data Studio
  • Looker
  • PowerBI
  • Matplotlib library
  • Seaborn library

# 显示探索性数据分析

不管是对利益相关者,还是对自己的团队而言,可视化数据分析都是非常有用的。在实施数据科学过程中的步骤(如机器学习算法比较)之前,熟悉数据非常重要。或者你也可以通过可视化来比较数据的列和行。

示例:如何使用不同的图表来分析数据。

https://oss-images-qyum.oss-cn-zhangjiakou.aliyuncs.com/undefineddocs-宣发-数据科学家-pic-3.png

另一种可以轻松实现数据可视化的方法是使用 Pandas Profiling 。只需一行代码 df.profile_report() 就能轻松绘制常用的分析图表,比如通过直方图,热力图和矩阵进行描述性统计。

下面是一个用变量检查和相关图来可视化探索性数据分析的例子。

https://oss-images-qyum.oss-cn-zhangjiakou.aliyuncs.com/undefineddocs-宣发-数据科学家-pic-4.png

# 跟踪模型性能趋势

在使用可视化的过程中,数据科学家和相关人员会从中获得乐趣:在完成所有艰苦的工作后,不仅可以看到模型是如何运行的,还可以为精度或误差指标高于或低于某个阈值时设置警报;或者逐渐发现问题,优化模型性能。

可以通过以下几种方式来可视化模型的性能趋势。

  • Tableau-变动和趋势分析
  • Looker-将结果合并至仪表盘中

# 总结

数据科学可能很复杂,但有一些方法可以通过数据可视化的方式来提高对它的理解。这就是为什么一个数据科学家不应该只懂得编程和统计,还要懂得可视化技术的一部分原因,希望对您有所启发!

Data Scientists Need To Know Visualization. Here's Why.