数据可视化分析的几种展现形式?
随着互联网的不断发展,数据分析已经成为企业的重要运营方法之一。而今天我们就一起来了解一下,关于数据可视化分析都有哪些常见的类型。
数据可视化是数据科学家工作中的重要组成部分。在项目的早期阶段,你通常会进行探索性数据分析(ExploratoryDataAnalysis,EDA)以获取对数据的一些理解。创建可视化方法确实有助于使事情变得更加清晰易懂,特别是对于大型、高维数据集。在项目结束时,以清晰、简洁和引人注目的方式展现终结果是非常重要的,因为你的受众往往是非技术型客户,只有这样他们才可以理解。
散点图
散点图非常适合展示两个变量之间的关系,因为你可以直接看到数据的原始分布。如下面一张图所示的,你还可以通过对组进行简单地颜色编码来查看不同组数据的关系。想要可视化三个变量之间的关系?没问题!仅需使用另一个参数(如点大小)就可以对变量进行编码。
折线图
当你可以看到一个变量随着另一个变量明显变化的时候,比如说它们有一个大的协方差,那好使用折线图。我们可以清晰地看到对于所有的主线随着时间都有大量的变化。使用散点绘制这些将会极其混乱,难以真正明白和看到发生了什么。折线图对于这种情况则非常好,因为它们基本上提供给我们两个变量(百分比和时间)的协方差的快速总结。另外,我们也可以通过彩色编码进行分组。
直方图
直方图对于查看(或真正地探索)数据点的分布是很有用的。查看下面我们以频率和IQ做的直方图。我们可以清楚地看到朝中间聚集,并且能看到中位数是多少。我们也可以看到它呈正态分布。使用直方图真得能清晰地呈现出各个组的频率之间的相对差别。组的使用(离散化)真正地帮助我们看到了“更加宏观的图形”,然而当我们使用所有没有离散组的数据点时,将对可视化可能造成许多干扰,使得看清真正发生了什么变得困难。
柱状图
当你试图将类别很少(可能小于10)的分类数据可视化的时候,柱状图是有效的。如果我们有太多的分类,那么这些柱状图就会非常杂乱,很难理解。柱状图对分类数据很好,因为你可以很容易地看到基于柱的类别之间的区别(比如大小);分类也很容易划分和用颜色进行编码。我们将会看到三种不同类型的柱状图:常规的,分组的,堆叠的。
箱形图
我们之前看了直方图,它很好地可视化了变量的分布。但是如果我们需要更多的信息呢?也许我们想要更清晰的看到标准偏差?也许中值与均值有很大不同,我们有很多离群值?如果有这样的偏移和许多值都集中在一边呢?
这就是箱形图所适合干的事情了。箱形图给我们提供了上面所有的信息。天通苑电脑培训认为实线框的底部和顶部总是一个和三个四分位(比如25%和75%的数据),箱体中的横线总是二个四分位(中位数)。像胡须一样的线(虚线和结尾的条线)从这个箱体伸出,显示数据的范围。