SPSS绘制统计图
直方图 用于表示连续性变量的 频数分布 。在直方图中以各矩形(直条)的面积表示各组段的频数(或频率),各矩形的面积总和为总频数(=1)
具体操作:
(1)图形->图表构建器
(2)把“直方图”拖拽到画布,把变量“交易量”拖拽到横轴框
(3)在元素属性中勾选正态曲线,选择“应用”。如图:
生成的结果如下:
由图可知,交易量的分布与正态曲线严重不符,因此不是正态分布。
茎叶图 实际是一种 文本化 的图形,在样本量较少的情况下比直方图更精确。
步骤:分析->描述统计->探索
样本少 时使用茎叶图效果非常明显
也称箱线图,和直方图一样用于描述连续变量的分布情况。有时用来进行异常值的筛选。
具体操作和直方图相似,在图库中选择箱图组即可。如下图:
方框外的上、下2个细线 分别表示除去异常值以后的最大、最小值。
在箱图中,与方框上下界的距离超过 1.5倍 四分位间距的都被定义为 异常值 ,以“○”表示;超过 3倍 的被定义为 极端值 ,以“*”表示。
P-P图和Q-Q图常用来判断变量是否符合 正态分布 ,但实际上还可以用来考察其他分布,常见的有Beta分布、 指数分布 、伽马分布、 半对数分布 、拉普拉斯分布、Logistics分布、对数正态分布、帕累托分布、 t分布 、weibull分布、 标准正态分布 等共 13种 分布。
从P-P图中可以看出变量的 实际累积概率 与其假定 理论分布累积概率 的符合程度,从而考察数据是否符合所考察的分布类型。
步骤:分析->描述统计->P-P图,其对话框如下:
(1)检验分布下拉列表:默认的“常规”即正态分布。
(2)“转换”框组:用于考察变换后的数据分布情况。
(3)“比例估计公式”框组:即“概率估计公式”,用于估计样本累积分布的具体算法,一般不需要更改。
结果如下图:
右图去势P-P图反映的是分布的 残差图 ,如果服从正态分布,数据点应均匀的分布在Y=0这条直线上下。由图可知,其残差最高值甚至达到了0.2>>0.05。
由此判断此组数据不符合正态分布。
Q-Q图的基本原理与P-P图相似。但P-P图比较的是两者的累积概率分布,而Q-Q图则是根据变量的 实际百分位数 与 理论百分位数 进行绘制的。通俗地讲,Q-Q图的适用条件更宽松,结果也更稳健。但不能依据经验判断,因此应用较少。
由于P-P图与Q-Q图的操作方式和结果阅读方式几乎完全一样,由此仅简略放图,不再进行说明:
步骤:分析->描述统计->Q-Q图
控制图是用来分析和判断生产工序是否处于稳定状态的一种统计图。 需要确保数据正态分布 。
原理:当生产过程只受 随机因素 的影响,产品的质量特征的 平均值 和变异都基本保持 稳定 时,称之为受控状态。
步骤:分析->质量控制->控制图
由图可以看出,SPSS提供了全面的控制图种类,具体用法如下:
示例:(以个体值控制图为例)
得到结果:
又称排列图,认为20%的原因造成80%的问题。目的是直观地找出主次因素。
步骤:分析->质量控制->帕累托图