统计学-数据的描述性统计
数据分析的对象主要是结构化数据,虽然数据的类型有很多,但是所有的结构化数据都可以从三个维度进行描述,这三个维度就是 数据的集中趋势描述 , 数据的离散程度描述 和 数据的分布形态描述 。
数据的集中趋势描述是寻找反映事物特征的数据集合的代表值或中心值,这个代表值或中心值可以很好地反映事物目前所处的位置和发展水平。主要描述指标包含:
(1)先将数字由小到大排序:下四分位数Q1,又称“较小四分位数”.
(2)第二四分位数 (Q2),又称“中位数”
(3)上四分位数Q3,又称“较大四分位数”
(4)四分位极差等于第一四分位数与第三四分位数的差值(Q3-Q1)这个差值区间包含了整个数据集合50%的数据值。
Q1-Q2之间距离的差的一半又称为分半四分位差。
①主要适合测度分类数据的离散程度
②异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;
③异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好;
如果两者的方差和标准差相等时,那么到底哪个数据集合的离散程度更高、更低或相同?对于这个问题,方差和标准差解决不了,变异系数却可以。
总体的变异系数计算公式为:
备注:
(1)看长尾在哪边就是往哪偏;
(2)峰左移,右偏态;
(3)峰右移,左偏态;
(4)偏态系数:SK< 0 左偏,又称为负偏;SK> 0 右偏,又称为正偏。
(5)当样本增大时,其均数趋向正态分布
正态分布的峰度K=3,均匀分布的峰度K=1.8。
备注:除了左偏右偏之外我们还需要从峰度上看峰度是否偏离了正态分布。
kurtosis=K-3 称为超值峰度
kurtosis>0,尖峰态(leptokurtic),数据集比较分散,极端数值较多
kurtosis<0,低峰态(platykurtic),数据集比较集中,两侧的数据比较少
注:此文章部分节选于《人人都会数据分析》。![ffff.jpeg]