统计学基础1- 描述性统计
统计学可以分为:
统计学应用:
统计学的应用十分广泛,可以说,只要有数据,就有统计学的用武之地。目前比较热门的应用:经济学,医学,心理学等。
例: 对于 1 2 3 4 5 ,你会使用哪个数字作为代表 ?
对于一组数据,如果只允许一个数字去代表这组数据,那么这个数字应该如何选择? - 选择数据的中心,即反应数据集中趋势的统计量。
计算公式:
例: 某次数学考试中,小组A与小组B的成员的成绩分别如下:
A: 70,85,62,98,92
B: 82,87,95,80,83
分别求出两组的平均分,并比较两组成绩。
组A: (70+85+62+98+92)/5 = 81.4
组B: (82+87+95+80+83)/5 = 85.4
组B的平均分比组A高,就是组B的总体成绩比组A高。
顾名思义,中位数就是将数据按大小顺序(从大到小或从小到大都可以)排列后处于中间位置的数。
例1: 58,32,46,92,73,88,23
例2:在例1的基础上, 多加一个数63,情况有何变化?
众数是数据中出现次数最多的数(所占比例最大的数)
一组数据中,可能会存在多个众数,也可能不存在众数。
例:
1 2 2 3 3 中的众数是 2 和 3
1 2 3 4 5 中没有众数
众数不仅适用于数值型数据,对于非数值型数据也同样适用
{苹果,苹果,香蕉,橙,橙,橙,桃}这一组数据,没什么均值中位数可言,但是存在一个众数-橙。
例:
两个公司的员工及薪资构成如下:
A: 经理1名,月薪100000;高级员工,15名,月薪10000;普通员工20名,月薪7500;
B: 经理1名,月薪20000;高级员工,15名,月薪11000;普通员工20名,月薪9000;
请比较两家公司的薪资水平。若只考虑薪资,你会选择哪一家公司?
若从均值去考虑,明显地A公司的平均月薪比B公司搞,但是A公司存在一个极端值,大大拉高了A公司的均值,这时只从均值考虑明显不太科学。
从中位数和众数来看,B公司的薪资水平比较高,若是一般的员工,选择B公司显得更加合理。
比较下面两组数据:
A ---- 1 2 5 8 9
B ---- 3 4 5 6 7
两组数据的均值都是5,但是可以看出B组的数据与5更加接近。但是描述集中趋势的统计量不够,需要有描述数据的离散程度的统计量
极差: 最大值 - 最小值,简单地描述数据的范围大小
A: 9 - 1 = 8;
B: 7 - 4 = 3
同样的5个数,A的极差比B的极差要大,所以也比B的要分散
但是只用极差这个衡量离散程度也存在不足
如: A ---- 1 2 5 8 9 B ---- 1 4 5 6 9
在统计学上,更常使用方差来描述数据的离散程度----数据离中心越远越离散
其中 表示数据集中第i个数据的值,μ表示数据集的均值
A---- 1 2 5 8 9
B---- 3 4 5 6 7
再对比数据A ---- 1 2 5 8 9 B----1 4 5 6 9的方差
样本方差和总体方差:
对于数据 1 2 5 8 9,前面求得这一组数据的方差是10。将10与原数据做比较,可以看出10比原数据都大,是否说明这一组数据十分离散呢??
但是方差与原数据的单位是不一样的,这样比较是无意义的。如果原数据的单位是m的话,那么方差的单位是 .
为了保持单位的一致性,我们引入一个新的统计量----标准差
标注差: ,有效地避免了因单位平方而引起的度量问题
A---- 1 2 5 8 9
B---- 3 4 5 6 7
与方差一样,标准差的值越大,表示数据越分散
某班40个学生某次数学测试成绩如下:
63,84,91,53,69,81,61,69,91,78,75,81,80,67,76,81,79,94,61,69,89,70,70,87,81,86,90,88,85,67,71,82,87,75,87,95,53,65,74,77
对于这一组数字,你能看出什么呢?
或许先算一算,均值是77.05,标准差是10.8414。
在对了这两个数字后,你对这组数字又有了怎样的认识,对于该班这次的数学检测成绩如何评价呢??
原始数据太杂乱无章,难以看出规律性;只依赖数字来描述集中趋势和离散程度,让人难以对数据产生直观地影响,这时需要用到图表!
柱形图和直方图的对比: