统计学基础一
将所有的数加起来,然后除以数字的个数,这个就是均值,也是我们在计算平均值时最常用的方法。
在计算均值时,我们需要将所有的数字进行相加,通常是这样:
而为了简化,我们通常用符号∑来表示相加(读作西格玛),上边的相加数学式可以如下表达
均值是最常用的一个平均值,它有一个专门的符号来表示µ(读作缪),所以上述均值表达式如下:
当数据发生倾斜时,我们往往还要看另外一个数值,叫“中位数”,顾名思义就是处在中间位置的数。比如:我们找了9个人,他们的财富值按从小到大的升序分别是:2万,3万,3万,4万,5万,6万,20万,30万,2亿。这个时候处于中间的是第五个数值:5万,那么5万就是这组数字的中位数。
当有10个人进行统计时,中位数就要计算第5个和第6个数值的均值作为中位数。
有时候均值和中位数都无法反应实际情况,尤其是数据的分布是两边极大值,极小值偏多,中间值偏少时就会出现偏差,这种情况下我们就需要众数。
比如下边的一组数据:
这组数据中有20万财富的人数最多有30个,所以这组数据的众数就是20万,也就是说频次最多的数就是众数。
有时候我们希望度量各个数值相对于均值的距离是怎样的,也就是衡量数值相对于均值是很分散,还是相对集中,这个时候我们怎么计算呢?最初的想法可能是这样的,使用如下方式计算平均距离
我们看一个实际的例子,假设一个公司上半年的销售额如下表所示:
上半年销售额的均值很容易计算是40万,那么我们计算下平均距离
可以看出这里有一个问题,就是这样求和之后总是为0,因为有大于均值的数值减去均值得正,而小于均值的数值则为负,最后相加为0,因此这样无法反应平均距离。此时我们的 方差 出场了。
为了不出现负值,我们让这个距离值都平方后再相加,如下:
具体到我们的例子,计算如下:
方差毕竟是平方后的结果,在反映平均距离的时候不够直观,因此我们通常再取其平方根,这样就得到了 标准差 (也叫均方差),使用符号小写的西格玛表示,如下: