第一章 统计学基础知识
变化率的定义如下:
几何平均是 个数据连乘积的 次方根,其定义如下:
所谓移动平均,就是对时间序列中的前后数据求平均,将不必要的变动(循环变动、季节变动和不规则变动)平滑化( ),也就是剔除这些变动,从而发现长期变化方向的一种方法。
通常,移动平均大多用简单的奇数项来计算。
三项移动平均:
五项移动平均:
另一方面,在偶数项季节数据的情况下,可以按以下的方法来计算,即首先计算两个四项移动平均,再计算这两项的移动平均。这种方法叫移动平均的中心化。同样由于月度数据也是偶数项,因而称作中心化12项移动平均。
如果事先已知周期,一般要使项数与周期一致。
方差 与标准差 的定义如下
方差:
标准差:
其中, 又叫做离差平方和。
变动系数又称变异系数,它是用标准差除以算术平均数的商来表示。变动系数 的的定义如下:
变动系数越大,数据的分散程度越大,变动系数要求所有使用的数据均为正数,且算出的数值要用百分数形式来表示。
如果 为零或接近于零,变动系数无法计算,所以说变动系数是一种暧昧的尺度。
标准化变量是用来测量某个数据的数值与算术平均数 的偏离程度,是标准差 的多少倍。
标准化变量 的定义如下:
相关系数是用来衡量两个变量 、 之间相互关系的大小和方向的系数。相关系数 的定义如下:
相关系数 的取值范围为 , 的取值具有以下不同的含义
计算出来的相关系数在多大程度上值得信赖,需要进行检验。计算出来的相关系数,参照相关系数检验表,如果大于所示的相关系数,则两个变量之间存在显著的相关关系。 显著水平( )越小,检验越严格。
显著水平指的是很少会发生的概率,相当于相关系数为零( ),也即相当于不相关的概率。计算出来的相关系数的绝对值,如果大于表中显著水平为 的的相关系数,那就意味着,该相关系数为零的概率。也就是不相关的概率小于 ,因此存在显著的相关。
斯皮尔曼秩相关系数考察的不是 和 两组数据中的数值,而是顺序,借此来测算 和 之间相关关系的强弱,其定义如下:
是样本数, 是 和 的顺序差(即 )。斯皮尔曼秩相关系数的取值范围和解释方法和相关系数相同,它的优点是计算简单,可靠性高。
当数据顺序相同时,情况较为复杂,可以用下面的公式来计算:
其中,
洛伦茨曲线是用来表示收入分布、资产分布的差距、不平等程度、集中程度的一种代表性的方法。
一种洛伦茨曲线的绘制方法:横轴表示将家庭按收入从低到高排列的累计比率;纵轴表示的是与横轴的家庭累计比率相应的累计收入比率;两者的坐标可以在图中画出,最后将各点相连,就形成了洛伦茨曲线。
与横轴呈45°的直线为完全平等线,收入分布如果趋于平等化,洛伦茨曲线就接近于完全平等线,如果收入分布完全平等,洛伦茨曲线就与完全平等线重合。如果收入分布不平等,洛伦茨曲线就会偏离完全平等线,向右下方移动。
基尼系数是根据洛伦茨曲线用以计算收入分布不平等程度的指数。基尼系数的大小介于 与 之间,越接近 ,说明收入分布越平等;反之,越接近 ,说明不平等程度越大。
基尼系数的定义如下:
其中, 为累计家庭比率; 为累计收入比率; 。
上图阴影部分面积的两倍就相当于基尼系数。
贡献度与贡献率放映的是在某种数据的变化中,它的各个构成要素贡献的大小或者变化的程度与方向(正、负)。
下列恒等式:
如果上述等式能够在每一期都成立,那么它的变化幅度的关系式也能够成立:
等式两边同除以基准时期的 ,则:
右边各项就是各要素的贡献度,它反映了在 的变化中,各个要素分别做了多大贡献。
再将等式两边同时除以 ,得:
右边各项就是各要素的的贡献度,如果将Y的变化幅度看作 ,贡献率反应的就是个要素分别贡献了百分之多少。
如果将时点 相对于时点 的变化幅度看作 ,其定义如下
欢迎大家一起讨论\ ^o^ /