数据的描述性统计

 我来答
新科技17
2022-07-15 · TA获得超过5889个赞
知道小有建树答主
回答量:355
采纳率:100%
帮助的人:74.2万
展开全部
是一组数据中出现次数最多的数值,有可能没有也有可能有多个。

中位数,又称中点数,中值。中位数是按顺序排列的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比他大,有一半的数据比他小。中位数一定存在。

1.中位数是以它在所有标志值中所处的位置确定的全体单位标志值的代表值,不受分布数列的极大或极小值影响,从而在一定程度上提高了中位数对分布数列的代表性

2.有些离散型变量的单项式数列,当次数分布 偏态 时,中位数的代表性会受到影响。

            偏态:偏态(skewness)是指非对称分布的偏斜状态。换句话说,就是指统计总体当中的变量值分别落在众数(M0)的左右两边,呈非对称性分布。

3.趋于一组有序数据的中间位置

分位数,亦称分位点,是指用分割点将一个随机变量的概率分布范围分为几个具有相同概率的连续区间。分割点的数量比划分出的区间少1,例如3个分割点能划分出四个区间。

常见的有中位数(即二分位数)、四分位数、十分位数、百分位数等。

定义:分位数指的就是连续分布函数中的一个点,这个点对应概率p

第一四分位数 ,又称 较小四分位数 ,等于该样本中所有数值由小到大排列后第25%的数字。

第二四分位数 ,又称 中位数 ,等于该样本中所有数值由小到大排列后第50%的数字。

第三四分位数 ,又称 较大四分位数 ,等于该样本中所有数值由小到大排列后第75%的数字。

第三四分位数与第一四分位数的差距又称 四分位距 。

定义:平均数 是统计学中最常用的统计量,用来表明资料中各观测值相对集中较多的中心位置。

为 集中趋势 的最常用测度值,目的是确定一组数据的均衡点

是表征数据 集中趋势 的一个统计指标。 它是一组数据之和,除以这组数据个数/项数。

算术平均数在统计学上的优点,就是它较 中位数 、 众数 更少受到随机因素影响, 缺点是它更容易受到 极端值 影响。

计算公式为:

加权平均数 与 算术平均数 类似,不同点在于,数据中的每个点对于平均数的贡献并不是相等的,有些点要比其他的点更加重要。

如果所有的权重相同且等于一,那么加权平均数与 算术平均数 相同

加权平均数作为算术平均数的更广义的表现形式,加权平均数具有一些看起来违反常理的性质,例如 辛普森悖论 。

术语 加权平均数 通常指的是加权算术平均数,但是其他平均数的加权版本也可以计算出来,例如 加权几何平均数 和 加权调和平均数 。

辛普森悖论 :当人们尝试探究两种变量是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。

辛普森悖论

在数学中, 几何平均数  是一种 均值 ,它通过使用它们的值的乘积(与使用它们的和的 算术平均数 相反)来指示一组数字的集中趋势或典型值。几何平均数定义为第n根个数的乘积的第n个根,即对于一组数字x1,x2,x3....xn, 几何平均数定义为:

当每个项目具有多个具有不同数值范围的属性时, 几何平均数 经常使用在比较不同项目,为这些项目找到单个 品质因子 。例如,几何平均数可以给出有意义的“平均数”以比较两家公司的环境可持续性评分为0到5,并且其财务可行性评级为0到100。如果使用算术平均数而不是几何平均数,则财务可行性给予更多权重,因为其数值范围更大 - 因此财务评级的一小部分变化(例如从80变为90)会产生更大的差异。算术平均数比环境可持续性的大比例变化(例如从2到5)。使用几何平均数“归一化”被平均的范围,使得没有范围支配加权,并且任何属性中的给定百分比变化对几何平均数具有相同的影响。因此,没有范围控制加权, 和给定的百分比变化的任何属性对几何平均数有相同的影响。因此,从 4 到 4.8,20% 的环境可持续性变化对几何平均数的影响与从 60 到 72 的财务可行性的 20% 变化有同样的效果。

几何平均数可以根据几何形状来理解。两个数字a和b的几何平均数是正方形一边的长度,其面积等于以a和b为两边的矩形的面积。同样, 三个数字, a、 b和c的几何平均数是立方体一个边的长度,其体积与以a、b和c为边的长方体的体积相同。

几何平均数仅适用于 正数 。它也经常用于一组数位,它们的值是用来相乘的,或者是指数性质的.

几何平均数也是三个最经典的 毕达哥拉斯平均 的其中一个,与前面提到的 算术平均数 和下边提到的 调和平均数 一起。对于包含至少一对不等数的所有正则资料集,调和平均数始终是三种方法中最小的,算术平均数始终是三中最大的,而几何平均数始终介于两者之间 。

调和平均数: 是求一组数值的平均数的方法中的一种,一般是在计算平均速率时使用。

调和平均数是将所有数值取 倒数 并求其 算术平均数 后,再将此 算数平均数 取 倒数 而得,其结果等于数值的个数除以数值 倒数 的总和。一组 正数 x1, x2 ... xn的调和平均数H其计算公式为:

又称 全距 :用来表示统计资料中的 变异量数 ,为 最大值 与 最小值 之间的 差额 ,即 最大值 减 最小值 后所得 数值 。

变异量数 :变异量数亦称差异量数,又称离散趋势量数,它是统计学的基本概念之一,是表示 样本数据 偏离中间数值的趋势的 量数 ,或者说它是反映样本频率分布 离散程度 的量数。差异量数大,表示各数值分布的范围广且参差不齐;差异量数小,表示各数值较集中、整齐,波动的范围幅度小。因此,集中量数的代表性如何,可由差异量数反映。差异量数愈大,则 集中量数 的代表性愈小;差异量数愈小,则 集中量数 的代表性愈大

方差 :在概率论和统计学中,一个 随机变量 的 方差 描述的是它的离散程度,也就是该变量离其 期望值 的距离

将各个误差将之平方(而非取绝对值,使之肯定为正数),相加之后再除以总数,透过这样的方式来算出各个数据分布、零散(相对中心点)的程度。

特性:

1.方差不会是负的,因为次方计算为正的或为零

        Var(x)  >=  0

2.一个常数随机变量的方差为零,且当一个资料集的方差为零时,其内所有项目皆为相同数值

        P(X = a) = 1 <=>Var(X) = 0

3.方差不变于定位参数的变动。也就是说,如果一个常数被加至一个数列中的所有变量值,此数列的方差不会改变

        Var(X + a) = Var(X)

4.如果所有数值被放大一个常数倍,方差会放大此常数的平方倍

        Var(aX) = a^2Var(X)

5.两个随机变量和的方差为

        Var(aX + bY) = a^2Var(X) + b^2Var(Y) + 2abCov(X,Y)

        Var(X - Y) = Var(X) + Var(Y) - 2Cov(X,Y)

        Cov代表协方差

在概率统计中最常使用作为测量一组数值的 离散程度 之用。标准差定义:为 方差 开 算术平方根 ,反映组内个体间的离散程度;标准差与 期望值 之比为 标准离差率 。测量到分布程度的结果,原则上具有两种性质:

        1.为非负数值(因为开平方后再做平方根);

        2.与测量资料具有相同单位(这样才能比对)。

简单来说,标准差是一组数值自 平均值 分散开来的程度的一种测量观念。一个较大的标准差,代表大部分的数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。例如,两组数的集合{0, 5, 9, 14}和{5, 6, 8, 9}其平均值都是7,但第二个集合具有较小的标准差。

又称 全距 :用来表示统计资料中的 变异量数 ,为 最大值 与 最小值 之间的 差额 ,即 最大值 减 最小值 后所得 数值

定义:平均差是总体所有单位与其算术平均数的离差绝对值的算术平均数

描述:平均差异大,表明各标志值与算术平均数的差异程度越大,该算术平均数的代表性就越小;平均差越小,表明各标志值与算术平均数的差异程度越小,该算术平均数的代表性就越大。因离差和为零,离差的平均数不能将离差和除以离差的个数求得,而必须将离差取绝对数来消除正负号。平均差是反应各标志值与算术平均数之间的平均差异。

公式:

四分位数中第三四分位数与第一二分位数的差,又称四分位距。

异众比率是统计学名词,是统计学当中研究现象离中趋势的指标之一。异众比率指的是总体中非众数次数与总体全部次数之比。换句话说,异众比率指非众数组的频数占总频数的比例。

标准离差率 (变异系数或单位风险或离散系数):

定义:是 概率分布 离散程度的一个 归一化 量度,其定义为 标准差 与 平均值 之比

变异系数(coefficient of variation)只在平均值不为零时有定义,而且一般适用于平均值大于零的情况

变异系数只对由 比率标量 计算出来的数值有意义。举例来说,对于一个气温的分布,使用开尔文或摄氏度来计算的话并不会改变标准差的值,但是温度的平均值会改变,因此使用不同的温标的话得出的变异系数是不同的。也就是说,使用 区间标量 得到的变异系数是没有意义的

优点:

比起标准差来,变异系数的好处是不需要参照数据的平均值。变异系数是一个 无量纲量 ,因此在比较两组 量纲 不同或均值不同的数据时,应该用变异系数而不是标准差来作为比较的参考。

缺点:

1.当平均值接近于0的时候,微小的扰动也会对变异系数产生巨大影响,因此造成精确度不足。

2.变异系数无法发展出类似于均值的 置信区间 的工具。

定义:偏态系数以 平均值 与 中位数 之差对 标准差 之比率来衡量偏斜的程度,用 SK 表示 偏斜系数 :偏态系数小于0,因为平均数在众数之左,是一种左偏的分布,又称为负偏。偏态系数大于0,因为均值在众数之右,是一种右偏的分布,又称为正偏。

描述:偏态系数是根据 众数 、 中位数 与 均值 各自的性质,通过比较众数或中位数与均值来衡量偏斜度的,即偏态系数是对分布偏斜方向和程度的刻画

三种情况:

零值:偏态系数的取值为0时,表示数据为完全的对称分布

正值:偏态系数的取值为正数时,表示数据为正偏态或右偏态

负值:偏态系数的取值为负数时,表示数据为负偏态,或左偏态

注意:偏态系数的绝对数值越小,表示数据偏倚的程度越小;偏态系数的绝对数值越大,表示数据偏倚的程度越大

峰度又称 四阶标准矩 ,通常被定义为 四阶累积量 除以 二阶累积量 的平方,它等于 四阶中心矩 除以概率分布 方差 的平方再减去3。

公式:

这也被称为超值峰度。“减3”是为了让 正态分布 的峰度为0。

如果超值峰度为正,称为尖峰态;如果超值峰度为负,称为低峰态。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式