统计学基础理论
1个回答
展开全部
统计学:科学方法收集、整理、汇总、描述氏链和分析数据资料,并在此基础上进行推断和决策的科学;
归纳统计学/统计推断:通过样本分析来给总体下结论
描述性统计学/演绎统计学:值描述和分析特定对象而不下结论或推断
变量、常量、连续变量、离散变量、连续数据、离散数据
自变量、因变量、函数、单值函数、多值函数
数组阵列:原始数据按照数量大小升序或者降序排列,最大值与最小值的差为全距;
组距、组限、组界、组中值、直方图与频率多边形
频率分布=某一组频数/总频数
累计频数分布/累计频数表,累计频数多边形/卵形线
累计频率分布/百分率累计频数=累计频歼孙孙数/总频数
一、中位数
定义/解释 :按顺序排列的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比他大,有一半的数据比他小
# 如果观察值有凯宽偶数个,通常取最中间的两个数值的平均数作为中位数。
二、方差
参考百科: 方差
1)定义
方差(variance) :是在概率论和统计方差衡量 随机变量 或一组数据时离散程度的度量
2)应用
1、在统计描述中
方差用来计算 每一个变量 (观察值)与总体均数之间的差异
在许多实际问题中,研究方差即偏离程度有着重要意义
为避免出现 离均差 (X -
)总和为零,离均差平方和受样本含量的影响,统计学采用 平均离均差平方和 来描述变量的变异程度
总体方差计算公式:
:总体方差
:变量
:总体均值
:总体例数
实际工作中,总体均数难以得到时,应用样本统计量代替总体参数,经校正后,样本方差计算公式: S2 = ∑(X -
)2/ (n - 1)
S2 :样本方差
X :变量
:为样本均值
n :样本例数。
2、在概率分布中
用来度量 随机变量 和其 数学期望 (即 均值 )之间的偏离程度。
在概率分布中,设X是一个离散型 随机变量 ,若E{[X - E(X)]2}存在,则称E{[X - E(X)]2}为X的方差,记为D(X),Var(X)或DX,其中E(X)是X的期望值,X是变量值,公式中的E是期望值expected value的缩写,意为“变量值与其期望值之差的平方和”的期望值。
离散型随机变量方差计算公式: D(X)=E{[X - E(X)]2} = E(X2) - [E(X)]2
当D(X) = E{[X-E(X)]2}称为变量X的方差,而
称为标准差(或 均方差 )。它与X有相同的量纲。标准差是用来衡量一组数据的离散程度的 统计量
对于连续型随机变量X,若其定义域为(a, b),概率密度函数为f(x),连续型随机变量X方差计算公式:D(X) =
(x - μ)2* f(x)dx,方差刻画了随机变量的取值对于其数学期望的 离散程度 。(标准差、方差越大,离散程度越大),若X的取值比较集中,则方差D(X)较小,若X的取值比较分散,则方差D(X)较大。因此,D(X)是刻画X取值分散程度的一个量,它是衡量取值分散程度的一个尺度。
三、标准差
# 参考百科: 标准差
1)定义
标准差(Standard Deviation)又常称 均方差 ,是方差的算术平方根,反映一个数据集的离散程度
2)应用
在 概率 统计中:最常使用作为 统计分布 程度(statistical dispersion)上的测量。
标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的 平方根 。它反映组内个体间的离散程度
测量到分布程度的结果,原则上具有两种 性质 :
为非负数值, 与测量 资料 具有相同单位
一个总量的标准差或一个 随机变量 的标准差,及一个子集合样品数的标准差之间,有所差别。
公式:
假设有一组数值X₁,X₂,X₃,......Xn(皆为 实数 ),其 平均值 ( 算术平均值 )为μ
标准差也被称为 标准偏差 ,或者实验标准差,公式:
3)其它
简单来说,标准差是一组数据 平均值 分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值
四、均方误差
1)定义
均方误差(mean-square error, MSE)是反映 估计量 与被估计量之间差异程度的一种度量。
设t是根据子样确定的总体参数θ的一个估计量,(θ-t)2的 数学期望 ,称为估计量t的均方误差。它等于σ2+b2,其中σ2与b分别是t的 方差 与 偏倚 。
2)名词介绍
相合估计 (或一致估计)是在大样本下评价估计量的标准,在样本量不是很多时,人们更加倾向于基于小样本的评价标准,此时,对 无偏估计 使用 方差 ,对 有偏估计 使用均方误差。
一般地,在 样本量 一定时,评价一个点估计的好坏标准使用的指标总是点估计
与参数真值
的距离的函数,最常用的函数是距离的平方,由于估计量
具有随机性,可以对该函数求 期望 ,这就是下式给出的均方误差:
均方误差是评价 点估计 的最一般的标准,自然,我们希望估计的均方误差越小越好,注意到
上式说明,均方误差
由点估计的方差
与偏差
的平方两部分组成。
如果
是 θ 的无偏估计,则
,此时用均方误差评价点估计与用方差是完全一致的,这也说明了用方差考察无偏估计是合理的。
当
不是 θ 的无偏估计,就要看其均方误差
,即不仅看方差大小,还要看其偏差大小,下面的例子说明在均方误差的含义下,有些有偏估计优于无偏估计。
3)一致性最小的均方误差估计
定义1 :
设有样本
对待估参数 θ,有一个估计类,称
是该类中θ的一致最小均方误差估计,如果对该类估计中另外任意一个θ的估计
,在 参数空间
上都有
使用情况:
一致最小均方误差估计通常是在一个确定的估计类中进行的,一致最小均方误差估计一般是不存在的。
既然一致最小均方误差估计一般是不存在的,人们通常就对估计提出一些合理性要求,如 无偏性 就是一个常见的合理性要求。
一致最小方差无偏估计前面曾指出,均方误差
由点估计的方差
与偏差
的平方两部分组成,当
是 θ 的无偏估计时,均方误差就简化为方差,此时一致最小均方误差估计就是一致最小方差无偏估计。
定义2 :
设
是 θ 的无偏估计,如果对于任意一个θ的无偏估计
,在参数空间
上都有
则称
是 θ 的一致最小方差无偏估计,简记为UMVUE。
五、估计量
1)定义
用来估计总体未知参数用的 统计量 。
在 统计学 中,估计量是基于观测数据计算一个已知量的估计值的法则:于是 估计量 (estimator)、被估量(estimand)和估计值(estimate)是有区别的。
估计值 :当经 测定 的具体 数值 代入估计量时,它就是一个具体的数值,称为 估计值 ,英文是estimator。
2)举例
设(X1,……,Xn)为来自总体X的样本,(X1,……,Xn)为相应的样本值,θ是总体分布的未知参数,θ∈Θ。
Θ 表示 θ 的取值范围,称 Θ 为参数空间。尽管 θ 是未知的,但它的参数空间 Θ 是事先知道的,为了估计未知参数θ,我们构造一个统计量 h(X1,……,Xn),然后用 h(X1,……,Xn) 的值 h(X1,……,Xn) 来估计θ的真值,称h(X1,……,Xn)为θ的估计量。
假设存在一个固定的待估参数。那么"估计量"是 样本空间 映射到 样本估计值 的一个函数。
的一个估计量记为
。很容易用随机变量的代数来阐述这个理论:因而如果用 X 来标记对应观测数据的 随机变量 ,估计量(本身视为随机变量)的符号表示为该随机变量的函数,
。对特定观测数据集(即对于 X = x )的估计值为一固定值
。通常使用简化标记,用
表示随机变量,不过这会造成误解。
个人理解:
目的:估计总体数据集 X 的分布情况,即 θ;
方法:从总体数据集 X 中抽取一组样本 h,根据 h 的分布以及 θ 的取值范围 Θ 来估计总体数据集 X 的分布情况 θ。
3)误差
对于一个给定样本x,估计量
的" 误差 "定义为
其中
是待估参数。
注意误差 e 不仅取决于估计量(估计公式或过程),还取决于样本。
4)均方误差
估计量
的均方误差被定义为误差的平方的 期望值 ,即为:
。
它用来显示估计值的集合与被估计单个参数的平均差异。试想下面的类比:假设“参数”是靶子的靶心,“估计量”是向靶子射箭的过程,而每一支箭则是“估计值”(样本)。那么,高均方误差就意味着每一支箭离靶心的平均距离较大,低均方误差则意味着每一支箭离靶心的平均距离较小。箭支可能集聚,也可能不。比如说,即使所有箭支都射中了同一个点,同时却严重偏离了靶子,均方误差相对来说依然很大。然而要注意的是,如果均方误差相对较小,箭支则更有可能集聚(而不是离散)。
5)一致性
一致估计量序列是一列随着序号(通常是样本容量)无限增大时依概率 收敛 于被估量的估计量序列。换句话说,增加样本容量增大了估计量接近总体参数的概率。
在数学上,一个估计量序列 { tn ; n ≥ 0} 是参数 θ 的一致估计量当且仅当对于所有 ϵ > 0,不管多小,我们都有
;
就如,一个人不断地抛硬币,随着次数的增多,任何一面出现的 概率 (机率)就会趋于0.5。那么这个0.5就是这个抛硬币事件中任何一面出现概率的一致估计量,或者说一致估计值。
六、高斯函数、正态分布
1)定义
格式 :
a 、 b 与 c 为 实数 常数,且 a > 0;
c = 2的高斯函数是 傅立叶变换 的 特征函数 。这就意味着高斯函数的傅立叶变换不仅仅是另一个高斯函数,而且是进行傅立叶变换的函数的 标量 倍。
2)积分
任意高斯函数的积分是:
另一种形式是:
其中 f 必须是严格积分的积分收敛;
3)正态分布
参见百科: https://baike.baidu.com/item/%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83
公式:
正态分布(Normal distribution),也称“常态分布”,又名 高斯分布 (Gaussian distribution)
高斯函数是 正态分布 的密度函数,根据 中心极限定理 它是复杂总和的有限 概率分布 ;
若 随机变量 X服从一个 数学期望 为μ、 方差 为σ^2的正态分布,记为N(μ,σ^2)。其 概率密度函数 为正态分布的 期望值 μ决定了其位置,其 标准差 σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是 标准正态分布 。
定理:
由于一般的正态
归纳统计学/统计推断:通过样本分析来给总体下结论
描述性统计学/演绎统计学:值描述和分析特定对象而不下结论或推断
变量、常量、连续变量、离散变量、连续数据、离散数据
自变量、因变量、函数、单值函数、多值函数
数组阵列:原始数据按照数量大小升序或者降序排列,最大值与最小值的差为全距;
组距、组限、组界、组中值、直方图与频率多边形
频率分布=某一组频数/总频数
累计频数分布/累计频数表,累计频数多边形/卵形线
累计频率分布/百分率累计频数=累计频歼孙孙数/总频数
一、中位数
定义/解释 :按顺序排列的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比他大,有一半的数据比他小
# 如果观察值有凯宽偶数个,通常取最中间的两个数值的平均数作为中位数。
二、方差
参考百科: 方差
1)定义
方差(variance) :是在概率论和统计方差衡量 随机变量 或一组数据时离散程度的度量
2)应用
1、在统计描述中
方差用来计算 每一个变量 (观察值)与总体均数之间的差异
在许多实际问题中,研究方差即偏离程度有着重要意义
为避免出现 离均差 (X -
)总和为零,离均差平方和受样本含量的影响,统计学采用 平均离均差平方和 来描述变量的变异程度
总体方差计算公式:
:总体方差
:变量
:总体均值
:总体例数
实际工作中,总体均数难以得到时,应用样本统计量代替总体参数,经校正后,样本方差计算公式: S2 = ∑(X -
)2/ (n - 1)
S2 :样本方差
X :变量
:为样本均值
n :样本例数。
2、在概率分布中
用来度量 随机变量 和其 数学期望 (即 均值 )之间的偏离程度。
在概率分布中,设X是一个离散型 随机变量 ,若E{[X - E(X)]2}存在,则称E{[X - E(X)]2}为X的方差,记为D(X),Var(X)或DX,其中E(X)是X的期望值,X是变量值,公式中的E是期望值expected value的缩写,意为“变量值与其期望值之差的平方和”的期望值。
离散型随机变量方差计算公式: D(X)=E{[X - E(X)]2} = E(X2) - [E(X)]2
当D(X) = E{[X-E(X)]2}称为变量X的方差,而
称为标准差(或 均方差 )。它与X有相同的量纲。标准差是用来衡量一组数据的离散程度的 统计量
对于连续型随机变量X,若其定义域为(a, b),概率密度函数为f(x),连续型随机变量X方差计算公式:D(X) =
(x - μ)2* f(x)dx,方差刻画了随机变量的取值对于其数学期望的 离散程度 。(标准差、方差越大,离散程度越大),若X的取值比较集中,则方差D(X)较小,若X的取值比较分散,则方差D(X)较大。因此,D(X)是刻画X取值分散程度的一个量,它是衡量取值分散程度的一个尺度。
三、标准差
# 参考百科: 标准差
1)定义
标准差(Standard Deviation)又常称 均方差 ,是方差的算术平方根,反映一个数据集的离散程度
2)应用
在 概率 统计中:最常使用作为 统计分布 程度(statistical dispersion)上的测量。
标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的 平方根 。它反映组内个体间的离散程度
测量到分布程度的结果,原则上具有两种 性质 :
为非负数值, 与测量 资料 具有相同单位
一个总量的标准差或一个 随机变量 的标准差,及一个子集合样品数的标准差之间,有所差别。
公式:
假设有一组数值X₁,X₂,X₃,......Xn(皆为 实数 ),其 平均值 ( 算术平均值 )为μ
标准差也被称为 标准偏差 ,或者实验标准差,公式:
3)其它
简单来说,标准差是一组数据 平均值 分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值
四、均方误差
1)定义
均方误差(mean-square error, MSE)是反映 估计量 与被估计量之间差异程度的一种度量。
设t是根据子样确定的总体参数θ的一个估计量,(θ-t)2的 数学期望 ,称为估计量t的均方误差。它等于σ2+b2,其中σ2与b分别是t的 方差 与 偏倚 。
2)名词介绍
相合估计 (或一致估计)是在大样本下评价估计量的标准,在样本量不是很多时,人们更加倾向于基于小样本的评价标准,此时,对 无偏估计 使用 方差 ,对 有偏估计 使用均方误差。
一般地,在 样本量 一定时,评价一个点估计的好坏标准使用的指标总是点估计
与参数真值
的距离的函数,最常用的函数是距离的平方,由于估计量
具有随机性,可以对该函数求 期望 ,这就是下式给出的均方误差:
均方误差是评价 点估计 的最一般的标准,自然,我们希望估计的均方误差越小越好,注意到
上式说明,均方误差
由点估计的方差
与偏差
的平方两部分组成。
如果
是 θ 的无偏估计,则
,此时用均方误差评价点估计与用方差是完全一致的,这也说明了用方差考察无偏估计是合理的。
当
不是 θ 的无偏估计,就要看其均方误差
,即不仅看方差大小,还要看其偏差大小,下面的例子说明在均方误差的含义下,有些有偏估计优于无偏估计。
3)一致性最小的均方误差估计
定义1 :
设有样本
对待估参数 θ,有一个估计类,称
是该类中θ的一致最小均方误差估计,如果对该类估计中另外任意一个θ的估计
,在 参数空间
上都有
使用情况:
一致最小均方误差估计通常是在一个确定的估计类中进行的,一致最小均方误差估计一般是不存在的。
既然一致最小均方误差估计一般是不存在的,人们通常就对估计提出一些合理性要求,如 无偏性 就是一个常见的合理性要求。
一致最小方差无偏估计前面曾指出,均方误差
由点估计的方差
与偏差
的平方两部分组成,当
是 θ 的无偏估计时,均方误差就简化为方差,此时一致最小均方误差估计就是一致最小方差无偏估计。
定义2 :
设
是 θ 的无偏估计,如果对于任意一个θ的无偏估计
,在参数空间
上都有
则称
是 θ 的一致最小方差无偏估计,简记为UMVUE。
五、估计量
1)定义
用来估计总体未知参数用的 统计量 。
在 统计学 中,估计量是基于观测数据计算一个已知量的估计值的法则:于是 估计量 (estimator)、被估量(estimand)和估计值(estimate)是有区别的。
估计值 :当经 测定 的具体 数值 代入估计量时,它就是一个具体的数值,称为 估计值 ,英文是estimator。
2)举例
设(X1,……,Xn)为来自总体X的样本,(X1,……,Xn)为相应的样本值,θ是总体分布的未知参数,θ∈Θ。
Θ 表示 θ 的取值范围,称 Θ 为参数空间。尽管 θ 是未知的,但它的参数空间 Θ 是事先知道的,为了估计未知参数θ,我们构造一个统计量 h(X1,……,Xn),然后用 h(X1,……,Xn) 的值 h(X1,……,Xn) 来估计θ的真值,称h(X1,……,Xn)为θ的估计量。
假设存在一个固定的待估参数。那么"估计量"是 样本空间 映射到 样本估计值 的一个函数。
的一个估计量记为
。很容易用随机变量的代数来阐述这个理论:因而如果用 X 来标记对应观测数据的 随机变量 ,估计量(本身视为随机变量)的符号表示为该随机变量的函数,
。对特定观测数据集(即对于 X = x )的估计值为一固定值
。通常使用简化标记,用
表示随机变量,不过这会造成误解。
个人理解:
目的:估计总体数据集 X 的分布情况,即 θ;
方法:从总体数据集 X 中抽取一组样本 h,根据 h 的分布以及 θ 的取值范围 Θ 来估计总体数据集 X 的分布情况 θ。
3)误差
对于一个给定样本x,估计量
的" 误差 "定义为
其中
是待估参数。
注意误差 e 不仅取决于估计量(估计公式或过程),还取决于样本。
4)均方误差
估计量
的均方误差被定义为误差的平方的 期望值 ,即为:
。
它用来显示估计值的集合与被估计单个参数的平均差异。试想下面的类比:假设“参数”是靶子的靶心,“估计量”是向靶子射箭的过程,而每一支箭则是“估计值”(样本)。那么,高均方误差就意味着每一支箭离靶心的平均距离较大,低均方误差则意味着每一支箭离靶心的平均距离较小。箭支可能集聚,也可能不。比如说,即使所有箭支都射中了同一个点,同时却严重偏离了靶子,均方误差相对来说依然很大。然而要注意的是,如果均方误差相对较小,箭支则更有可能集聚(而不是离散)。
5)一致性
一致估计量序列是一列随着序号(通常是样本容量)无限增大时依概率 收敛 于被估量的估计量序列。换句话说,增加样本容量增大了估计量接近总体参数的概率。
在数学上,一个估计量序列 { tn ; n ≥ 0} 是参数 θ 的一致估计量当且仅当对于所有 ϵ > 0,不管多小,我们都有
;
就如,一个人不断地抛硬币,随着次数的增多,任何一面出现的 概率 (机率)就会趋于0.5。那么这个0.5就是这个抛硬币事件中任何一面出现概率的一致估计量,或者说一致估计值。
六、高斯函数、正态分布
1)定义
格式 :
a 、 b 与 c 为 实数 常数,且 a > 0;
c = 2的高斯函数是 傅立叶变换 的 特征函数 。这就意味着高斯函数的傅立叶变换不仅仅是另一个高斯函数,而且是进行傅立叶变换的函数的 标量 倍。
2)积分
任意高斯函数的积分是:
另一种形式是:
其中 f 必须是严格积分的积分收敛;
3)正态分布
参见百科: https://baike.baidu.com/item/%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83
公式:
正态分布(Normal distribution),也称“常态分布”,又名 高斯分布 (Gaussian distribution)
高斯函数是 正态分布 的密度函数,根据 中心极限定理 它是复杂总和的有限 概率分布 ;
若 随机变量 X服从一个 数学期望 为μ、 方差 为σ^2的正态分布,记为N(μ,σ^2)。其 概率密度函数 为正态分布的 期望值 μ决定了其位置,其 标准差 σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是 标准正态分布 。
定理:
由于一般的正态
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
蓝鲸智能科技
2024-11-21 广告
2024-11-21 广告
理论考试系统是我们河南蓝鲸智能科技有限公司研发的一款高效、便捷的在线考试平台。该系统集题库管理、在线组卷、自动评分等功能于一体,支持多种题型和考试模式。通过智能化的防作弊手段,确保考试的公平公正。用户可以随时随地进行在线练习和模拟考试,有效...
点击进入详情页
本回答由蓝鲸智能科技提供
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询