统计学第三课:随机变量的概率分布
1个回答
展开全部
!!!!!!!!!!概率论非常重要!!!!!!!!!!
世界万物的不确定性如何衡量和表示呢?在统计学里用概率表示。
比如有这么几句话:
对事件发生的可能性的度量就是概率。概率介于0-1之间,用百分比的方式度量可能性大小。在古典概率的定义中,因为一个事件发生的可能性事先无法知道,所以我们可以通过多次试验获得某个观测结果发生的频率p,p就是代表了发生的概率的大小。
比如我们想知道通过试验后A发生的概率,那么我们可以做n次试验,看n次实验中记录发生A事件的次数,于是会有下面的结论:
P(A)
=A发生的次数÷重复试验的总次数
=m÷n
=p
随着试验次数的增多,m、n会围绕一个稳定的频率上下波动
另一个例子,如何理解“硬币出现正面的概率P(A)=1/2”:
错误——抛掷多次硬币,其中有一半的硬币出现了正面结果
正确——在对硬币连续多次的抛掷中,硬币出现正面结果的概率接近或几乎稳定于一半儿(50%)
以上例子都是基于可以进行重复实验做的例子。但现实生活中很多例子没有办法进行多次重复,也正是因为这样,我们可以使用生活中已经发生的信息索求发生概率。所以概率其实是主观的,他是根据我们生活中的经验,掌握的信息进行统计意义上的求解,至于概率高低的好与坏,全凭分析者对源于生活中的判断。
实际生活中很多概率结果事先不知道,可以通过一种分布模型去确认这个时间发生的概率。
生活中要进行观测时,取值无法事先了解,比如出租房屋的价格,小学生的身高,这就是随机变量。换句话说,随机变量指的是实现不知道取值的那些变量,而性别变量事先知道取值有男、女,所以不是随机变量。随机变量表达了某特定实验可能出现的结果,由于结果未知,取值有随机性。比如抛掷硬币前,你知道你抛掷出来的结果是正面还是反面嘛?(通常意义是不会的)
取有限个值的变量为离散型随机变量。比如喜欢某个品牌的人数是一个有限固定的变量值。
可以取一个或多个区间中的值为连续型随机变量。比如机器产能数量理论上是无限个(也就是X≥0),任何一个结果都有可能。
对随机变量来说也有统计量来表述其水平和离散程度。水平的统计量成为期望值,离散的统计量成为方差,都是随机变量的概括性度量。
X所有可能的xi(i=1,2…)取值与其相应的概率pi(i=1,2…)的乘积之和,记为μ或者E(X)。
(xi-μ)的平方与其相应的概率pi乘积之和,用σ^2(西格玛二次方)或者D(X)表示。他的标准差就是σ。
如果已知某厂家每100个产品中不合格率,并测试了4次,得到4个不合格概率p,如下表:
随机变量取哪些值,这些值的概率有多大,描述这个特征的就是概率分布。
常用的离散型概率分布有:二项分布、泊松分布、超几何分布;
常用的连续型概率分布有:正态分布、均匀愤怒、指数分布等
离散型概率分布的性质有两个:每个随机变量的概率≥0、随机变量概率相加后概率之和等于1.
二项分布有几种条件:
在n次试验中,成功的次数对应了一个离散随机变量X,所以出现称公司数的概率愤怒就是二项分布,记作X~B(n,p)。
当p=0.5时,概率分布对称,当p=0.1时,概率分布右偏,当p=0.9时,概率分布左偏
如果我们把实验做到极限大,几乎世间万物都服从正态分布。所以很多连续总体未知时,我们也可以假设该总体服从正态分布进行分析。从正态分布推到的其他常用的分布有:卡方分布、t分布、F分布等。
在正态分布下,不同的均值和方差对应了不同的正态分布。如果方差相同均值不同,分布图hi在X轴上以同等面积和离散程度进行水平移动;如果均值相同方差不同,则分布图会在同一个水平位置上,有不同面积的大小。
所以我们说:
再次说明一个需要熟记的数字:
n个独立标准正态随机变量平方和的分布,成为有n个自由度的卡方分布,卡方就是x的平方(x2)。设标准正态随机变量X=Z,则X服从自由度为1的卡方分布。
卡方分布的形状取决于自由度n的大小。通常情况卡方分布不对称的右偏分布,但是随着自由度变大,会逐渐趋于对称。
t表示样本均值经过标准化后成为新的随机变量,服从自由度为n的t分布。同样也是类似于正态分布的对称分布,通常形状会比正态分布更平坦和分散,自由度越大,t分布越趋近于正态分布。
F分布是两个卡方分布变量的比。比如两个随机变量U、V,平方后为卡方变量n1、n2,F=n1/n2。F分布与卡方分布类似,形状取决于两个自由度。通常用于比较不同总体的方差是否有显著差异,F分布的概率即曲线下的面积的计算,可以给定自由度df1、df2时计算累计概率,或者给定累计概率与自由度df1、df2时的F值。
生活中经常要做一些推断,比如北京市的平均男性身高是多少。你不可能把这个地区所有男性都普查一遍的。所以你需要从这个地区抽出一部分样本进行推断,用于做抽取数据推断的统计量我们常用的有:样本均值(x拔)、样本比例(p)、样本方差(s^2).
如上文所说,北京市的平均男性身高就是总体参数,他是对总体特征的概括性度量。不过参数一般都是不知道的,我们依然可以定义总体的统计量:总体均值(μ)、总体方差(σ^2)、总体比例(π)。
虽然总体参数未知,但是样本信息可以推断总体,我们从总体以抽取的数据量就是一个统计量,这个统计量就是样本的函数,可见,随着抽样取值的不同,统计量也会因此变化,换句话说统计量是一个随机变量,只要收取一个特定的样本后,统计量的值就会被计算出来。
样本统计量既然是随机变量,那么也会有概率分布,这里我们称为抽样分布,它由样本统计量的所有可能取值形成一个频数分布。但我们知道抽样是不可能把总体全部抽到的,所以,统计量的概率分布实际上是理论意义的分布。因为用它来推断总体会有不确定性,但我们依然可以度量这种不确定性的可靠程度,同时还能知道这些不确定的分布特征。
直接上结论。在有放回抽样中,样本均值=总体均值,样本均值的方差=总体方差的1/n。这就是很著名的中心极限定理。
样本均值的分布与抽样所依据的总体的分布和样本量n的大小有关系。如果总体是正态分布,无论样本量大和小,样本均值都近似服从正态分布。如果总体不是正态分布,随着样本量n的增大(通常n需要≥30),样本均值近似服从期望值为μ、方差为总体方差的1/n,这就是很著名的中心极限定理。
注意,如果总体不是正态分布,n为小样本(n小于30),样本均值则不服从正态分布。
总结:
指的总体或样本具有某种属性的个体与全部个体之和的比值。比如中国国籍的人中,男性占全部中国国际人数的比例。
从一个总体中重复选取样本量n的样本,有样本比例的所有可能取值形成的分布就是样本比例的概率分布。
样本方差的分布与卡方类似,随着样本量的增大,逐渐趋近于对称。
对两个总体的参数进行估计:
统计量的标准误指的是统计量的标准差,也叫做标准误差。用于衡量样本统计量的离散程度,在参数估计和假设检验中,它是用于衡量样本统计量与总体参数之间差距的重要尺度。样本均值的标准误差记作SE或者σ x拔,计算公式为SE=σ x拔=σ/开方n。
当总体标准差σ未知的时候,可以用样本标准差s代替计算,这时候计算的标准误也成为估计标准误。实际生活中,总体方差通常未知,所以计算的标准误基本上都是估计标准误,这么一来我们经常就把估计标准误简称为标准误。
注意:标准误和标准差是两个不同的概念。
世界万物的不确定性如何衡量和表示呢?在统计学里用概率表示。
比如有这么几句话:
对事件发生的可能性的度量就是概率。概率介于0-1之间,用百分比的方式度量可能性大小。在古典概率的定义中,因为一个事件发生的可能性事先无法知道,所以我们可以通过多次试验获得某个观测结果发生的频率p,p就是代表了发生的概率的大小。
比如我们想知道通过试验后A发生的概率,那么我们可以做n次试验,看n次实验中记录发生A事件的次数,于是会有下面的结论:
P(A)
=A发生的次数÷重复试验的总次数
=m÷n
=p
随着试验次数的增多,m、n会围绕一个稳定的频率上下波动
另一个例子,如何理解“硬币出现正面的概率P(A)=1/2”:
错误——抛掷多次硬币,其中有一半的硬币出现了正面结果
正确——在对硬币连续多次的抛掷中,硬币出现正面结果的概率接近或几乎稳定于一半儿(50%)
以上例子都是基于可以进行重复实验做的例子。但现实生活中很多例子没有办法进行多次重复,也正是因为这样,我们可以使用生活中已经发生的信息索求发生概率。所以概率其实是主观的,他是根据我们生活中的经验,掌握的信息进行统计意义上的求解,至于概率高低的好与坏,全凭分析者对源于生活中的判断。
实际生活中很多概率结果事先不知道,可以通过一种分布模型去确认这个时间发生的概率。
生活中要进行观测时,取值无法事先了解,比如出租房屋的价格,小学生的身高,这就是随机变量。换句话说,随机变量指的是实现不知道取值的那些变量,而性别变量事先知道取值有男、女,所以不是随机变量。随机变量表达了某特定实验可能出现的结果,由于结果未知,取值有随机性。比如抛掷硬币前,你知道你抛掷出来的结果是正面还是反面嘛?(通常意义是不会的)
取有限个值的变量为离散型随机变量。比如喜欢某个品牌的人数是一个有限固定的变量值。
可以取一个或多个区间中的值为连续型随机变量。比如机器产能数量理论上是无限个(也就是X≥0),任何一个结果都有可能。
对随机变量来说也有统计量来表述其水平和离散程度。水平的统计量成为期望值,离散的统计量成为方差,都是随机变量的概括性度量。
X所有可能的xi(i=1,2…)取值与其相应的概率pi(i=1,2…)的乘积之和,记为μ或者E(X)。
(xi-μ)的平方与其相应的概率pi乘积之和,用σ^2(西格玛二次方)或者D(X)表示。他的标准差就是σ。
如果已知某厂家每100个产品中不合格率,并测试了4次,得到4个不合格概率p,如下表:
随机变量取哪些值,这些值的概率有多大,描述这个特征的就是概率分布。
常用的离散型概率分布有:二项分布、泊松分布、超几何分布;
常用的连续型概率分布有:正态分布、均匀愤怒、指数分布等
离散型概率分布的性质有两个:每个随机变量的概率≥0、随机变量概率相加后概率之和等于1.
二项分布有几种条件:
在n次试验中,成功的次数对应了一个离散随机变量X,所以出现称公司数的概率愤怒就是二项分布,记作X~B(n,p)。
当p=0.5时,概率分布对称,当p=0.1时,概率分布右偏,当p=0.9时,概率分布左偏
如果我们把实验做到极限大,几乎世间万物都服从正态分布。所以很多连续总体未知时,我们也可以假设该总体服从正态分布进行分析。从正态分布推到的其他常用的分布有:卡方分布、t分布、F分布等。
在正态分布下,不同的均值和方差对应了不同的正态分布。如果方差相同均值不同,分布图hi在X轴上以同等面积和离散程度进行水平移动;如果均值相同方差不同,则分布图会在同一个水平位置上,有不同面积的大小。
所以我们说:
再次说明一个需要熟记的数字:
n个独立标准正态随机变量平方和的分布,成为有n个自由度的卡方分布,卡方就是x的平方(x2)。设标准正态随机变量X=Z,则X服从自由度为1的卡方分布。
卡方分布的形状取决于自由度n的大小。通常情况卡方分布不对称的右偏分布,但是随着自由度变大,会逐渐趋于对称。
t表示样本均值经过标准化后成为新的随机变量,服从自由度为n的t分布。同样也是类似于正态分布的对称分布,通常形状会比正态分布更平坦和分散,自由度越大,t分布越趋近于正态分布。
F分布是两个卡方分布变量的比。比如两个随机变量U、V,平方后为卡方变量n1、n2,F=n1/n2。F分布与卡方分布类似,形状取决于两个自由度。通常用于比较不同总体的方差是否有显著差异,F分布的概率即曲线下的面积的计算,可以给定自由度df1、df2时计算累计概率,或者给定累计概率与自由度df1、df2时的F值。
生活中经常要做一些推断,比如北京市的平均男性身高是多少。你不可能把这个地区所有男性都普查一遍的。所以你需要从这个地区抽出一部分样本进行推断,用于做抽取数据推断的统计量我们常用的有:样本均值(x拔)、样本比例(p)、样本方差(s^2).
如上文所说,北京市的平均男性身高就是总体参数,他是对总体特征的概括性度量。不过参数一般都是不知道的,我们依然可以定义总体的统计量:总体均值(μ)、总体方差(σ^2)、总体比例(π)。
虽然总体参数未知,但是样本信息可以推断总体,我们从总体以抽取的数据量就是一个统计量,这个统计量就是样本的函数,可见,随着抽样取值的不同,统计量也会因此变化,换句话说统计量是一个随机变量,只要收取一个特定的样本后,统计量的值就会被计算出来。
样本统计量既然是随机变量,那么也会有概率分布,这里我们称为抽样分布,它由样本统计量的所有可能取值形成一个频数分布。但我们知道抽样是不可能把总体全部抽到的,所以,统计量的概率分布实际上是理论意义的分布。因为用它来推断总体会有不确定性,但我们依然可以度量这种不确定性的可靠程度,同时还能知道这些不确定的分布特征。
直接上结论。在有放回抽样中,样本均值=总体均值,样本均值的方差=总体方差的1/n。这就是很著名的中心极限定理。
样本均值的分布与抽样所依据的总体的分布和样本量n的大小有关系。如果总体是正态分布,无论样本量大和小,样本均值都近似服从正态分布。如果总体不是正态分布,随着样本量n的增大(通常n需要≥30),样本均值近似服从期望值为μ、方差为总体方差的1/n,这就是很著名的中心极限定理。
注意,如果总体不是正态分布,n为小样本(n小于30),样本均值则不服从正态分布。
总结:
指的总体或样本具有某种属性的个体与全部个体之和的比值。比如中国国籍的人中,男性占全部中国国际人数的比例。
从一个总体中重复选取样本量n的样本,有样本比例的所有可能取值形成的分布就是样本比例的概率分布。
样本方差的分布与卡方类似,随着样本量的增大,逐渐趋近于对称。
对两个总体的参数进行估计:
统计量的标准误指的是统计量的标准差,也叫做标准误差。用于衡量样本统计量的离散程度,在参数估计和假设检验中,它是用于衡量样本统计量与总体参数之间差距的重要尺度。样本均值的标准误差记作SE或者σ x拔,计算公式为SE=σ x拔=σ/开方n。
当总体标准差σ未知的时候,可以用样本标准差s代替计算,这时候计算的标准误也成为估计标准误。实际生活中,总体方差通常未知,所以计算的标准误基本上都是估计标准误,这么一来我们经常就把估计标准误简称为标准误。
注意:标准误和标准差是两个不同的概念。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
光点科技
2023-08-15 广告
2023-08-15 广告
通常情况下,我们会按照结构模型把系统产生的数据分为三种类型:结构化数据、半结构化数据和非结构化数据。结构化数据,即行数据,是存储在数据库里,可以用二维表结构来逻辑表达实现的数据。最常见的就是数字数据和文本数据,它们可以某种标准格式存在于文件...
点击进入详情页
本回答由光点科技提供
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询