统计学第三课：随机变量的概率分布

 我来答

1个回答

#热议# 网上掀起『练心眼子』风潮，真的能提高情商吗？

科创17
2022-07-24 · TA获得超过5848个赞

知道小有建树答主

回答量：2846

采纳率：100%

帮助的人：167万

我也去答题访问个人页

关注

展开全部

！！！！！！！！！！概率论非常重要！！！！！！！！！！
世界万物的不确定性如何衡量和表示呢？在统计学里用概率表示。
比如有这么几句话：

对事件发生的可能性的度量就是概率。概率介于0-1之间，用百分比的方式度量可能性大小。在古典概率的定义中，因为一个事件发生的可能性事先无法知道，所以我们可以通过多次试验获得某个观测结果发生的频率p，p就是代表了发生的概率的大小。

比如我们想知道通过试验后A发生的概率，那么我们可以做n次试验，看n次实验中记录发生A事件的次数，于是会有下面的结论：
P(A)
=A发生的次数÷重复试验的总次数
=m÷n
=p
随着试验次数的增多，m、n会围绕一个稳定的频率上下波动

另一个例子，如何理解“硬币出现正面的概率P(A)=1/2”：
错误——抛掷多次硬币，其中有一半的硬币出现了正面结果
正确——在对硬币连续多次的抛掷中，硬币出现正面结果的概率接近或几乎稳定于一半儿（50%）

以上例子都是基于可以进行重复实验做的例子。但现实生活中很多例子没有办法进行多次重复，也正是因为这样，我们可以使用生活中已经发生的信息索求发生概率。所以概率其实是主观的，他是根据我们生活中的经验，掌握的信息进行统计意义上的求解，至于概率高低的好与坏，全凭分析者对源于生活中的判断。

实际生活中很多概率结果事先不知道，可以通过一种分布模型去确认这个时间发生的概率。

生活中要进行观测时，取值无法事先了解，比如出租房屋的价格，小学生的身高，这就是随机变量。换句话说，随机变量指的是实现不知道取值的那些变量，而性别变量事先知道取值有男、女，所以不是随机变量。随机变量表达了某特定实验可能出现的结果，由于结果未知，取值有随机性。比如抛掷硬币前，你知道你抛掷出来的结果是正面还是反面嘛？（通常意义是不会的）

取有限个值的变量为离散型随机变量。比如喜欢某个品牌的人数是一个有限固定的变量值。
可以取一个或多个区间中的值为连续型随机变量。比如机器产能数量理论上是无限个（也就是X≥0），任何一个结果都有可能。

对随机变量来说也有统计量来表述其水平和离散程度。水平的统计量成为期望值，离散的统计量成为方差，都是随机变量的概括性度量。

X所有可能的xi(i=1,2…)取值与其相应的概率pi(i=1,2…)的乘积之和，记为μ或者E(X)。

（xi-μ）的平方与其相应的概率pi乘积之和，用σ^2（西格玛二次方）或者D(X)表示。他的标准差就是σ。

如果已知某厂家每100个产品中不合格率，并测试了4次，得到4个不合格概率p，如下表：

随机变量取哪些值，这些值的概率有多大，描述这个特征的就是概率分布。
常用的离散型概率分布有：二项分布、泊松分布、超几何分布；
常用的连续型概率分布有：正态分布、均匀愤怒、指数分布等

离散型概率分布的性质有两个：每个随机变量的概率≥0、随机变量概率相加后概率之和等于1.
二项分布有几种条件：

在n次试验中，成功的次数对应了一个离散随机变量X，所以出现称公司数的概率愤怒就是二项分布，记作X~B(n,p)。
当p=0.5时，概率分布对称，当p=0.1时，概率分布右偏，当p=0.9时，概率分布左偏

如果我们把实验做到极限大，几乎世间万物都服从正态分布。所以很多连续总体未知时，我们也可以假设该总体服从正态分布进行分析。从正态分布推到的其他常用的分布有：卡方分布、t分布、F分布等。
在正态分布下，不同的均值和方差对应了不同的正态分布。如果方差相同均值不同，分布图hi在X轴上以同等面积和离散程度进行水平移动；如果均值相同方差不同，则分布图会在同一个水平位置上，有不同面积的大小。
所以我们说：

再次说明一个需要熟记的数字：

n个独立标准正态随机变量平方和的分布，成为有n个自由度的卡方分布，卡方就是x的平方（x2）。设标准正态随机变量X=Z,则X服从自由度为1的卡方分布。
卡方分布的形状取决于自由度n的大小。通常情况卡方分布不对称的右偏分布，但是随着自由度变大，会逐渐趋于对称。

t表示样本均值经过标准化后成为新的随机变量，服从自由度为n的t分布。同样也是类似于正态分布的对称分布，通常形状会比正态分布更平坦和分散，自由度越大，t分布越趋近于正态分布。

F分布是两个卡方分布变量的比。比如两个随机变量U、V，平方后为卡方变量n1、n2，F=n1/n2。F分布与卡方分布类似，形状取决于两个自由度。通常用于比较不同总体的方差是否有显著差异，F分布的概率即曲线下的面积的计算，可以给定自由度df1、df2时计算累计概率，或者给定累计概率与自由度df1、df2时的F值。

生活中经常要做一些推断，比如北京市的平均男性身高是多少。你不可能把这个地区所有男性都普查一遍的。所以你需要从这个地区抽出一部分样本进行推断，用于做抽取数据推断的统计量我们常用的有：样本均值（x拔）、样本比例（p）、样本方差（s^2）.

如上文所说，北京市的平均男性身高就是总体参数，他是对总体特征的概括性度量。不过参数一般都是不知道的，我们依然可以定义总体的统计量：总体均值（μ）、总体方差（σ^2）、总体比例（π）。

虽然总体参数未知，但是样本信息可以推断总体，我们从总体以抽取的数据量就是一个统计量，这个统计量就是样本的函数，可见，随着抽样取值的不同，统计量也会因此变化，换句话说统计量是一个随机变量，只要收取一个特定的样本后，统计量的值就会被计算出来。

样本统计量既然是随机变量，那么也会有概率分布，这里我们称为抽样分布，它由样本统计量的所有可能取值形成一个频数分布。但我们知道抽样是不可能把总体全部抽到的，所以，统计量的概率分布实际上是理论意义的分布。因为用它来推断总体会有不确定性，但我们依然可以度量这种不确定性的可靠程度，同时还能知道这些不确定的分布特征。

直接上结论。在有放回抽样中，样本均值=总体均值，样本均值的方差=总体方差的1/n。这就是很著名的中心极限定理。
样本均值的分布与抽样所依据的总体的分布和样本量n的大小有关系。如果总体是正态分布，无论样本量大和小，样本均值都近似服从正态分布。如果总体不是正态分布，随着样本量n的增大（通常n需要≥30），样本均值近似服从期望值为μ、方差为总体方差的1/n，这就是很著名的中心极限定理。
注意，如果总体不是正态分布，n为小样本（n小于30），样本均值则不服从正态分布。

总结：

指的总体或样本具有某种属性的个体与全部个体之和的比值。比如中国国籍的人中，男性占全部中国国际人数的比例。
从一个总体中重复选取样本量n的样本，有样本比例的所有可能取值形成的分布就是样本比例的概率分布。

样本方差的分布与卡方类似，随着样本量的增大，逐渐趋近于对称。

对两个总体的参数进行估计：

统计量的标准误指的是统计量的标准差，也叫做标准误差。用于衡量样本统计量的离散程度，在参数估计和假设检验中，它是用于衡量样本统计量与总体参数之间差距的重要尺度。样本均值的标准误差记作SE或者σ x拔，计算公式为SE=σ x拔=σ/开方n。

当总体标准差σ未知的时候，可以用样本标准差s代替计算，这时候计算的标准误也成为估计标准误。实际生活中，总体方差通常未知，所以计算的标准误基本上都是估计标准误，这么一来我们经常就把估计标准误简称为标准误。

注意：标准误和标准差是两个不同的概念。

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

统计学第三课：随机变量的概率分布

为你推荐：