概率分布
概率 :用数值来描述事件发生的可能性,等于要测定的事件数目与全部可能发生的偶然事件总数之间的比率。
概率分布 用来描述这一系列数值的规律。
概率论中对实验的定义是:能够产生明确结果的过程,投硬币、抛骰子、明天下不下雨、公交车上有几个人,这些都是实验。而所谓随机变量,是对实验结果的数值性描述。例:
通常用大写英文字母表示随机变量,这是约定。
随机变量根据其取值特征,分为离散型和连续型。
实验结果是由可逐一列举的结果组成的,那这个结果就是离散型随机变量。满足
比如上面列举的投骰子事件,一个均匀的骰子,结果必然是在1,2,3,4,5,6之中的一个,而且每个的概率相等,投一次骰子必然出现上述结果中的一个。那么每个结果的概率就是1/6。
离散型随机变量的方差:
连续随机变量中有一种特殊事件,只会产生两种结果,并且重复这一实验每次的结果不会影响其他实验(独立实验),称为伯努利实验。
期望E(x) = p
方差D(x) = p(1-p)
进行一次伯努利实验叫做1重伯努利实验,进行两次伯努利实验叫做2重伯努利实验,以此类推。统计学中管N次伯努利实验的结果分布称为二项分布。
以投硬币来说,(投硬币是很标准的伯努利实验,结果只有正反两面,每次投硬币不影响其他次)重复10次,即10重伯努利实验,查看正面朝上的次数,把10重伯努利实验看做一个试验,随机变量X的取值是正面朝上的次数,则X=0,1,2,3,4,5,6,7,8,9,10 每种结果的概率不尽相等。
其分布服从:
二项概率的期望:
泊松分布的作用是描述一段时间内(或者一段空间中)某一事件发生的次数:比如医院每天接收到的病人数,呼叫台收到的求助电话,或者一段高速公路上道路的损坏量。
比如说,医院每天接诊的病人数量是不固定的,单是理论上讲,最少是0人,最多可以无限多,但是总有一个平均值,不妨设为100人。那么医院接诊人数的概率分布大概是这样的:
最左侧为零概率很小,最大可能100人在峰顶,随着人数增多,概率降低。其概率分布服从:
μ表示均值。
如果实验结果取值是无限的,比如明天降雨量可能是10~50mm之间任意小数,可以用离散随机变量来表示这一事件。
正态分布是一种特殊的分布类型,自然界中非常常见:同龄人中体重分布、商品价格、家电使用寿命等。
正态分布的图形和函数:
正态分布具有如下特性:
为了便于计算,统计学家又创造了一个特殊的工具——标准正态分布。
规定均值μ=0,标准差σ=1的正态分布为标准正态分布,因为在标准正态分布中,根据标准正态分布表可以方便查找某一数值内的概率值。将非标准正态分布转换为标准正态分布的公式是:
得到的Z其实就是,当前X距离均值μ有多少个标准差,然后在标准正态分布表中查找概率即可。
之前讲到的泊松分布,用于描述 单位时间内某一独立事件发生的次数 ,如果说1小时之内有10个人被送往医院,那么我们有没有理由得出一个结论:在进入医院的这些人中,平均每两个人间隔的时间是6分钟呢?
指数概率分布就是用来描述这样的现实情况的, 两个独立事件发生的间隔时间是遵循一定规律的。
下一个病人进入医院的时间遵循下图:
用公式表示:
那么指数概率函数的概率值怎么计算呢?
我们知道,对于连续型随机变量,函数曲线下方的面积表示某一范围内实验成功的概率。
如果医院平均每小时接诊10个病人,等价于平均每隔6分钟就有一个病人入院,如何计算接下来10分钟都没有病人来的概率?
对f(x)进行积分,得到指数概率函数的积分函数
R是为统计而生的语言,而概率又是统计的左右手,那么R中必然涵盖了最丰富最实用的概率函数。
生成一个取值为(1,2,3,4,5)的离散型随机变量
sample函数是取样函数,语句表示在总体S中取样本容量为1 的样本。
连续型随机变量:
生成一个连续随机变量的结果集,最大值为1,最小值为0,总共产生10个结果。
求总体的描述统计量:
在排列组合中有一计数法则,公式为
binom是R中的二项分布函数族,包含密度函数(dbinom),累积分布函数(pbinom),分为函数(qbinom),以及随机数函数(rbinom)
投10次硬币,结果为5次正面的概率
这跟手动计算的结果是一样的,可互相验证。
累计分布函数,正面大于5(包含6,7,8,9,10)的概率
这是正面数0~5的累计概率,大于5的概率为
手动验证:
正确!
rbinom可生成二项实验结果集
rbinom(100,10,.5)表示每轮进行10次实验,共进行100轮,每次实验的概率是1/2 ,返回结果成功次数的结果集。
这是进行100次每次10个实验的结果,如果数值设置大一点,结果就很接近正态分布了。