概率统计(共4篇)——3 常见分布与假设检验
Scipy库提供了一组用于计算离散型随机变量PMF和连续型随机变量PDF的方法。
简记为:多次进行的抛硬币实验。
特点:只有两种结果,每次试验独立,每次成功的概率相同。
成功次数为x的概率 :
可视化:
简记为:你搞了个抽奖活动,想知道一天内多少人中奖
特点:①事件在任意两个长度相等的区间内,发生一次的机会均相等。②事件在一个区间内发生与否与另一个区间没有关系,即相互独立。
在一段固定时间内,事件发生i次的概率 :
比较泊松分布不同参数λ对应的概率质量函数,可以验证随着参数增大,泊松分布开始逐渐变得对称,分布也越来越均匀,趋近于正态分布
几何分布:0-1分布首次成功
负二项分布:0-1分布第k次成功
超几何分布:从n种里抽指定种类的k个(不放回)
简记为:天女散花,每个面积上落下花的概率相等
记为:X~U(a,b)x在[a,b]区间内概率密度函数相等,等于1/(b-a)。
正态分布X~N(u,d) u:均值,d:标准差,通过下式进行标准化,转化为均值为0,标准差为1 的标准正态分布X~Z(0,1)。
不同均值和标准差下的正态分布对比:
一个特定事件发生所需要的时间,例如:快递点服务的时间间隔。
理解:(1)泊松分布表示的是事件发生的次数,“次数”这个是离散变量,所以泊松分布是离散随机变量的分布。(2)指数分布是两件事情发生的平均间隔时间,“时间”是连续变量,所以指数分布是一种连续随机变量的分布 关系推导如下
不同参数下,指数分布的对比:
Gamma分布:常用来描述某个事件总共要发生n次的等待时间的分布。
在Numpy库中,提供了一组random类可以生成特定分布的随机数
除了Numpy,Scipy也提供了一组生成特定分布随机数的方法
对于未知的总体分布,首先,提出假设,其次,根据统计量的显著性判定假设是否正确,最后得到答案。一般来说:原假设都为不存在差异,不存在关联。备择假设一般是存在差异,存在关联。
简单来说就是:显著接受备择假设,不显著接受原假设。
常用的统计检验包括:回归检验、比较检验、关联检验
简单先行回归、多重线性回归、Logistic回归
均值对比的假设检验方法主要有Z检验和T检验,它们的区别在于Z检验面向总体数据和大样本数据,而T检验适用于小规模抽样样本。
1.T-test
T检验的三种形式:
单样本:一般来说将变量与均值相比较,看有没有差异。
配对样本:实验前与实验后变量有没有差异
独立样本:一个变量的两组类别有没有差异
判断age 的均值是否为30
(3)独立样本t检验
判断来自两个不同抽样组的age 的均值是否相等
2.方差分析(ANOVA)
用于一个变量>=2组的分类情况下均值是否相等。
常用的是卡方检验,判断两组类别变量是相关还是独立
1.一类错误:拒真(通过alpha设置,显著性水平95%时,alpha=0.05,说明有0.05的概率拒真)
2.二类错位:信伪(无法通过错误率直接控制,一般有小样本和高样本方差导致)
3.两者你大我小不可调和。