统计推断常用的方法有
展开全部
(1)简单随机抽样:
简单随机抽样,是指抽样过程应独立进行并且总体中每个个体被抽到的机会均等。随机抽样不是随便抽取,随便抽取容易受到个人好恶的影响。为实现随机化,可采取抽签、掷随机数骰子或查随机数值表等办法。如从100件产品中随机抽取l0件组成样本,可以把这100件产品从l开始编号直到100号,然后用抓阄的办法任意抽出l0个编号,由这l0个编号代表的产品组成样本。此种抽样方法的优点是抽样误差小,缺点是手续繁杂。在实践中真正做到每个个体被抽到的机会相等是不容易的。
(2)周期系统抽样亮悉:
周期系统抽样,又叫等距抽样或机械抽样,即将总体按顺序编号,用抽签或查随机数值表的方法确定首件,进而按敬袜乎等距原则依次抽取样本。如从120个零件中取五个做样本,先按生产顺序给产品编号,用简单随机抽样法确定首件,然后按每隔24(由120÷5=24得)个号码抽取一个,共抽取五个组成样本。这种方法特别适用于流水线上取样,操作简便,实施起来不易出现差错。但抽样起点一经确定,整个样本就完全固定。对总体质量特性含有某种周期性变化,而当抽样间隔恰好与质量特性变化周期吻合时,就可能得到一个偏差很大的样本。
(3)分层抽样法:
分层抽样法,即从一个可以分成不同子总体的总体中,按规定比例从不同层中随机抽取个体的方法。当不同设备、不同环境生产同一种产品时,由于条件差别产品质量可能有较大差异,为了使所抽取的样本具有代表性,可以将不同条好斗件下生产的产品组成组,使同一组内产品质量均匀,然后在各组内按比例随机抽取样品合成一个样本。这种抽样方法得到的样本代表性比较好,抽样误差较小,缺点是抽样手续较繁,常用于产品质量检验。
(4)整群抽样法:
这种方法是先将总体按一定方式分成多个群,然后随机地抽取若干群并由这些群中的所有个体组成样本。如按照生产过程将1000个零件分别装入20个箱中,每箱50个,然后随机抽取一箱,此箱中50个零件组成样本。这种抽样方法实施方便,但样本来自个别群体而不能均匀分布在总体中,因而代表性差,抽样误差较大。
简单随机抽样,是指抽样过程应独立进行并且总体中每个个体被抽到的机会均等。随机抽样不是随便抽取,随便抽取容易受到个人好恶的影响。为实现随机化,可采取抽签、掷随机数骰子或查随机数值表等办法。如从100件产品中随机抽取l0件组成样本,可以把这100件产品从l开始编号直到100号,然后用抓阄的办法任意抽出l0个编号,由这l0个编号代表的产品组成样本。此种抽样方法的优点是抽样误差小,缺点是手续繁杂。在实践中真正做到每个个体被抽到的机会相等是不容易的。
(2)周期系统抽样亮悉:
周期系统抽样,又叫等距抽样或机械抽样,即将总体按顺序编号,用抽签或查随机数值表的方法确定首件,进而按敬袜乎等距原则依次抽取样本。如从120个零件中取五个做样本,先按生产顺序给产品编号,用简单随机抽样法确定首件,然后按每隔24(由120÷5=24得)个号码抽取一个,共抽取五个组成样本。这种方法特别适用于流水线上取样,操作简便,实施起来不易出现差错。但抽样起点一经确定,整个样本就完全固定。对总体质量特性含有某种周期性变化,而当抽样间隔恰好与质量特性变化周期吻合时,就可能得到一个偏差很大的样本。
(3)分层抽样法:
分层抽样法,即从一个可以分成不同子总体的总体中,按规定比例从不同层中随机抽取个体的方法。当不同设备、不同环境生产同一种产品时,由于条件差别产品质量可能有较大差异,为了使所抽取的样本具有代表性,可以将不同条好斗件下生产的产品组成组,使同一组内产品质量均匀,然后在各组内按比例随机抽取样品合成一个样本。这种抽样方法得到的样本代表性比较好,抽样误差较小,缺点是抽样手续较繁,常用于产品质量检验。
(4)整群抽样法:
这种方法是先将总体按一定方式分成多个群,然后随机地抽取若干群并由这些群中的所有个体组成样本。如按照生产过程将1000个零件分别装入20个箱中,每箱50个,然后随机抽取一箱,此箱中50个零件组成样本。这种抽样方法实施方便,但样本来自个别群体而不能均匀分布在总体中,因而代表性差,抽样误差较大。
展开全部
一文读懂统计学中的“假设检验”到底是什么?
数据科学与商业实践
前天 12:02 · 电商企业数据分析经理
今天给大家讲一篇关于统计学的知识,虽然当前机器学习,深度学习等大数据技术火得一塌糊涂,但归根结底,离不开统计学的基础,而谈到统计学,假设检验几乎是提到的最多的词语,到底什么是假设检验, 什么是P值,什么时候用t检验,什么时候用F检验,非统计学背景的同学可能一脸懵逼,接下来我就讲下什么是假设检验
什么是假设检验?
首先明确下假设检验在统计学里的地位:统计推断是统计学的重要分支,做统计推断有两个重要方法,即参数估计与假设检验。参数估计是用样本统旁尺计量估计总体参数,简单来说就是样本表现啥样,我就推断总体是啥样。而假设检验,则顾名思义,先提出一个假设,然后检验假设是否靠得住,例如假设均值为μ,然后根据样本信息检验均值是不是μ,通常我们是要去证明均值不是μ,也就是去推翻原假设。逻辑上采用的是反证法,根据统计上的小概率原理,即假设是这样,但样本表现却不是这样,从而否定原假设。
举例来说,某官方数据说居民人均收入10000,但我觉得这个不对,于是就局部范围内做了个统计(假如样本有代表性),统计出来平均值为7000, 那我这个结果有没有信服力,那我们可以检验一下,计算出P值为0.0002,那我可以很自信地说官方数据不对,不值得信。因为P值为0.0002意味着,如果居民人均工资为1w, 那么我统计出均值为7k的概率为0.0002,这么小的概率竟然这么容易就让我选的这个局部统计碰上了,显然真实的人均工资不可能为1w啊, 这就是根据小概率原理来推翻原假设。
假设检验的基本步骤
接下来我们讲一下假设检验的步骤,讲述过程中你也许会有疑问,为什么这样,不要担心,先往下看,我会陆续对假设检验的细节作出补充,脊缓如果未涉及到可以在评论中提出,我会补充上):
步骤1,提出假设,也就是我猜结果会是什么。猜完之后进入步骤2,即我要拿什么去验证假设,这里我们叫做检验统计量。检验没有绝对的对错樱启模,所以我们要设定一个显著性水平,就是步骤3,相当于设定一个门槛,在门外面就拒绝进门,统计学上叫拒绝域,拒绝的是原假设。套路第四步就是将门在哪儿计算出来,依据的是前两步确定的检验统计量以及显著性水平。最后就可以做出决策啦,看一下到底在门里面还是门外面。
接下来将提到的步骤跟大家详细说一下:
假设的提出包括原假设与备择假设。原假设(H0)则是我们收集证据想要推翻的假设, 而备择假设(H1)则是要去支持的,所以大家可以根据实际情况来设定原假设与备择假设。原假设与备择假设互斥。假设检验是围绕着对原假设是否成立展开的。假设检验还会涉及到两类错误的问题,这个内容较多,会单独讲解。
检验统计量是用于假设检验决策的统计量。如何去选择统计量呢?这与参数估计相同,需要考虑样本总体个数,样本大小,通常大于30个样品我们认为是大样本,以及总体方差是否已知,如果未知,可以用样品方差近似计算。是不是感觉有些头晕,撑住,这是做假设检验的关键,告诉你什么情况下采用什么样的检验方法,记住这儿,以后就不会没心没肺的只会t检验啦。贴心的我给大家整理了检验统计量的选择图谱,对家直接对号入座就可以啦,记住这些,再遇到假设检验的问题,你会感觉厉(niu)害(bi)的不要不要的。
配对样本的检验:两个总体参数的假设检验过程中,我们假定样本是独立的,但有种情况下样本间可能存在相依的关系,这种情况下两个正态总体的问题可以按照一个样品总体进行分析。举个例子:我想测试某个洗涤产品的洗涤效果,我可以测一下衣服洗之前的洁净程度,用产品洗之后的洁净程度,这样就得到了两个总体,可以按照方差未知的小样本t检验进行分析。但是,同是一件衣服,洗之前和洗之后数据之间是有对应关系的,我可以将洗前洗后的洁净程度做差值,检验差值是否为0,这样就转化为一个总体样本的t检验。
具体的统计量的计算公式此处未给出,主要考虑到现在都用统计软件进行计算,关键要明确自己的统计问题,选择恰当的检验统计量,然后在统计软件上就可以开挂了!
显著性α:这是犯一类错误的概率,即原假设为真时,拒绝原假设的概率。比如警察抓小偷时,明明是小偷,却判断失误当好人给放了的概率。也被称为抽样分布的拒绝域,这个可以由研究者事先确定。
计算检验统计量的值。当确定了检验统计量以及显著性α的值,通常为0.01, 0.05,0.001,就可以通过统计软件或查表得到统计量的临界值za或za/2, ta或ta/2
作出统计决策。统计决策的确定有两种方式,一种是将检验统计量的绝对值与α水平的临界值进行比较,高于临界值则拒绝原假设,低于临界值则不能拒绝。另外一种方式是采用P值进行决策。个人比较倾向第二种,当然现在的统计学软件会将这些值一并给出。我们通常将P值称为观测到的显著性水平,即当原假设为真时得到样本观察结果或者更极端结果的概率,如果P值很小,说明得到观测结果的概率很小,如果出现了,根据小概率原理,我就有理由拒绝原假设了。如果事先确定了显著性水平,比如α= 0.05,在双侧检验中可以比较P值与0.025的大小决定是否拒绝原假设,单侧检验中可以比较P值与0.05的大小进行决策。当然也可以直接使用P值,按照我们所需要的显著性水平进行决策。
双侧检验
单侧检验
以上就是假设检验的基本原理及流程。懂了这些就几乎可以秒杀一切你所遇到的假设检验问题。还有同学经常问为何把小概率标准定为0.05, 哈哈,不要问我,因为我不知道。著名英国统计学家Fisher就这样用的,无解。
举例说明:
“多吃谷物,将有助于减肥。”为了验证这个假设,随机抽取了35人,询问他们早餐和午餐的通常食谱,根据他们的食谱,将其分为二类,一类为经常的谷类食用者(总体1),一类为非经常谷类食用者(总体2)。然后测度每人午餐的大卡摄取量。经过一段时间的实验,得到如下结果:检验该假设(a = 0.05)
1. 原假设:u1-u2>=0
备择假设:u1-u2<0
2. 该情况为两个总体的t检验, 计算得t=2.4869。注意此处为单侧检验。
3. 在0.05显著性水平上拒绝原假设。
4. 结论,没有证据证明多次谷物有助于减肥。
以上便是典型的假设检验讲解及过程。对于数据科学方向感兴趣的同学欢迎关注和留言,一起沟通学习。
数据科学与商业实践
前天 12:02 · 电商企业数据分析经理
今天给大家讲一篇关于统计学的知识,虽然当前机器学习,深度学习等大数据技术火得一塌糊涂,但归根结底,离不开统计学的基础,而谈到统计学,假设检验几乎是提到的最多的词语,到底什么是假设检验, 什么是P值,什么时候用t检验,什么时候用F检验,非统计学背景的同学可能一脸懵逼,接下来我就讲下什么是假设检验
什么是假设检验?
首先明确下假设检验在统计学里的地位:统计推断是统计学的重要分支,做统计推断有两个重要方法,即参数估计与假设检验。参数估计是用样本统旁尺计量估计总体参数,简单来说就是样本表现啥样,我就推断总体是啥样。而假设检验,则顾名思义,先提出一个假设,然后检验假设是否靠得住,例如假设均值为μ,然后根据样本信息检验均值是不是μ,通常我们是要去证明均值不是μ,也就是去推翻原假设。逻辑上采用的是反证法,根据统计上的小概率原理,即假设是这样,但样本表现却不是这样,从而否定原假设。
举例来说,某官方数据说居民人均收入10000,但我觉得这个不对,于是就局部范围内做了个统计(假如样本有代表性),统计出来平均值为7000, 那我这个结果有没有信服力,那我们可以检验一下,计算出P值为0.0002,那我可以很自信地说官方数据不对,不值得信。因为P值为0.0002意味着,如果居民人均工资为1w, 那么我统计出均值为7k的概率为0.0002,这么小的概率竟然这么容易就让我选的这个局部统计碰上了,显然真实的人均工资不可能为1w啊, 这就是根据小概率原理来推翻原假设。
假设检验的基本步骤
接下来我们讲一下假设检验的步骤,讲述过程中你也许会有疑问,为什么这样,不要担心,先往下看,我会陆续对假设检验的细节作出补充,脊缓如果未涉及到可以在评论中提出,我会补充上):
步骤1,提出假设,也就是我猜结果会是什么。猜完之后进入步骤2,即我要拿什么去验证假设,这里我们叫做检验统计量。检验没有绝对的对错樱启模,所以我们要设定一个显著性水平,就是步骤3,相当于设定一个门槛,在门外面就拒绝进门,统计学上叫拒绝域,拒绝的是原假设。套路第四步就是将门在哪儿计算出来,依据的是前两步确定的检验统计量以及显著性水平。最后就可以做出决策啦,看一下到底在门里面还是门外面。
接下来将提到的步骤跟大家详细说一下:
假设的提出包括原假设与备择假设。原假设(H0)则是我们收集证据想要推翻的假设, 而备择假设(H1)则是要去支持的,所以大家可以根据实际情况来设定原假设与备择假设。原假设与备择假设互斥。假设检验是围绕着对原假设是否成立展开的。假设检验还会涉及到两类错误的问题,这个内容较多,会单独讲解。
检验统计量是用于假设检验决策的统计量。如何去选择统计量呢?这与参数估计相同,需要考虑样本总体个数,样本大小,通常大于30个样品我们认为是大样本,以及总体方差是否已知,如果未知,可以用样品方差近似计算。是不是感觉有些头晕,撑住,这是做假设检验的关键,告诉你什么情况下采用什么样的检验方法,记住这儿,以后就不会没心没肺的只会t检验啦。贴心的我给大家整理了检验统计量的选择图谱,对家直接对号入座就可以啦,记住这些,再遇到假设检验的问题,你会感觉厉(niu)害(bi)的不要不要的。
配对样本的检验:两个总体参数的假设检验过程中,我们假定样本是独立的,但有种情况下样本间可能存在相依的关系,这种情况下两个正态总体的问题可以按照一个样品总体进行分析。举个例子:我想测试某个洗涤产品的洗涤效果,我可以测一下衣服洗之前的洁净程度,用产品洗之后的洁净程度,这样就得到了两个总体,可以按照方差未知的小样本t检验进行分析。但是,同是一件衣服,洗之前和洗之后数据之间是有对应关系的,我可以将洗前洗后的洁净程度做差值,检验差值是否为0,这样就转化为一个总体样本的t检验。
具体的统计量的计算公式此处未给出,主要考虑到现在都用统计软件进行计算,关键要明确自己的统计问题,选择恰当的检验统计量,然后在统计软件上就可以开挂了!
显著性α:这是犯一类错误的概率,即原假设为真时,拒绝原假设的概率。比如警察抓小偷时,明明是小偷,却判断失误当好人给放了的概率。也被称为抽样分布的拒绝域,这个可以由研究者事先确定。
计算检验统计量的值。当确定了检验统计量以及显著性α的值,通常为0.01, 0.05,0.001,就可以通过统计软件或查表得到统计量的临界值za或za/2, ta或ta/2
作出统计决策。统计决策的确定有两种方式,一种是将检验统计量的绝对值与α水平的临界值进行比较,高于临界值则拒绝原假设,低于临界值则不能拒绝。另外一种方式是采用P值进行决策。个人比较倾向第二种,当然现在的统计学软件会将这些值一并给出。我们通常将P值称为观测到的显著性水平,即当原假设为真时得到样本观察结果或者更极端结果的概率,如果P值很小,说明得到观测结果的概率很小,如果出现了,根据小概率原理,我就有理由拒绝原假设了。如果事先确定了显著性水平,比如α= 0.05,在双侧检验中可以比较P值与0.025的大小决定是否拒绝原假设,单侧检验中可以比较P值与0.05的大小进行决策。当然也可以直接使用P值,按照我们所需要的显著性水平进行决策。
双侧检验
单侧检验
以上就是假设检验的基本原理及流程。懂了这些就几乎可以秒杀一切你所遇到的假设检验问题。还有同学经常问为何把小概率标准定为0.05, 哈哈,不要问我,因为我不知道。著名英国统计学家Fisher就这样用的,无解。
举例说明:
“多吃谷物,将有助于减肥。”为了验证这个假设,随机抽取了35人,询问他们早餐和午餐的通常食谱,根据他们的食谱,将其分为二类,一类为经常的谷类食用者(总体1),一类为非经常谷类食用者(总体2)。然后测度每人午餐的大卡摄取量。经过一段时间的实验,得到如下结果:检验该假设(a = 0.05)
1. 原假设:u1-u2>=0
备择假设:u1-u2<0
2. 该情况为两个总体的t检验, 计算得t=2.4869。注意此处为单侧检验。
3. 在0.05显著性水平上拒绝原假设。
4. 结论,没有证据证明多次谷物有助于减肥。
以上便是典型的假设检验讲解及过程。对于数据科学方向感兴趣的同学欢迎关注和留言,一起沟通学习。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
抽样调查,应用统计,满意度测评,市场调查
应用数理统计、尘扮风险管理、精算学与保险学
应用数理统计,多元统计分析,六西格玛管理
生存分析、保险与精算
统计推断旅毁[statistical inference] 根据带随机性的观测数据(样本)以及问题的条件和假定(模型),而对未知事物作出的,以概率形式表述的推断。它是数理统计学的拆兄备主要任务,其理论和方法构成数理统计学的主要内容。统计推断的一个基本特点是:其所依据的条件中包含有带随机性的观测数据。以随机现象为研究对象的概率论,是统计推断的理论基础。
应用数理统计、尘扮风险管理、精算学与保险学
应用数理统计,多元统计分析,六西格玛管理
生存分析、保险与精算
统计推断旅毁[statistical inference] 根据带随机性的观测数据(样本)以及问题的条件和假定(模型),而对未知事物作出的,以概率形式表述的推断。它是数理统计学的拆兄备主要任务,其理论和方法构成数理统计学的主要内容。统计推断的一个基本特点是:其所依据的条件中包含有带随机性的观测数据。以随机现象为研究对象的概率论,是统计推断的理论基础。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
计数资料,又称为定性资料或无序分类变量资料,也称名亮冲义变量资料,是将观察单位按某种属性或类别分组计数,分别汇总各组观察单位数后而得到的资料,其变量值是定性的,表现为互不相销山容的属性或类别。计量资料,又称定量资料或数值变量资料,为观测每个观察单位某项指标的大小敬斗歼而获得的资料。其变量值是定量的,表现为数值大小,一般有度量衡单位。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询
广告 您可能关注的内容 |