卡方检验的应用条件
一、适用于四格表应用条件:
1、随机样本数据。两个独立样本比较可以分以下3种情况:
(1)所有的理论数T≥5并且总样本量n≥40,用Pearson卡方进行检验。
(2)如果理论数T<5但T≥1,并且1≥40,用连续性校正的卡方进行检验。
(3)如果有理论数T<1或n<40,则用Fisher’s检验。
2、卡方检验的理论频数不能太小。
二、R×C表卡方检验应用条件:
1、R×C表中理论数小于5的格子不能超过1/5;
2、不能有小于1的理论数。如果实验中有不符合R×C表的卡方检验,可以通过增加样本数、列合并来实现。
卡方检验的基本原理
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。
注意:卡方检验针对分类变量。
2023-08-07 · 百度认证:SPSSAU官方账号,优质教育领域创作者
有时,在研究中某个随机变量是否服从某种特定的分布是需要进行检验的。可以根据以往的经验或者实际的观测数据分布情况,推测总体可能服从某种分布函数F(x)。卡方检验就是这样一种用来检验给定的概率值下数据来自同一总体的无效假设方法。通常的卡方检验可以用来研究分析定类数据与定类数据之间的关系情况。统计量计算如下:
其中A代表某个类别的观察频数,E代表基于H0计算出的期望频数,Ai为i水平的观察频数,Ei为i水平的期望频数,n为总频数,pi为i水平的期望频率。当n比较大时,χ2统计量近似服从k-1个自由度的卡方分布。从公式来讲一般卡方值相对越大越好。卡方检验一般是研究定类数据和定类数据之间的差异关系,卡方拟合优度检验一般是进行某个定类的数据,分布的差异性。配对卡方配对定类数据使用,分层卡方,卡方检验是考虑分层项。
卡方检验SPSSAU可以通过【通用方法】交叉(卡方)进行,也可以通过【医学实验研究】卡方检验进行。二者的区别是【医学实验研究】卡方检验输出更多指标。【通用方法】交叉(卡方)相对使用更多。
如果是配对数据,并且对比的数据为定类数据,因而需要使用配对卡方检验,从数学角度也能将称呼分为 McNemar检验或者Bowker检验。
在实际研究中,只研究两个分类变量往往具有局限性,因为混杂因素总是存在,如果不研究混杂因素,结论可能存在偏差。为了解决此问题我们引出了分层卡方检验也称CMH检验。比如是否吸烟(X)与是否生病(Y)的关系时,将性别纳入考虑范畴(即混杂因素,分层项Factor)。
由于卡方检验类别过多,所以这里针对常用的卡方检验进行说明。案例简单背景:研究不同学历对是否购买某品牌笔记本电脑是否存在差异。
在做数据分析前,首先要将数据整理成正确的数据格式,满足SPSSAU卡方检验的数据格式一共有两种,一种是常规格式,另一种是加权格式。
常规格式:
卡方检验,x、y都为定类数据,上图为常规格式,一行代表一个样本,一列代表一个属性,将全部的原始数据信息列出即可。
加权格式:
加权数据格式基本只针对全部是定类数据的研究时使用,SPSSAU支持常规格式和加权格式两种数据。常规格式提供所有的原始数据信息,而加权格式只提供汇总数据信息。
从上表分析可知,p值约为0.029小于0.05,所以研究学历对于是否购买笔记本电脑有显著性差异,其中调查者中共有32个人,本科以下的人最多共有12个,本科以上的人最少共有9个,但是总体差异不大,对于本科以下的人其中有10个人,不买该品牌笔记本电脑占比为83.33%,有2个人购买该品牌笔记本电脑占比为16.67%,差异比较明显,不买该品牌笔记本的人较多,对于本科和本科以上学历的人购买该笔记本的人比不买该笔记本人的占比大,由此可见,学历对于是否购买该品牌笔记本有差异性。
一、适用于四格表应用条件:
1、随机样本数据。两个独立样本比较可以分以下3种情况:
(1)所有的理论数T≥5并且总样本量n≥40,用Pearson卡方进行检验。
(2)如果理论数T<5但T≥1,并且1≥40,用连续性校正的卡方进行检验。
(3)如果有理论数T<1或n<40,则用Fisher’s检验。
2、卡方检验的理论频数不能太小。
二、R×C表卡方检验应用条件:
1、R×C表中理论数小于5的格子不能超过1/5;
2、不能有小于1的理论数。如果实验中有不符合R×C表的卡方检验,可以通过增加样本数、列合并来实现。
卡方检验的基本原理
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。
注意:卡方检验针对分类变量。