如何衡量多元线性回归模型优劣
2个回答
展开全部
多元线性回归模型是一种简单而且有效的数学模型,一直在各领域广泛使用。一个多元回归模型建好后,如何评价模型的优劣呢?
1. F值检验
因变量的总变异(数据与均值之差的平方和,记为SStotal)由回归平方和(因变量的变异中可以由自变量解释的部分,记为SSR)与误差平方和(记为SSE)构成,如果自变量引起的变异大于随机误差引起的变异,则说明因变量与至少一个自变量存在线性关系。回归平方和与误差平方和的比值记为F,F值服从F分布,通过查F分布概率表可得F值对应的概率,从而判断是否存在统计学意义。F值越大越好。
2. 偏回归系数检验
通过了F检验只说明因变量至少和一个自变量存在线性关系,但不是所有x都跟y存在线性关系。对每个变量的回归系数分别作t检验,假设回归系数为0,得到的概率值越小越好,一般取0.05作为临界值。
3. 标准化偏回归系数
y和x均经过标准化,均值为0,标准差为1,此时的回归结果常数项为0.消除了量纲的影响,更能直观表示自变量对因变量的影响。如果某项回归系数接近0,则说明该自变量与因变量的不具有线性关系,应当剔除。
4. 复相关系数R
指的是因变量与因变量的估计值(回归后得出的值)之间的简单线性相关系数,范围在0-1之间,一般来说,R值应大于0.9,但在某些社会科学研究中只要求R大于0.4,这是因为在社会科学研究中存在大量对因变量有影响却无法进行量化的因数,无法纳入模型研究。值得注意的是,即使向模型增加的变量没有统计学意义,R值也会增加,所以R值只作为参考。
5. 决定系数R2
因变量总变异中由模型中自变量解释部分的比例。也是越大越好,但是存在与R同样的问题。
R2=SSR/SStotal=1-SSE/SStotal
6.校正的决定系数R2adj
将自变量的个数纳入了考量范围,解决了R2 的局限性,不会随着自变量的增加而增加。当模型中增加的自变量缺乏统计学意义时,校正的决定系数会减小。该项系数越大越好。
R2adj=1-(n-1)(1- R2)/(n-p-1) n表示样本量,p表示模型中自变量个数
7.剩余标准差
误差均方的算术平方根,该值应明显小于因变量的标准差,越小越好。说明在引入模型自变量后,因变量的变异明显减小。
8. 赤池信息准则AIC
包含两部分,一部分反映拟合精度,一部分反映模型繁简程度(自变量个数越少模型越简洁),该值越小越好。值得注意的是,用最小二乘法拟合模型与用最大似然估计拟合的模型,其AIC计算方法是不一样的,所以用AIC进行模型比较时应注意拟合的方法是相同的才行。
最小二乘法拟合时:AIC=nln(SSE/n)+2p
最大似然估计拟合时:AIC=-2ln(L)+2p L为模型的最大似然函数
以上8种数据很多统计软件都能方便地输出。
9.预测效果
在数据量较大时,可留一部分数据用作预测,根据预测结果判断模型优劣。
1. F值检验
因变量的总变异(数据与均值之差的平方和,记为SStotal)由回归平方和(因变量的变异中可以由自变量解释的部分,记为SSR)与误差平方和(记为SSE)构成,如果自变量引起的变异大于随机误差引起的变异,则说明因变量与至少一个自变量存在线性关系。回归平方和与误差平方和的比值记为F,F值服从F分布,通过查F分布概率表可得F值对应的概率,从而判断是否存在统计学意义。F值越大越好。
2. 偏回归系数检验
通过了F检验只说明因变量至少和一个自变量存在线性关系,但不是所有x都跟y存在线性关系。对每个变量的回归系数分别作t检验,假设回归系数为0,得到的概率值越小越好,一般取0.05作为临界值。
3. 标准化偏回归系数
y和x均经过标准化,均值为0,标准差为1,此时的回归结果常数项为0.消除了量纲的影响,更能直观表示自变量对因变量的影响。如果某项回归系数接近0,则说明该自变量与因变量的不具有线性关系,应当剔除。
4. 复相关系数R
指的是因变量与因变量的估计值(回归后得出的值)之间的简单线性相关系数,范围在0-1之间,一般来说,R值应大于0.9,但在某些社会科学研究中只要求R大于0.4,这是因为在社会科学研究中存在大量对因变量有影响却无法进行量化的因数,无法纳入模型研究。值得注意的是,即使向模型增加的变量没有统计学意义,R值也会增加,所以R值只作为参考。
5. 决定系数R2
因变量总变异中由模型中自变量解释部分的比例。也是越大越好,但是存在与R同样的问题。
R2=SSR/SStotal=1-SSE/SStotal
6.校正的决定系数R2adj
将自变量的个数纳入了考量范围,解决了R2 的局限性,不会随着自变量的增加而增加。当模型中增加的自变量缺乏统计学意义时,校正的决定系数会减小。该项系数越大越好。
R2adj=1-(n-1)(1- R2)/(n-p-1) n表示样本量,p表示模型中自变量个数
7.剩余标准差
误差均方的算术平方根,该值应明显小于因变量的标准差,越小越好。说明在引入模型自变量后,因变量的变异明显减小。
8. 赤池信息准则AIC
包含两部分,一部分反映拟合精度,一部分反映模型繁简程度(自变量个数越少模型越简洁),该值越小越好。值得注意的是,用最小二乘法拟合模型与用最大似然估计拟合的模型,其AIC计算方法是不一样的,所以用AIC进行模型比较时应注意拟合的方法是相同的才行。
最小二乘法拟合时:AIC=nln(SSE/n)+2p
最大似然估计拟合时:AIC=-2ln(L)+2p L为模型的最大似然函数
以上8种数据很多统计软件都能方便地输出。
9.预测效果
在数据量较大时,可留一部分数据用作预测,根据预测结果判断模型优劣。
光点科技
2023-08-15 广告
2023-08-15 广告
通常情况下,我们会按照结构模型把系统产生的数据分为三种类型:结构化数据、半结构化数据和非结构化数据。结构化数据,即行数据,是存储在数据库里,可以用二维表结构来逻辑表达实现的数据。最常见的就是数字数据和文本数据,它们可以某种标准格式存在于文件...
点击进入详情页
本回答由光点科技提供
展开全部
1.
复相关系数R:指的是多元回归系数,表示模型中y值与估计y值之间的相关系数,实际上是皮尔逊相关。取值范围是(0,1),没有负值。R越大表明模型越好。但是R值多大算是最好,并没有定论,通常在社会学科中,R>0.4就算是足够好了;但是在科学领域,R>0.8才算可以。
2.
决定系数R方:他就是复相关系数的平方,他指的是自变量能够解释因变量的百分比,他可以鉴定模型的好坏。但是使用决定系数有缺点,那就是在向模型中增加变量时,不管他有没有统计学意义,决定系数的值都是变大的,这就使得检验的效度降低了。
3.
校正的决定系数:校正的决定系数考虑到了变量的个数对决定系数的
复相关系数R:指的是多元回归系数,表示模型中y值与估计y值之间的相关系数,实际上是皮尔逊相关。取值范围是(0,1),没有负值。R越大表明模型越好。但是R值多大算是最好,并没有定论,通常在社会学科中,R>0.4就算是足够好了;但是在科学领域,R>0.8才算可以。
2.
决定系数R方:他就是复相关系数的平方,他指的是自变量能够解释因变量的百分比,他可以鉴定模型的好坏。但是使用决定系数有缺点,那就是在向模型中增加变量时,不管他有没有统计学意义,决定系数的值都是变大的,这就使得检验的效度降低了。
3.
校正的决定系数:校正的决定系数考虑到了变量的个数对决定系数的
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询