线性回归的拟合方程
线性回归都可以通过最小二乘法求出其方程,可以计算出对于y=bx+a的直线。
拟合是推求一个函数表达式y=f(x)来描述y和x之间的关系,一般用最小二乘法原理来计算。用直线来拟合时,可以叫一次曲线拟合,虽然有点别扭;用二次函数来拟合时,可以叫抛物线拟合或二次曲线拟合,但不能说线性回归。
用直线(y=ax+b)拟合时,得到的方程和一元线性回归分析得到的方程是一样的,但是拟合时可以人为指定函数参数形式,如b=0,而线性回归分析目的则侧重于描述y和x线性相关的程度,通常会同时计算相关系数、F检验值等统计参数。
求解方法
线性回归模型经常用最小二乘逼近来拟合,但他们也可能用别的方法来拟合,比如用最小化“拟合缺陷”在一些其他规范里(比如最小绝对误差回归),或者在回归中最小化最小二乘损失函数的乘法。相反,最小二乘逼近可以用来拟合那些非线性的模型。因此,尽管最小二乘法和线性模型是紧密相连的,但他们是不能划等号的。
以上内容参考:百度百科-线性回归方程
一般来说,线性回归都可以通过最小二乘法求出其方程,可以计算出对于y=bx+a的直线,其经验拟合方程如下:
其相关系数(即通常说的拟合的好坏)可以用以下公式来计算:
虽然不同的统计软件可能会用不同的格式给出回归的结果,但是它们的基本内容是一致的。以STATA的输出为例来说明如何理解回归分析的结果。在这个例子中,测试读者的性别(gender),年龄(age),知识程度(know)与文档的次序(noofdoc)对他们所觉得的文档质量(relevance)的影响。
输出:
Source | SS df MS Number of obs = 242
-------------+------------------------------------------ F ( 4, 237) = 2.76
Model | 14.0069855 4 3.50174637 Prob > F = 0.0283
Residual | 300.279172 237 1.26700072 R-squared = 0.0446
------------- +------------------------------------------- Adj R-squared = 0.0284
Total | 314.286157 241 1.30409194 Root MSE = 1.1256
------------------------------------------------------------------------------------------------
relevance | Coef. Std. Err. t P>|t| Beta
---------------+--------------------------------------------------------------------------------
gender | -.2111061 .1627241 -1.30 0.196 -.0825009
age | -.1020986 .0486324 -2.10 0.037 -.1341841
know | .0022537 .0535243 0.04 0.966 .0026877
noofdoc | -.3291053 .1382645 -2.38 0.018 -.1513428
_cons | 7.334757 1.072246 6.84 0.000 .
------------------------------------------------------------------------------------------- ,,
其中,代表y的平方和;是相关系数,代表变异被回归直线解释的比例;就是不能被回归直线解释的变异,即SSE。
根据回归系数与直线斜率的关系,可以得到等价形式:,其中b为直线斜率 ,其中是实际测量值,是根据直线方程算出来的预测值