普通最小二乘法推导过程
普通最小二乘法(ordinary least squares, OLS)是线性回归预测问题中一个很重要的概念,在 Introductory Econometrics A Modern Approach (Fourth Edition) 第2章 简单回归模型 中,花了很详细的篇幅对此作出介绍。应聘数据挖掘岗位,就有考到对普通最小二乘法的推导证明。最小二乘法十分有用,例如可以用来做推荐系统、资金流动预测等。
【推导】
首先假设拟合一条经过原点的直线,则有 y=βx ,要使模型最优则要使残差最小即∑i=1n(yi−βxi)2最小,则有
∑i=1n(yi−βxi)2=∑i=1n(yi−β^xi+β^xi−βxi)2=∑i=1n(yi−β^xi)2+2∑i=1n(yi−β^xi)(β^xi−βxi)+∑i=1n(β^xi−βxi)2≥∑i=1n(yi−β^xi)2+2∑i=1n(yi−β^xi)(β^xi−βxi)
当 2∑i=1n(yi−β^xi)(β^xi−βxi)=0 时 ∑i=1n(yi−βxi)2 最小,故
2∑i=1n(yi−β^xi)(β^xi−βxi)=02∑i=1n(yi−β^xi)xi(β^−β)=0∑i=1n(yi−β^xi)xi=0(1)β^=∑i=1nyixi∑i=1nxi2
接下来计算 y=β0+β1x 中的 β0 以及 β1
∑i=1n(yi−β0−β1xi)2=∑i=1n(yi∗−β0)2yi∗=yi−β1xi
我们知道要使 ∑i=1n(yi∗−β0)2 最小,则要使 β0=yi∗¯ (证明见附录),故
(2)β0=∑i=1nyi∗n=∑i=1n(yi−β1xi)n=y¯−β1x¯
接着计算 β1
∑i=1n(yi−β0−β1xi)2=∑i=1n(yi−y¯+β1x¯−β1xi)2=∑i=1n((yi−y¯)−β1(xi−x¯))2=∑i=1n(y~−β1x~))2
其中y~=(yiy);x~=(xix),根据式(1)可知要使该式最小则
β1=∑i=1nyi~xi~∑i=1nxi2~=∑i=1n(yi−y¯)(xi−x¯)∑i=1n(xi−x¯)2=∑i=1n(yi−y¯)(xi−x¯)/(n−1)∑i=1n(xi−x¯)2/(n−1)=Cov(y,x)Var(x)(3)=Cor(y,x)Sd(y)Sd(x)
根据式(2)(3)可知:
β0=y¯−β1x¯β1=Cor(y,x)Sd(y)Sd(x)