浅谈最小二乘法
最小二乘法是回归分析的一种标准方法,它通过最小化每个方程式结果中的残差平方和来近似超定系统(方程组多于未知数的方程组)。
回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
最重要的应用是数据拟合。 最小二乘意义上的最佳拟合将残差平方的总和最小化(残差为:观察值与模型提供的拟合值之间的差)。 当问题在 自变量(x变量)中具有很大的不确定性 时,则简单回归和最小二乘法会出现问题。 在这种情况下,可以考虑拟合 变量误差模型 所需的方法,而不是最小二乘法。
最小二乘问题分为两类:线性或 普通最小二乘 和 非线性最小二乘 ,这取决于 残差在所有未知量中是否是线性的 。线性最小二乘问题发生在 统计回归分析 中,它有 解析解 。非线性问题通常是通过迭代优化来解决的,每次迭代系统都近似为线性系统,因此两种情况下的计算核心是相似的。
多项式最小二乘法 将因变量预测中的方差描述为自变量函数与拟合曲线的偏差。
当观测值来自 指数族 且满足温和条件时,最小二乘估计和 最大似然估计 是相同的。最小二乘法也可以由 矩估计 的方法导出。
下面的讨论主要是以 线性 函数的形式提出的,但是最小二乘法的使用对于更一般的函数族是有效和实用的。同时,通过迭代地应用局部二次逼近似然(通过 Fisher 信息 ),最小二乘法可用于拟合 广义线性模型 。
最小二乘法通常归功于 卡尔·弗里德里希·高斯 (Carl Friedrich Gauss,1795),但它首先由 阿德里安·玛丽·勒让德 (Adrien Marie Legendre,1805)发表。
目标包括调整模型函数的参数以最适合数据集。 一个简单的数据集由n个点(数据对) 组成,其中 是自变量, 是由观测值获得的因变量。模型函数具有 ,在向量 中保持m个可调参数。目的是为“最佳”拟合数据的模型找到参数值。 模型对数据点的拟合度通过其残差来度量,残差定义为因变量的实际值与模型预测的值之间的差: ,最小二乘法通过最小化残差平方和S来寻找最佳参数值: ,二维模型的一个例子是直线模型。y轴的截距表示为 ,斜率为 ,模型函数由 ,请参见线性最小二乘法,以获取该模型的完整示例。
一个数据点可以由多个自变量组成。例如,当将一个平面拟合到一组高度测量值时,平面是两个自变量的函数,例如x和z。在最一般的情况下,每个数据点可能有一个或多个自变量和一个或多个因变量。
下图是一个是一个残差图,说明了 的随机波动,显示了 这个线性模型是合适的, 是一个随即独立的变量。
如果残差点具有某种形状并且不是随机波动的,线性模型就不合适。例如,如果残差图如右图所示为抛物线形状,则为抛物线模型 对数据更加合适。抛物线模型的残差可以通过 计算。
这种回归公式只考虑因变量中的观测误差(但是可替代的 全最小二乘 回归可以解释这两个变量中的误差)。有两种截然不同的语境,具有不同的含义:
通过设置梯度为0求得平方和的最小值。因为模型包含m个参数,因此有m个梯度方程:
由 ,梯度方程可以推导为:
梯度方程适用于所有最小二乘问题。每一个问题都需要模型及其偏导数的特殊表达式。
当模型由参数的线性组合组成时,回归模型是线性模型,即:
式中 是x的函数。
令 ,并将自变量和因变量转换为矩阵X和Y,我们可以按以下方式计算最小二乘,注意D是所有数据的集合。
通过将损失梯度设置为零并求解 ,可以找到最小值。
最后,将损失的梯度设置为零,并求解 ,我们得到:
在某些情况下非线性最小二乘问题有一个 解析解 ,但通常情况下是没有的。在没有解析解的情况下,用数值算法求出使目标最小化的参数的值。大多数算法都涉及到参数的初始值的选择。然后,迭代地对参数进行细化,即通过逐次逼近得到这些参数:
式中,上标k是迭代数,增量 的向量,称为位移向量。在一些常用算法中,每次迭代该模型都可以通过对 近似一阶 泰勒级数 展开来线性化:
Jacobian矩阵J是常数、自变量和参数的函数,因此它在每次迭代时都会改变。残差由:
为最小化 的平方和,将梯度方程置为0,求解 :
经过重新排列,形成m个联立线性方程组, 正规方程组 :
正规方程用矩阵表示法写成
这就是 高斯牛顿法 的定义公式。
在寻求非线性最小二乘问题的解时,必须考虑这些差异。
为了对结果进行统计检验,有必要对实验误差的性质作出假设。通常的假设是误差属于正态分布。 中心极限定理 支持这样的观点:在许多情况下,这是一个很好的近似。
然而,如果误差不是正态分布的,中心极限定理通常意味着只要样本足够大,参数估计就会近似正态分布。因此,鉴于误差均值独立于自变量这一重要性质,误差项的分布在回归分析中不是一个重要问题。具体来说,误差项是否服从正态分布并不重要。
在具有单位权重的最小二乘法计算中,或在线性回归中,第j个参数的方差 ,通常估计为:
其中,真实误差方差 由基于目标函数平方和最小值的估计值代替。分母,n−m,是统计自由度;请参见有效自由度以获取归纳。
如果参数的 概率分布 已知或渐近近似,则可以找到 置信限 。同样,如果残差的概率分布已知或假设,则可以对残差进行统计检验。如果已知或假设实验误差的概率分布,我们就可以导出因变量的任何线性组合的概率分布。当假设误差服从正态分布时,推断很容易,因此意味着参数估计和残差也将是正态分布的,这取决于自变量的值。
当Ω(残差的相关矩阵)的所有非对角项都为空时, 广义最小二乘法 的一个特例称为 加权最小二乘法 ;观测值的方差(沿协方差矩阵对角线)可能仍然不相等( 异方差 )。更简单地说,异方差是当 的方差取决于 的值,这会导致残差图产生“扇出”效应,使其朝向更大的 值,如下侧残差图所示。另一方面, 同构性 假设 和的 方差相等。
关于一组点的平均值的第一个主成分可以用最接近数据点的那条线来表示(用最接近的距离的平方来测量,即垂直于直线)。相比之下,线性最小二乘法只尝试最小化 方向上的距离。因此,虽然二者使用相似的误差度量,但线性最小二乘法是一种优先处理一维数据的方法,而PCA则同等对待所有维度。
tikhonov 正则化
在某些情况下,最小二乘解的正则化版本可能更可取。 Tikhonov正则化 (或 岭回归 )添加了一个约束,即参数向量的 L2范数 ,即参数向量的L2范数,不大于给定值。它可以通过添加 ,其中 是一个常数(这是约束问题的 拉格朗日 形式)。在 贝叶斯 背景下, 这相当于在参数向量上放置一个零均值正态分布的 先验 。
Lasso method
最小二乘法的另一种正则化版本是Lasso(least absolute shrinkage and selection operator),它使用 ,参数向量的L1范数,不大于给定值。(如上所述,这相当于通过添加惩罚项 对最小二乘法进行无约束最小化)。在贝叶斯背景下, 这相当于在参数向量上放置一个零平均 拉普拉斯 先验分布 。优化问题可以使用 二次规划 或更一般的 凸优化方法 ,以及由具体算法如 最小角度回归 算法。
Lasso 和岭回归的一个主要区别是,在岭回归中,随着惩罚的增加,所有参数都会减少但仍然保持非零;而在Lasso中,增加惩罚将导致越来越多的参数被驱动到零。这是Lasso相对于岭回归的一个优势, 因为驱动参数为零会从回归中取消选择特征 。因此,Lasso自动选择更相关的特征并丢弃其他特征,而岭回归永远不会完全丢弃任何特征。基于LASSO开发了一些 特征选择 技术,包括引导样本的Bolasso方法和分析不同 值对应的回归系数,对所有特征进行评分的FeaLect方法
L1正则化公式在某些情况下是有用的,因为它倾向于选择更多参数为零的解,从而给出依赖较少变量的解。因此,Lasso及其变体是 压缩传感 领域的基础。这种方法的一个扩展是 弹性网络正则化 。
From Wikipedia, the free encyclopedia