线性模型
线性模型(linear model): 通过属性的线性组合进行预测的函数。线性模型形式简单却包含机器学习主要建模思想。
假设一个样本包含d个属性,表示为 x =(x_{1};x_{2};...;x_{d}),其中x_i表示样本的第i个属性值。线性模型的一般形式如下:
写成向量形式:
因此,只要w和b确定,模型就可以确定。例如,一个判断瓜的方程可以写为:f_{好瓜}(x)=0.2x_{色泽}+0.5x_{根蒂}+0.3x_{敲声}
给定数据集D={(x_1,y_1),(x_2,y_2),...,(x_m,y_m)},其中x_i=(x_{i1};x_{2};...;x_{id}),y_i∈R。
对于离散型的属性,若存在序的关系,可以转化为连续值,例如对身高的高和矮可以转化为1和0;若没有序关系,假定有k个属性值,则可以转化为k维向量,例如对于瓜瓜,可以将西瓜、南瓜和黄瓜转化为(0,0,1)、(0,1,0)和(1,0,0)。
线性回归试图学得f(x_i)=wx_i+b,使得f(x_i)\simeq y_i。
通过 均方误差 求得所有f(x_i)和y_i之间距离(欧几里得距离)之和的最小(即 最小二乘法 ),得到w和b,即:
根据数学上的知识,E_{(w,b)}实际上是一个凸函数,这就保证了通过对E_{(w,b)}两个变量分别求其偏微分,就可以得出满足条件的值。
列出E_{(w,b)}分别对w和b的偏微分,并令其等于0:
解得:
这是针对样本x_i是一维的情况,当样本为多维时,需要利用向量来计算。
当样本为多维时, 多元线性回归 形式如下:
同样采用最小二乘法求解,在这里,将所有样本及标签写成向量的形式,方便计算:
类似的有:
同样对\widehat{w}求导(用到向量求导)得到:
对于上式,必须分情况讨论:
令\widehat{x}_i=(x_i;1),则最终求得的多元函数模型为:
将y变为\ln y,即得对数线性回归:
也就是:
前年说的都是预测的连续值,即标签是连续的。要处理分类问题,该如何处理呢?
对于二分类任务,其标签属于{0,1},通过线性模型产生的预测值z=w^Tx+b,通过一个阶跃函数,就可以把z转换为{0,1}:
如图所示:
但是阶跃函数不连续不可微,可以用Sigmoid函数(对数几率函数)来代替阶跃函数,即上图中的左边的式子。将z=w^Tx+b代入得:
上式做变化为:
若将y视为样本作为正例的可能性,则1-y是其成为反例的可能性,两者之比称为 几率 。反映样本作为正例的相对可能性。将此几率取对数,称为 对数几率 (logit):
对数几率回归求解的目标函数是任意阶可导凸函数,具有良好的数学性质。
为确定上面的w和b,将视为类后验概率估计p(y=1|x),上面的式子可以写为:
上式是关于\beta的高阶连续凸函数,根据凸优化理论,梯度下降和牛顿法均可以得到其最优解:
线性判别分析 (linear discriminant Anastasis,LDA):给定训练样例集,将样例投影到一条直线上,使得同类样例的投影点尽可能接近,异类样例的投影点尽可能的远离。对新样本进行分类时,投影到相同的直线上,根据投影点的位置来确定新样本的类别。示意图如下:
给定数据集D={(x_i,y_i)}_{i=1}^{m},y_i∈{0,1},令X_i、\mu _i、\sum _i分别代表第i∈{0,1}类示例的集合、均值向量、协方差矩阵。在直线w上投影后:
由于直线是一维空间,上面4个都是实数。
定义类内散度矩阵:S_w=\sum_0+\sum_1=
定义类间散度矩阵:S_b
则上式J可重写为:
这就是LDA欲最大化的目标,即S_b与S_w的 广义瑞利商 。
在实践中,通常是对S_w进行奇异值分解,然后再求得S_w^{-1}。
LDA也可从贝叶斯决策理论的角度来诠释,可证明,当两类数据同先验、满足正态分布且协方差相等时,LDA可得最优解。
多分类任务通常是将其拆分为多个二分类任务。经典的拆分策略有三种:
最终,根据这些个分类器的结果进行投票,把预测的最多的分类作为最终的分类结果。
其中:
结果海明距离就是3.
ECOC编码对分类器有一定的容忍和修正能力,一般来说,同一个学习任务,ECOC编码越长,纠错能力越大,然后这意味着所需训练的分类器越多,计算机存储开销会很大,另一方面,对于有限类别数,可能的组合数目是有限的,码长超过一定范围就会失去意义了。
前面的方法都假设样例中正例及反例的数量相差不大,但如果样本中不同类别的样例数量差别较大,则会对学习过程产生很大影响。
类别不平衡:分类任务中,不同类别的训练样例数目差别很大。
当训练集中的正、反例数目不同时,令m +表示正例数目,m -表示反例数目,则观测几率是\frac{m +}{m -}。假设训练集是真实样本总体的无偏采样,则观测几率代表真实几率,因此只要分类器的预测几率高于观测几率,就判定为正类,即:
类别不平衡的基本策略: 再缩放 :
为基于训练集观测几率来腿短真是几率,有三类做法: