梯度下降算法中的优化途径
1个回答
展开全部
特征缩放还可以使机器学习算法工作的更好。
比如在K近邻算法中,分类器主要是计算两点之间的欧几里得距离,如果一个特征比其它的特征有更大的范围值,那么距离将会被这个特征值所主导。
在梯度下降法中,当某个特征值较大的时候会出现类似于 图一 的代价函数轮廓图:
这样的情况下,梯度下降的过程中会来回震荡,使得需要更多次的迭代才能到达局部最优点。
而如果对特征进行缩放(Feature Scaling)那么,迭代过程就可以像 图二 一样,更为快速的收敛。
因此每个特征应该被归一化,比如将取值范围处理为0到1之间。
这种方法是将数据的特征缩放到[0,1]或[-1,1]之间。缩放到什么范围取决于数据的性质。对于这种方法的公式如下:
0均值归一化方法将原始数据集归一化为均值为0、方差1的数据集
公式如下:
其中max为样本数据的最大值,min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。
S = Xmax - Xmin
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询