卷积神经网络参数解析

 我来答

1个回答

#热议# 网上掀起『练心眼子』风潮，真的能提高情商吗？

机器1718
2022-07-22 · TA获得超过6763个赞

知道小有建树答主

回答量：2805

采纳率：99%

帮助的人：154万

我也去答题访问个人页

关注

展开全部

（1）现象：

（1-1）一次性将batch数量个样本feed神经网络，进行前向传播；然后再进行权重的调整，这样的一整个过程叫做一个回合（epoch），也即一个batch大小样本的全过程就是一次迭代。

（1-2）将训练数据分块，做成批(batch training)训练可以将多个训练数据元的loss function求和，使用梯度下降法，最小化求和后的loss function ，进而对神经网络的参数进行优化更新

（2）一次迭代：包括前向传播计算输出向量、输出向量与label的loss计算和后向传播求loss对权重向量 w 导数（梯度下降法计算），并实现权重向量 w 的更新。

（3）优点：

（a）对梯度向量（代价函数对权值向量 w 的导数）的精确估计，保证以最快的速度下降到局部极小值的收敛性；一个batch一次梯度下降；

（b）学习过程的并行运行；

（c）更加接近随机梯度下降的算法效果；

（d）Batch Normalization 使用同批次的统计平均和偏差对数据进行正则化，加速训练，有时可提高正确率 [7]

（4）现实工程问题：存在计算机存储问题，一次加载的batch大小受到内存的影响；

（5）batch参数选择：

（5-1）从收敛速度的角度来说，小批量的样本集合是最优的，也就是我们所说的mini-batch，这时的batch size往往从几十到几百不等，但一般不会超过几千

（5-2）GPU对2的幂次的batch可以发挥更佳的性能，因此设置成16、32、64、128...时往往要比设置为整10、整100的倍数时表现更优

（6）4种加速批梯度下降的方法 [8] ：

（6-1）使用动量－使用权重的速度而非位置来改变权重。

（6-2）针对不同权重参数使用不同学习率。

（6-3）RMSProp－这是Prop 的均方根 ( Mean Square ) 改进形式，Rprop 仅仅使用梯度的符号，RMSProp 是其针对 Mini-batches 的平均化版本

（6-4）利用曲率信息的最优化方法。

（1）定义：运用梯度下降算法优化loss成本函数时，权重向量的更新规则中，在梯度项前会乘以一个系数，这个系数就叫学习速率η

（2）效果：

（2-1）学习率η越小，每次迭代权值向量变化小，学习速度慢，轨迹在权值空间中较光滑，收敛慢；

（2-2）学习率η越大，每次迭代权值向量变化大，学习速度快，但是有可能使变化处于震荡中，无法收敛；

（3）处理方法：

    （3-1）既要加快学习速度又要保持稳定的方法修改delta法则，即添加动量项。

（4）选择经验：

        （4-1）基于经验的手动调整。通过尝试不同的固定学习率，如0.1, 0.01, 0.001等，观察迭代次数和loss的变化关系，找到loss下降最快关系对应的学习率。

（4-2）基于策略的调整。

（4-2-1）fixed 、exponential、polynomial

（4-2-2）自适应动态调整。adadelta、adagrad、ftrl、momentum、rmsprop、sgd

（5）学习率η的调整：学习速率在学习过程中实现自适应调整（一般是衰减）

（5-1）非自适应学习速率可能不是最佳的。

（5-2）动量是一种自适应学习速率方法的参数，允许沿浅方向使用较高的速度，同时沿陡峭方向降低速度前进

（5-3）降低学习速率是必要的，因为在训练过程中，较高学习速率很可能陷入局部最小值。

参考文献：

[1]  Simon Haykin. 神经网络与机器学习[M]. 机械工业出版社, 2011.

[2]   训练神经网络时如何确定batch的大小？

[3]   学习笔记：Batch Size 对深度神经网络预言能力的影响

[4]   机器学习算法中如何选取超参数：学习速率、正则项系数、minibatch size. http://blog.csdn.net/u012162613/article/details/44265967

[5]   深度学习如何设置学习率 . http://blog.csdn.net/mao_feng/article/details/52902666

[6]   调整学习速率以优化神经网络训练. https://zhuanlan.zhihu.com/p/28893986

[7]   机器学习中用来防止过拟合的方法有哪些？

[8]   Neural Networks for Machine Learning by Geoffrey Hinton .

[9]   如何确定卷积神经网络的卷积核大小、卷积层数、每层map个数

[10]   卷积神经网络的卷积核大小、卷积层数、每层map个数都是如何确定下来的呢？

已赞过 已踩过<

评论收起

希卓
2024-10-17 广告

DAS分布式振动技术是一种基于光纤传感的先进监测方案。它利用光纤作为传感器，能够实时、连续地监测沿线的各种振动信号。该技术具有高精度、长距离监测、抗干扰能力强等显著优势，特别适用于重要设施如油气管道、铁路轨道等的安全监测。通过DAS分布式振... 点击进入详情页

本回答由希卓提供

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

卷积神经网络专为初学者设计，多领域实战

卷积神经网络零基础起步，多领域实战，手把手带你稳步胜任全能工作卷积神经网络对标企业岗位技能需求，涵盖5大热门领域，全流程实战，一站式就业

class.imooc.com广告

卷积神经网络大显存算力白菜价，GPU租用优选FunHPC

众多80G、48G、40G、32G大显存高性能显卡，超具性价比的算力服务

www.funhpc.com广告

卷积神经网络参数解析

您可能关注的内容

为你推荐：