如何理解ReLU activation function

 我来答
百度网友84f15ac
2017-10-08 · TA获得超过7845个赞
知道小有建树答主
回答量:350
采纳率:83%
帮助的人:31.3万
展开全部
作者:知乎用户
链接:https://www.zhihu.com/question/59031444/answer/177786603
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

你可以看:最近流行的激活函数!

一般激活函数有如下一些性质:
非线性:
当激活函数是线性的,一个两层的神经网络就可以基本上逼近所有的函数。但如果激活函数是恒等激活函数的时候,即f(x)=x,就不满足这个性质,而且如果MLP使用的是恒等激活函数,那么其实整个网络跟单层神经网络是等价的;
可微性:
当优化方法是基于梯度的时候,就体现了该性质;
单调性:
当激活函数是单调的时候,单层网络能够保证是凸函数;
f(x)≈x:
当激活函数满足这个性质的时候,如果参数的初始化是随机的较小值,那么神经网络的训练将会很高效;如果不满足这个性质,那么就需要详细地去设置初始值;
输出值的范围:
当激活函数输出值是有限的时候,基于梯度的优化方法会更加稳定,因为特征的表示受有限权值的影响更显著;当激活函数的输出是无限的时候,模型的训练会更加高效,不过在这种情况小,一般需要更小的Learning Rate。
Sigmoid
常用的非线性的激活函数,数学形式如下:
http://mmbiz.qpic.cn/mmbiz_png/1MtnAxmWSwNns5ku1KPgxEaDqfKkq4xzfYRjop47kwLMyk5qPb43vulZnRSBtlHYhfOAPHgHia5yMFD11waauyA/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1
Sigmoid 函数曾经被使用的很多,不过近年来,用它的人越来越少了。主要是因为它的缺点(输入较大或较小的时候,最后梯度会接近于0),最终导致网络学习困难。
所以,出现了另一种激活函数:ReLU
ReLU
f(x)=max(0,x)
优点:
使用 ReLU得到的SGD的收敛速度会比 sigmoid/tanh 快。这是因为它是linear,而且ReLU只需要一个阈值就可以得到激活值,不用去计算复杂的运算。
缺点: 训练过程该函数不适应较大梯度输入,因为在参数更新以后,ReLU的神经元不会再有激活的功能,导致梯度永远都是零。
为了针对以上的缺点,又出现Leaky-ReLU、P-ReLU、R-ReLU三种拓展激活函数。
Leaky ReLUs
该函数用来解决ReLU的缺点,不同的是:
f(x)=αx,(x<0)
f(x)=x,(x>=0)

这里的 α 是一个很小的常数。这样,即修正了数据分布,又保留了一些负轴的值,使得负轴信息不会全部丢失。
Parametric ReLU
对于 Leaky ReLU 中的α,通常都是通过先验知识人工赋值,可以观察到损失函数对α的导数是可以求得的,可以将它作为一个参数进行训练。
《Delving Deep into Rectifiers: Surpassing Human-Level Performance on
ImageNet Classification》
该文章指出其不仅可以训练,而且效果特别好。公式非常简单,其中对α的导数:
data:image/gif;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAYAAAAfFcSJAAAADUlEQVQImWNgYGBgAAAABQABh6FO1AAAAABJRU5ErkJggg==
原文使用了Parametric ReLU后,最终效果比不用提高了1.03%。
Randomized ReLU
Randomized Leaky ReLU 是 Leaky ReLU 的随机版本(α 是随机选取)。 它首次是在NDSB 比赛中被提出。
核心思想就是,在训练过程中,α是从一个高斯分布U(l,u)中随机出来的,然后再测试过程中进行修正(与Dropout的用法相似)。
数学表示如下:
http://mmbiz.qpic.cn/mmbiz_png/1MtnAxmWSwNns5ku1KPgxEaDqfKkq4xznJ0icQWeOY8LwPWY6wUqe5qkjHNIzuPFkljeHYSyQHYB0nGY4ibOSbYg/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1
在测试阶段,把训练过程中所有的αji取个平均值。NDSB冠军的α是从 U(3,8) 中随机出来的。在测试阶段,激活函数如下:
http://mmbiz.qpic.cn/mmbiz_png/1MtnAxmWSwNns5ku1KPgxEaDqfKkq4xzSxDW9vWYQkCzvUFAxvuQU4ryWQPwXVnkySFTtwnjaAic1O4nFUCfl1Q/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1
匿名用户
2017-10-08
展开全部
本质 Graph Convolution 讲 Graph Fourier Transformation给定图令每点都 scaler feature 表达总体记作套用 Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering 面公式邻接矩阵 eigen-matrix 面 convolution 写

其 feature Fourier Transformation与相乘即表示 Fourier Domain 面点乘反向乘 即 Fourier Domain 转换 Time Domain(注意我实际利用 convolution Fourier Domain 性质定义 convolution )
GCN实际 加 activation function再层叠起行
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式