如何理解ReLU activation function

 我来答

2个回答

#热议# 普通体检能查出癌症吗？

百度网友84f15ac
2017-10-08 · TA获得超过7845个赞

知道小有建树答主

回答量：350

采纳率：83%

帮助的人：31.3万

我也去答题访问个人页

关注

展开全部

作者：知乎用户
链接：https://www.zhihu.com/question/59031444/answer/177786603
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

你可以看：最近流行的激活函数！

一般激活函数有如下一些性质：
非线性：
当激活函数是线性的，一个两层的神经网络就可以基本上逼近所有的函数。但如果激活函数是恒等激活函数的时候，即f(x)=x，就不满足这个性质，而且如果MLP使用的是恒等激活函数，那么其实整个网络跟单层神经网络是等价的；
可微性：
当优化方法是基于梯度的时候，就体现了该性质；
单调性：
当激活函数是单调的时候，单层网络能够保证是凸函数；
f(x)≈x：
当激活函数满足这个性质的时候，如果参数的初始化是随机的较小值，那么神经网络的训练将会很高效；如果不满足这个性质，那么就需要详细地去设置初始值；
输出值的范围：
当激活函数输出值是有限的时候，基于梯度的优化方法会更加稳定，因为特征的表示受有限权值的影响更显著；当激活函数的输出是无限的时候，模型的训练会更加高效，不过在这种情况小，一般需要更小的Learning Rate。
Sigmoid
常用的非线性的激活函数，数学形式如下：
http://mmbiz.qpic.cn/mmbiz_png/1MtnAxmWSwNns5ku1KPgxEaDqfKkq4xzfYRjop47kwLMyk5qPb43vulZnRSBtlHYhfOAPHgHia5yMFD11waauyA/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1
Sigmoid 函数曾经被使用的很多，不过近年来，用它的人越来越少了。主要是因为它的缺点（输入较大或较小的时候，最后梯度会接近于0），最终导致网络学习困难。
所以，出现了另一种激活函数：ReLU
ReLU
f(x)=max(0,x)
优点：
使用 ReLU得到的SGD的收敛速度会比 sigmoid/tanh 快。这是因为它是linear，而且ReLU只需要一个阈值就可以得到激活值，不用去计算复杂的运算。
缺点：训练过程该函数不适应较大梯度输入，因为在参数更新以后，ReLU的神经元不会再有激活的功能，导致梯度永远都是零。
为了针对以上的缺点，又出现Leaky-ReLU、P-ReLU、R-ReLU三种拓展激活函数。
Leaky ReLUs
该函数用来解决ReLU的缺点，不同的是：
f(x)=αx，(x<0)
f(x)=x，(x>=0)

这里的 α 是一个很小的常数。这样，即修正了数据分布，又保留了一些负轴的值，使得负轴信息不会全部丢失。
Parametric ReLU
对于 Leaky ReLU 中的α，通常都是通过先验知识人工赋值，可以观察到损失函数对α的导数是可以求得的，可以将它作为一个参数进行训练。
《Delving Deep into Rectifiers: Surpassing Human-Level Performance on
ImageNet Classification》
该文章指出其不仅可以训练，而且效果特别好。公式非常简单，其中对α的导数：
data:image/gif;base64,iVBORw0KGgoAAAANSUhEUgAAAAEAAAABCAYAAAAfFcSJAAAADUlEQVQImWNgYGBgAAAABQABh6FO1AAAAABJRU5ErkJggg==
原文使用了Parametric ReLU后，最终效果比不用提高了1.03%。
Randomized ReLU
Randomized Leaky ReLU 是 Leaky ReLU 的随机版本（α 是随机选取）。它首次是在NDSB 比赛中被提出。
核心思想就是，在训练过程中，α是从一个高斯分布U(l,u)中随机出来的，然后再测试过程中进行修正（与Dropout的用法相似）。
数学表示如下：
http://mmbiz.qpic.cn/mmbiz_png/1MtnAxmWSwNns5ku1KPgxEaDqfKkq4xznJ0icQWeOY8LwPWY6wUqe5qkjHNIzuPFkljeHYSyQHYB0nGY4ibOSbYg/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1
在测试阶段，把训练过程中所有的αji取个平均值。NDSB冠军的α是从 U(3,8) 中随机出来的。在测试阶段，激活函数如下：
http://mmbiz.qpic.cn/mmbiz_png/1MtnAxmWSwNns5ku1KPgxEaDqfKkq4xzSxDW9vWYQkCzvUFAxvuQU4ryWQPwXVnkySFTtwnjaAic1O4nFUCfl1Q/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1

已赞过 已踩过<

评论收起

TableDI
2024-07-18 广告

VLOOKUP是Excel中用于垂直查找的函数，其基本用法包括四个参数：1. 查找值：即在数据表首列中需要搜索的值。2. 数据表：包含查找值的单元格区域或数组。3. 返回值所在列数：指定返回查询区域中第几列的值。4. 查找方式：选择精确匹配... 点击进入详情页

本回答由TableDI提供

匿名用户
2017-10-08

展开全部

本质 Graph Convolution 讲 Graph Fourier Transformation给定图令每点都 scaler feature 表达总体记作套用 Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering 面公式邻接矩阵 eigen-matrix 面 convolution 写

其 feature Fourier Transformation与相乘即表示 Fourier Domain 面点乘反向乘即 Fourier Domain 转换 Time Domain（注意我实际利用 convolution Fourier Domain 性质定义 convolution ）
GCN实际加 activation function再层叠起行

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

如何理解ReLU activation function

其他类似问题

为你推荐：