30分钟讲清楚深度神经网络
这两年神经网络各种火。但对很多人而言,只是听着觉得各种高大上,究其本质,还是听不懂。下面我们花三十分钟把这个事情讲清楚。
神经网络算法是最早来源于某神经生理学家和某数学家联合发表的一篇论文,他们对人类神经运行规律的提出了一个猜想,并尝试给出一个建模来模拟人类神经元的运行规律。
神经网络一开始由于求解问题的不稳定,以及范围有限被抛弃。后面又在各个大神的努力下,对遇到的问题一个个解决,加上因为游戏带来的计算能力的提升获得了一个爆发式的增长。
下面我们讲讲神经网络是啥以及遇到的问题和探索出来的解决方案,最终我们给出一个深度神经网络的默认的最优配置项。
建立M个隐藏层,按顺序建立输入层跟隐藏层的联结,最后建立隐藏层跟输出层的联结。为每个隐藏层的每个节点选择激活函数。求解每个联结的权重和每个节点自带的bias值。参见下图。
所谓激活函数就是对各个路径的输入求和之后进一步增强的函数 。
典型的有如下几个:
下面这个图里面,是已知的各个联结线的权值,求y1, y2
这个练习可以测试对神经网络的理解。
所谓神经网络问题的训练本质,就是已知 y1,y2....yn, 已知x1, x2....xm,求解每个连接的权值和每个神经元上的偏差值。对单层的激活函数为RELU的神经网络而言就是, y = max(sum(w * x)+b, 0),已知y和x,求解w和b。
对于以上求解w和b的值,科学家们发现可以通过反向传播和梯度下降相结合来求解。就是一开始用随机数初始化我们每个联结的权值,然后通过神经网络计算出来的y值跟真实的y值做比对。如果这个值相差比较大,则修改当前层的联结的权重。当发现这个值相差不大时,则修改更低一层的权重。这个步骤一直重复,逐步传递到第一层的权值 。
三大问题:
针对这三个问题,大拿们开始了一场探索之旅。
神经网络的求解是通过反向传播的技术来解决的。通过梯度下降法。问题是,反向传播从输出层开始一步一步传到Layer 1时,越到低层,联结的权值变化越小,直到没变化。这种叫梯度消失。还有一些呢?则是越到第一层,变化越来越大。这种叫梯度爆炸。常见于RNN。
解决方案探索如下:
目前来说,通常用1+2 多于 3 多于 4。就是现在一般使用He initialization跟ReLU的演进版本作为作为激活函数来解决梯度消失和爆炸的问题,其次才使用Batch Normalization,最后使用Gradient Clipping。
通常来说,我们很难获得足够的标记好的训练数据。常用解决方案如下:
对于大规模数据的训练,很多时候速度很慢。除了解决梯度消失或爆炸的问题之外,还有使用AdamOptimizer替代GradientDescentOptimizer会大大加快收敛速度 。
我们后面会教大家用tensorflow构造出一个神经网络并求解。