CNN学习笔记：激活函数

激活函数

　　激活函数又称非线性映射，顾名思义，激活函数的引入是为了增加整个网络的表达能力（即非线性）。若干线性操作层的堆叠仍然只能起到线性映射的作用，无法形成复杂的函数。常用的函数有sigmoid、双曲正切、线性修正单元函数等等。使用一个神经网络时，需要决定使用哪种激活函数用隐藏层上，哪种用在输出节点上。

　　比如，在神经网路的前向传播中，

sigmoid函数

　　之前在线性回归中，我们用过这个函数，使我们的输出值平滑地处于0~1之间。

　　观察图形我们发现，当大于5或者小于-5的值无论多大或多小都会被压缩到1或0。如此便带来一个严重问题，即梯度的“饱和效应”。大于5或者小于-5部分的梯度接近0，这回导致在误差反向传播过程中导数处于该区域的误差就很难甚至根本无法传递至前层，进而导致整个网络无法训练（导数为0将无法跟新网络参数）。

　　此外，在参数初始化的时候还需要特别注意，要避免初始化参数直接将输出值带入这一区域，比如初始化参数过大，将直接引发梯度饱和效应而无法训练。

说明：除非输出层是一个二分类问题否则基本不会用它。

双曲正切函数

　　tanh函数是sigmoid的向下平移和伸缩后的结果。对它进行了变形后，穿过了原

　　结果表明，如果在隐藏层上使用函数tanh

　　Relu作为神经元的激活函数，定义了该神经元在线性变换 ${displaystyle mathbf {w} ^{T}mathbf {x} +b}$ ${displaystyle max(0,mathbf {w} ^{T}mathbf {x} +b)}$ 至下一层神经元或作为整个神经网络的输出（取决现神经元在网络结构中所处位置）。