常见的激活函数

1. 什么是激活函数

在神经网络中，我们经常可以看到对于某一个隐藏层的节点，该节点的激活值计算一般分为两步：
（1）输入该节点的值为

在深度学习中，常用的激活函数主要有：sigmoid函数，tanh函数，ReLU函数。下面我们将一一介绍。

在逻辑回归中我们介绍过sigmoid函数，该函数是将取值为

g (z) = 1 1 + e - z

对于sigmoid函数的求导推导为：

sigmoid函数作为非线性激活函数，但是其并不被经常使用，它具有以下几个缺点：
（1）当

对于隐藏层第一个节点进行计算，假设该点实际值为

z [1] = w 11 x 1 + w 12 x 2 + b [1]

a [1] = g (z [1])

于是对权重

Δ J [ 1 ] ( W ) Δ w 11 = ( a [ 1 ] - a ) \cdot ( a [ 1 ] ) ' = (

由于 $ g'(z^{[1]}) =g(z^{[1]})(1-g(z{[1]}))

tanh函数相较于sigmoid函数要常见一些，该函数是将取值为

g (z) = e z - e - z e z + e - z

tanh函数在

tanh函数的缺点同sigmoid函数的第一个缺点一样，当

ReLU函数又称为修正线性单元（Rectified Linear Unit），是一种分段线性函数，其弥补了sigmoid函数以及tanh函数的梯度消失问题。ReLU函数的公式以及图形如下：

g (z) = {z, 0, if z > 0 if z < 0

对于ReLU函数的求导为：

g' (z) = {1, 0, if z > 0 if z < 0

ReLU函数的优点：
（1）在输入为正数的时候（对于大多数输入

这是一种对ReLU函数改进的函数，又称为PReLU函数，但其并不常用。其公式与图形如下：

g (z) = {z, a z, if z > 0 if z < 0

其中

g (z) = {1, a, if z > 0 if z < 0

Leaky ReLU函数解决了ReLU函数在输入为负的情况下产生的梯度消失问题。

我们以这样一个例子进行理解。
假设下图中的隐藏层使用的为线性激活函数（恒等激活函数），也就是说

于是我们可以得出：

z [1] = W [1] x + b [1]

a [1] = g (z [1]) = z [1]

z [2] = W [2] a [1] + b [2] = W [2] (W [1] x

a [2] = g (z [2]) = z [2] = W [2] (W [1] x + b

y^= a [2] = W [1] W [2] x + W [2] b [1] + b

可以看出，当激活函数为线性激活函数时，输出

相关阅读:
寒假学习笔记（15）
寒假学习笔记（14）
CSS（二）文字样式属性，背景和列表
CSS（一）基础
Django初始化项目时报错
数据表生成以及apps目录建立
Django导入静态文件
IntelliJ Idea 常用快捷键列表
水木告白工作室：Thymeleaf模板引擎
水木告白工作室：CSS3之路（一：圆角、边框、背景）

原文地址：https://www.cnblogs.com/darcy/p/15897653.html