循环神经网络(RNN)模型与前向反向传播算法

在前面我们讲到了DNN，以及DNN的特例CNN的模型和前向反向传播算法，这些算法都是前向反馈的，模型的输出和模型本身没有关联关系。今天我们就讨论另一类输出和模型间有反馈的神经网络：循环神经网络(Recurrent Neural Networks ，以下简称RNN)，它广泛的用于自然语言处理中的语音识别，手写书别以及机器翻译等领域。

1. RNN概述

　　　　在前面讲到的DNN和CNN中，训练样本的输入和输出是比较的确定的。但是有一类问题DNN和CNN不好解决，就是训练样本输入是连续的序列,且序列的长短不一，比如基于时间的序列：一段段连续的语音，一段段连续的手写文字。这些序列比较长，且长度不一，比较难直接的拆分成一个个独立的样本来通过DNN/CNN进行训练。

　　　　而对于这类问题，RNN则比较的擅长。那么RNN是怎么做到的呢？RNN假设我们的样本是基于序列的。比如是从序列索引1到序列索引 $τ$

　　　　下面我们来看看RNN的模型。

2. RNN模型

　　　　RNN模型有比较多的变种，这里介绍最主流的RNN模型结构如下：

　　　　上图中左边是RNN模型没有按时间展开的图，如果按时间序列展开，则是上图中的右边部分。我们重点观察右边部分的图。

　　　　这幅图描述了在序列索引号 $t$

　　　　1） $x^{(t)}$

　　　　2） $h^{(t)}$

　　　　3） $o^{(t)}$

　　　　4） $L^{(t)}$

　　　　5） $y^{(t)}$

　　　　6） $U, W, V$

3. RNN前向传播算法

　　　　有了上面的模型，RNN的前向传播算法就很容易得到了。

　　　　对于任意一个序列索引号 $t$

h (t) = σ (z (t)) = σ (U x (t) + W h (t - 1) + b)

　　　　其中 $σ$

　　　　序列索引号 $t$

o (t) = V h (t) + c

　　　　在最终在序列索引号 $t$

y^(t) = σ (o (t))

　　　　通常由于RNN是识别类的分类模型，所以上面这个激活函数一般是softmax。

　　　　通过损失函数 $L^{(t)}$

4. RNN反向传播算法推导

　　　　有了RNN前向传播算法的基础，就容易推导出RNN反向传播算法的流程了。RNN反向传播算法的思路和DNN是一样的，即通过梯度下降法一轮轮的迭代，得到合适的RNN模型参数 $U, W, V, b, c$

　　　　为了简化描述，这里的损失函数我们为交叉熵损失函数，输出的激活函数为softmax函数，隐藏层的激活函数为tanh函数。

　　　　对于RNN，由于我们在序列的每个位置都有损失函数，因此最终的损失 $L$

L = \sum t = 1 τ L (t)

　　　　其中 $V, c,$

\partial L \partial c = \sum t = 1 τ \partial L ( t ) \partial c = \sum t = 1 τ

\partial L \partial V = \sum t = 1 τ \partial L ( t ) \partial V = \sum t = 1 τ

　　　　但是 $W, U, b$

δ (t) = \partial L \partial h ( t )

　　　　这样我们可以像DNN一样从 $δ^{(t + 1)}$

δ (t) = \partial L \partial o ( t ) \partial o ( t ) \partial h ( t ) + \partial

　　　　对于 $δ^{(τ)}$

δ (τ) = \partial L \partial o ( τ ) \partial o ( τ ) \partial h ( τ ) = V T (

　　　　有了 $δ^{(t)}$

\partial L \partial W = \sum t = 1 τ \partial L \partial h ( t ) \partial h ( t ) \partial W

\partial L \partial b = \sum t = 1 τ \partial L \partial h ( t ) \partial h ( t ) \partial b

\partial L \partial U = \sum t = 1 τ \partial L \partial h ( t ) \partial h ( t ) \partial U

　　　　除了梯度表达式不同，RNN的反向传播算法和DNN区别不大，因此这里就不再重复总结了。

5. RNN小结

　　　　上面总结了通用的RNN模型和前向反向传播算法。当然，有些RNN模型会有些不同，自然前向反向传播的公式会有些不一样，但是原理基本类似。

　　　　RNN虽然理论上可以很漂亮的解决序列数据的训练，但是它也像DNN一样有梯度消失时的问题，当序列很长的时候问题尤其严重。因此，上面的RNN模型一般不能直接用于应用领域。在语音识别，手写书别以及机器翻译等NLP领域实际应用比较广泛的是基于RNN模型的一个特例LSTM，下一篇我们就来讨论LSTM模型。

（欢迎转载，转载请注明出处。欢迎沟通交流：liujianping-ok@163.com）

参考资料：

1） Neural Networks and Deep Learning by By Michael Nielsen

2） Deep Learning, book by Ian Goodfellow, Yoshua Bengio, and Aaron Courville

3） UFLDL Tutorial

4）CS231n Convolutional Neural Networks for Visual Recognition, Stanford

相关阅读:
django djangorestframework的简单使用
html element截图，无需服务端即可下载的功能
iOS 三种路由对比（TargetAction，Protocol， URL）
技术网站集合
【转】windows 没有hyperv 解决方法
Vue.js基本使用
yml 配置数据库的多数据源配置，@DS注解，dynamic
vue 兼容ie 下载图片
ie兼容 justifycontent: spaceevenly
TrueNAS存储池简介

原文地址：https://www.cnblogs.com/Ph-one/p/10826741.html