lstm(一) 演化之路

递归神经网络引入了时序的反馈机制，在语音、音乐等时序信号的分析上有重要的意义。
Hochreiter(应该是Schmidhuber的弟子)在1991年分析了bptt带来的梯度爆炸和消失问题，给学习算法带来了梯度
震荡和学习困难等问题；
Hochreater和Schmidhuber在1997年提出了LSTM的网络结构，引入CEC单元解决bptt的梯度爆炸和消失问题；
Felix Gers(Schmidhuber是指导人之一)2001年的博士论文进一步改进了lstm的网络结构，增加了forget gate和peephole；
Alex Graves(Schmidhuber的弟子)2006年提出了lstm的ctc训练准则。

第一步：RNN->基本lstm

参考文献[1]和[2]

问题

问题一：gradient

BPTT学习算法存在梯度爆炸和消失问题(gradient blow up or vanish)，简单通过local error flow分析如下：
对RNN的隐层进行unfolding后，可以得到如下的递推关系：

ϑ j (t) = f' j (n e t j (t)) \sum i w i j ϑ i (t + 1)

可以理解为t+1时刻的error通过

\partial ϑ v ( t - q ) \partial ϑ u ( t ) = ⎧⎩⎨ f ' v ( n e t v ( t - 1 ) )

\partial ϑ l q - 1 ( t - q + 1 ) \partial ϑ u ( t ) = f ' l q - 1

. . . . . .

\partial ϑ v ( t - q ) \partial ϑ u ( t ) = \sum l 1 = 1 n . . . \sum

| f' l m (n e t l m (t - m)) w l m l m - 1

问题二：conflict

input weight conflict
假设
output weight conflict
同理，隐层到输出层之间也存在放行和屏蔽的conflict。

解决

这里写图片描述
1997年Hochreiter和Schmidhuber首先提出了LSTM的网络结构，解决了传统RNN的上面两个问题。

问题一的solution

lstm通过引入CEC(constant error carrousel)单元解决了梯度沿时间尺度unfolding带来的问题。
首先梯度的递推关系如下：

ϑ j (t) = f' j (n e t j (t)) \sum i w i j ϑ i (t + 1)

f' j (n e t j (t)) w i j = 1

f j (x) = x

w j j = 1

w i j = 0 (i \neq j)

以上两点保证了error可以无损由t时刻传递到t-1时刻，如上图中的

问题二的solution

针对问题二，lstm引入了两个gate：input gate（对应图中的

第二步：lstm + forget gate

参考文献[3]

问题

传统的lstm存在一个问题：随着时间序列的增多，lstm网络没有重置的机制（比如两句话合成一句话作为输入的话，希望是在第一句话结束的时候进行reset），从而导致cell state容易发生饱和，进一步会导致cell state的输出h（趋近于1）的梯度很小（sigmoid函数在x值很大的时候梯度趋向于0），阻碍了error的传入；另一方面输出h趋近于1，导致cell的输出近似等于output gate的输出，意味着网络丧失了memory的功能。

解决

这里写图片描述
在传统lstm的基础之上，引入了forget gate。使用这种结构可以让网络自动学习什么时候应该reset。具体做法即为使用

n e t φ j (t) = \sum m w φ j m y m (t - 1)

y φ j (t) = f φ j (n e t φ j (t))

第三步：lstm+peephole

参考文献[3]

问题

lstm的gate的输入包含两个部分，网络输入和上一时刻（t-1）网络的输出。
此时如果output gate关闭（值接近0）的话，网络的输出（t时刻）将为0，下一时刻（t+1）网络gate将完全跟网络输入有关，就会丢失历史信息。

解决

这里写图片描述
增加CEC到各个gate之间的连线，使得CEC(const error carrousels)和gate之间存在双向的关联，CEC收到当前时刻gate的限制，同时又会影响下一时刻的gate。
- input gate和forget gate的输入增加一项

peephole使得网络可以记录更多的时序上的关联性，有助于提取相关事件准确周期的相关信息，可以应用于音乐韵律的分析等工作。

第四步：CTC训练准则

ctc训练

参考

[1]《Untersuchungen zu dynamischen neuronalen Netzen》 Hochreiter（德文的，人家的硕士论文）
[2]《Long Short-Term Memory》 Hochreiter, Sepp; Schmidhuber
[3]《Long Short-Term Memory in Recurrent Neural Networks》 Felix Gers
[4]《Supervised Sequence Labelling with Recurrent Neural Networks》 Alex Graves
[5] http://colah.github.io/posts/2015-08-Understanding-LSTMs/

相关阅读:
ES6 随记（1）-- let 与 const
this 机制的四种规则
BEM（一种 CSS 命名规则）
WebSocket 的后记
WebSocket 初体验
“空”的艺术-当数据为空时显示什么
前端路由以及浏览器回退，hash & history & location
体验 WebFont，网页上的艺术字
dedecms安装全过程（集成环境）
面向对象（五）

原文地址：https://www.cnblogs.com/DjangoBlog/p/7699739.html