LSTM简介
解决的问题:长短期依赖问题
在有些问题中,模型只需要短期内信息来执行当前任务,而有些问题则相反。在复杂场景中,有用信息的间隔有长有短,循环神经网络的性能也会受到限制。
一、LSTM
LSTM原理图
二、LSTM的网络结构介绍
1、输入门
输入门的输入为上一隐层的输出和当前时刻的输入。
输入门的作用从当前的输入补充最新的记忆。它会根据上一隐层的输出和当前时刻的输入决定哪些信息加入到上一状态中生成当前状态。
2、遗忘门
遗忘门的输入为上一时刻的状态、上一隐层的输出和当前时刻的输入。
遗忘门的作用是让循环神经网络忘记之前没有用的信息。遗忘门会根据上一隐层的输出和当前时刻的输入决定哪些信息需要被遗忘。比如当出现春天来了,就要忘记冬天银装素裹的样子。
3、输出门
输出门的输入为当前状态、上一隐层的输出和当前时刻的输入。
输出门会根据当前状态、上一隐层的输出和当前时刻的输入来决定该时刻的输出。比如当前的状态为春天来了,那么“草的颜色”后面的单词很可能就是“绿色的”。
4、LSTM单元细节图
5、各结构的计算公式