循环神经网络(RNN)是一种非常强大的序列模型,通常很难训练。 长短期记忆(LSTM)是一种特定的RNN架构,其设计使其易于训练。 虽然LSTM在实践中取得了巨大成功,但它的结构似乎是临时的,因此尚不清楚它是否是最优的,并且其各个组成部分的重要性也不清楚。
在这项工作中,我们旨在确定LSTM体系结构是最佳的还是存在更好的体系结构。 我们进行了全面的架构搜索,评估了超过一万种不同的RNN架构,并确定了在某些而非全部任务上性能均优于LSTM和最近引入的门控循环单元(GRU)的架构。 我们发现,在LSTM的“遗忘门”上加上1的偏置会缩小LSTM和GRU之间的差距。
参考文献
R. Jozefowicz, W. Zaremba, and I. Sutskever. An empirical exploration of recurrent network architectures. In ICML, 2015.
博客解读
https://blog.csdn.net/weixin_39653948/article/details/104540621
https://blog.csdn.net/kaka19880812/article/details/63262621
结论
文章作者做了多组实验检测各种不同结构的RNN在不同的问题上的表现,得到的结论包括:
(1)GRU在除了语言模型的其他地方比LSTM表现好
(2)LSTM with dropout在语言模型上表现好,有大的遗忘门偏置后表现更好
(3)在LSTM中,各个门的重要性为:遗忘门>输入门>输出门
(4)遗忘门在除了语言模型外的情况下影响非常大
Bayer等人先前曾进行过RNN的架构搜索。 (2009)。 他们试图解决相同的问题,但是他们使用小型模型(5个单位)进行的实验更少了。 他们只考虑了具有长期依赖性的综合性问题,并且能够找到在这些任务上优于LSTM的体系结构。 格雷夫等人的同时工作。 (2015年)关于LSTM的不同门的重要性也得出了类似的结论。
为了找到可靠地胜过LSTM的体系结构,我们评估了各种递归神经网络体系结构。 尽管在某些问题上,有些架构的性能优于LSTM,但我们无法找到在所有实验条件下都能始终击败LSTM和GRU的架构。
对这项工作的主要批评是,我们的搜索程序未能找到与其父代有显着差异的体系结构。 确实,回顾一下三个性能最高的体系结构,我们发现它们都与GRU相似。 尽管更长的搜索过程会发现更多不同的体系结构,但是评估新候选者的高昂成本大大降低了这样做的可行性。 尽管如此,一个合理的搜索过程并不能比LSTM显着改善这一事实表明,至少,如果存在比LSTM更好的体系结构,那么找到它们并不是一件容易的事。
重要的是,添加大小为1的偏置可以显着提高LSTM在落后于GRU和MUT1的任务上的性能。 因此,我们建议在每个应用程序的每个LSTM的遗忘门上增加一个偏置1; 这很容易做到,通常可以更好地完成我们的任务。 这项调整是对我们开始发现的LSTM的简单改进。
最近的对比研究表明,GRU和LSTM性能接近。
但是在参数相同的情况下,二者精度相似,但是GRU训练速度更快且不容易发散。