关于Transformer中feed forward layer理解

关于Transformer中feed forward layer理解

今天记录一下个人关于Transformer中前馈神经网络（FFN）的一点理解。

第一点，我们知道，FFN之前是有一个多头注意力机制的模块。我们可以想想一下，如果这个模块直接输出，不经过FFN层会发生什么，要知道多头注意力（MH）是没有激活函数的，那么最后只有一个结果，那就是很多头的输出就是一个极为相似的结果。这并不是我们想要的结果，所以这个时候，我们可以考虑使用FFN层，因为这个结构可以提供更好的特征表达能力（也就是提供了非线性，非线性很重要，不然DL就没法搞那么深了）。

第二点，关于self-attention这个模块，该模块其实就是学习某个特征与其余其他特征之间的相似度分数，然后利用softmax归一化成注意力分数，之后对某个特征与其他特征的相似性进行加权输出。而这个过程就意味着self-attention输出的并不是上下文语义嵌入，而是原始上下文本身（就是怎么输进去就怎么输出来，只不过输出来的值是带有权重的，比如，我去店里买咖啡，从店里出来时我带着咖啡这个权重，只不过我还是我，并没有变。感觉这比喻有点问题，但是我只能这么理解了）。所以这个时候就需要考虑利用FNN考察特征语义不同部分之间的关系（通过非线性变换来实现）。感觉有点像self-attention先去前方打探好多个敌人的不同情况，之后FFN根据不同的敌人做调整。

第三点、在使用self-attention实际上是做了一个线性变换，也就是第一点提到的，训练到后期，输出值都相似。所以之后需要加入FNN提高特征的表达能力（也就是添加非线性ReLU）。其次self-attention只解决了特征之间的长远距离依赖关系，并没有对特征进行提取，也就是第二点提到的。

以上就是我的个人参考一些资料的理解，之后再有新的想法，继续补充。有人知道其他原因的话，欢迎评论区。
相关阅读:
Hash(学习笔记)
[POI2012]OKR-A Horrible Poe(hash+线性筛素数)
质数(学习笔记)
[AHOI2014/JSOI2014]宅男计划(贪心＋三分)
[HEOI2015]定价(贪心+数学)
Trie字典树(学习笔记)
CF258D. Little Elephant and Broken Sorting(DP+概率期望)
矩阵(01背包+滚动数组)
[2015北大自招夏令营]产品排序(区间DP)
HTML
原文地址：https://www.cnblogs.com/peixu/p/16842247.html