论文阅读笔记01-attention-is-all-you-need

论文阅读笔记01-attention-is-all-you-need

1结构介绍

是一个seq2seq的任务模型，将输入的时间序列转化为输出的时间序列。
有encoder和decoder两个模块，分别用于编码和解码，结合时是将编码的最后一个输出当做解码的第一个模块的输入
encoder模块有两个操作： self-attention、feed-forward
decoder模块有三个操作：self-attention、encoder-decoder-attention、feed-forward
两种attention用的都是 multi-head-attention

2 enbedding

enbedding 操作不是简单地enbedding，而是加入了位置信息的enbedding,称之为position-enbedding,

3.multi-head-attention

3.1 attention 简单回顾

attention 理解为计算相关程度；
进行如下表述：表示为将query 和k-v pairs 映射到输出上其中query,每个k，每个v都是向量，输出是V中所有v的加权，其中权重是由q和每个k计算出来的，计算方法分为三步：
（1）计算比较q和k的相似度，用f来表示：

（2）将得到的相似度进行softmax归一化

（3）针对计算出来的权重，对所有的v进行加权求和，得到attention向量

理解为：
q与一个k进行f运算，运算结果为标量，得到一个原始权重，原始权重经过softmax后变为正式权重，
对所有的v进行加权求和，得到attention向量。

计算相似度的方法有四种：

在paper中使用的是第一种方式。

接下来介绍multi-head-attention的简单版本scaled-dot-product-attention

如果有一天我们淹没在茫茫人海中庸碌一生，那一定是我们没有努力活得丰盛
相关阅读:
冲刺阶段个人博客9
冲刺阶段个人博客8
梦断代码阅读笔记02
我关于搜狗输入法的用户体验描述
 冲刺阶段个人博客07
冲刺阶段个人博客06
冲刺阶段个人博客05
冲刺阶段个人博客04
BZOJ 2006 超级钢琴(堆+主席树)
BZOJ 1924 所驼门王的宝藏(强连通分量缩点+DAG最长链)
原文地址：https://www.cnblogs.com/yeran/p/10604009.html

热门文章
冲刺五
 冲刺四
 用户场景描述
 谁是水王
 冲刺三
 冲刺二
 冲刺一
 团队合作之项目NABCD
第一阶段个人冲刺博客10
第十二周总结

论文阅读笔记01-attention-is-all-you-need

1结构介绍

2 enbedding

3.multi-head-attention

3.1 attention 简单回顾