• 论文阅读笔记01-attention-is-all-you-need


    1结构介绍

    是一个seq2seq的任务模型,将输入的时间序列转化为输出的时间序列。
    有encoder和decoder两个模块,分别用于编码和解码,结合时是将编码的最后一个输出 当做 解码的第一个模块的输入
    encoder模块有两个操作: self-attention、feed-forward
    decoder模块有三个操作:self-attention、encoder-decoder-attention、feed-forward
    两种attention用的都是 multi-head-attention

    2 enbedding

    enbedding 操作不是简单地enbedding,而是加入了位置信息的enbedding,称之为position-enbedding,

    3.multi-head-attention

    3.1 attention 简单回顾

    attention 理解为计算相关程度;
    进行如下表述:表示为将query 和k-v pairs 映射到输出上其中query,每个k,每个v都是向量,输出是V中所有v的加权,其中权重是由q和每个k计算出来的,计算方法分为三步:
    (1)计算比较q和k的相似度,用f来表示:

    (2)将得到的相似度进行softmax归一化

    (3)针对计算出来的权重,对所有的v进行加权求和,得到attention向量

    理解为:
    q与一个k进行f运算,运算结果为标量,得到一个原始权重,原始权重经过softmax后变为正式权重,
    对所有的v进行加权求和,得到attention向量。

    计算相似度的方法有四种:

    在paper中使用的是第一种方式。

    接下来介绍multi-head-attention的简单版本scaled-dot-product-attention

    如果有一天我们淹没在茫茫人海中庸碌一生,那一定是我们没有努力活得丰盛
  • 相关阅读:
    冲刺阶段个人博客9
    冲刺阶段个人博客8
    梦断代码阅读笔记02
    我关于搜狗输入法的用户体验描述
    冲刺阶段个人博客07
    冲刺阶段个人博客06
    冲刺阶段个人博客05
    冲刺阶段个人博客04
    BZOJ 2006 超级钢琴(堆+主席树)
    BZOJ 1924 所驼门王的宝藏(强连通分量缩点+DAG最长链)
  • 原文地址:https://www.cnblogs.com/yeran/p/10604009.html
Copyright © 2020-2023  润新知