在研究自注意力时,有很多的名词需要我们着重的关注,比如填充掩码,前瞻掩码等等,但网上没有太多注意力掩码的教程和它是如何工作的信息,另外还有以下的细节需要详细的解释:
- 为什么要对多个层应用注意力掩码?、
- 为什么不沿键和查询应用注意力掩码?
- 键、查询和值权重是否混淆了原始矩阵的序列顺序?
所以本篇文章将通过写出矩阵来查看这些问题的细节。这样可以对掩码的工作原理有更好的了解。除此以外还可以连接到线性层是如何跨二维工作的,这样可以解决上面第三点的疑问。
问题定义
让我们从一个有 4 个单词的矩阵 X 开始。当这些词被转换成它们的令牌嵌入,每个令牌的嵌入大小将是 3 个值。例如下面是我们的句子:
“a b c D”
现在让我们把这些词变成令牌。
向量a b c D各有3个分量,这个序列本质上是由4个令牌符号组成的。每个令牌是3个值的向量。我们把这些符号变成一个矩阵X。
X是由向量a、b、c和D组成的4 × 3矩阵这是我们想要用自注意力来转化的矩阵。
完整文章:
https://avoid.overfit.cn/post/1042640faa8249da92e405db1cbc3738