自注意力中的不同的掩码介绍以及他们是如何工作的?

自注意力中的不同的掩码介绍以及他们是如何工作的?
在研究自注意力时，有很多的名词需要我们着重的关注，比如填充掩码，前瞻掩码等等，但网上没有太多注意力掩码的教程和它是如何工作的信息，另外还有以下的细节需要详细的解释：
- 为什么要对多个层应用注意力掩码？、
- 为什么不沿键和查询应用注意力掩码？
- 键、查询和值权重是否混淆了原始矩阵的序列顺序？
所以本篇文章将通过写出矩阵来查看这些问题的细节。这样可以对掩码的工作原理有更好的了解。除此以外还可以连接到线性层是如何跨二维工作的，这样可以解决上面第三点的疑问。

问题定义

让我们从一个有 4 个单词的矩阵 X 开始。当这些词被转换成它们的令牌嵌入，每个令牌的嵌入大小将是 3 个值。例如下面是我们的句子：

“a b c D”

现在让我们把这些词变成令牌。

向量a b c D各有3个分量，这个序列本质上是由4个令牌符号组成的。每个令牌是3个值的向量。我们把这些符号变成一个矩阵X。

X是由向量a、b、c和D组成的4 × 3矩阵这是我们想要用自注意力来转化的矩阵。

完整文章：

https://avoid.overfit.cn/post/1042640faa8249da92e405db1cbc3738
相关阅读:
双十一脱单就靠它：创维小湃蓝牙音箱体验评测
 专注产品真正价值：iWALK真无线蓝牙耳机体验评测
 美好的童年伙伴：360 智能儿童手表 P1体验评测
 前端也要学系列：设计模式之装饰者模式
 前端也要学系列：设计模式之策略模式
 你不知道的Javascript：有趣的setTimeout
接受”不完美“:分布式事务学习总结
 如何进行团队技术分享
 又是一年寒冬时
 mybatis ~ 批量更新（sql循环）update foreach
原文地址：https://www.cnblogs.com/deephub/p/16784160.html

自注意力中的不同的掩码介绍以及他们是如何工作的?

问题定义