Transformer学习资源 - 润新知

Transformer学习资源
Transformer学习资源转载

深入Attention机制

attention_output = Attention(Query, Key, Value) 。
在机器翻译<x, y>的encoder-decoder结构之中, Query属于Target，<Key, Value>属于Source。
Query就是encoder最后一层和decoder隐层状态所代表的中间语义信息。Key和Value在机器翻译中是一样的，都代表输入x。
综上，Attention机制就是利用Target中的Query与Source中的Key的相似性计算权重，然后再将权重分配给Source的Value
PS:self-attention就是Q=K(=V)的情况，即Target与Source相同，或者也可以就叫做仅利用Source信息的Attention。
- CSDN, 深度学习中的注意力机制, attention, self-attention
- 知乎, NLP中的Attention原理
Transformer原理
相关阅读:
Linux curl使用简单介绍
 SecureCRT编码转换vim
BigTable/HBase基本概念解读 & Hbase shell常用命令
 Crontab用法说明(Linux)
Sina SSO 登陆过程分析
 浅谈队列
 搞怪的 log4net 记录日志性能测试
 iBatis.Net异步多线程操作Ibatis报错
 高并发高负载的大型网站系统架构
 [置顶] IIs Web 站点安全监控站点自动部署重启
原文地址：https://www.cnblogs.com/lsl1229840757/p/14381486.html

Copyright © 2020-2023 润新知