参考这篇文章:
https://blog.csdn.net/mijiaoxiaosan/article/details/73251443
看了下:
最核心的如下:其最重要的创新应该就是Self-Attention的使用级联的多头attention架构。
两点:multi-head attention 和 self-attention。
参考这篇文章:
https://blog.csdn.net/mijiaoxiaosan/article/details/73251443
看了下:
最核心的如下:其最重要的创新应该就是Self-Attention的使用级联的多头attention架构。
两点:multi-head attention 和 self-attention。