参考链接:https://zhuanlan.zhihu.com/p/47282410
在attention机制中有三种向量:Value vector(V,值向量),Key vector(K,键值向量),Query vector(Q,问题向量),self-attention中V和Q相同,都是自身,即建立输入的序列中每个元素和其他元素的关系(长度均为1),获得全局信息(Q、K、V来自于同一个目标)。在问答系统中,则Q来自于Question,V表示上下文,上下文的K和Q相乘再映射到V上进行解码(K、V来自于上下文,Q来自于question,不是来自于同一个目标)