论文:Saliency-Guided Attention Network for Image-Sentence Matching
代码:Code
正如俗语所说“百闻不如一见”,相比与文本,图像往往隐含着更丰富的信息。作者认为,图像不仅能提供更有价值的细粒度信息,还能够完全保证其客观性。因此作者提出了Saliency-Guided Attention Network(SAN),不同于现有的将视觉与文本放在对等地位的网络,SAN采用了一种非对称的结构,它强调了视觉的先验知识。同时作者开发出了一种利用显著性信息来突出视觉上有意义部分的注意力模块,并提出在文本注意力模块中引入视觉的注意力来建立文本语义的相关性。
如图左边是原始图像,经过SAN后得到具有显著性信息的图像,并将这些显著性信息应用在文本的注意力上。
SAN Model
SAN模型结构如下图所示:
输入
视觉特征:
给定一组视觉特征({v_1,…,v_M}),全局视觉特征(v^{(g)})为:
文本特征:
首先将输入的句子(T)划分为(L)个单词({w_1,…,w_L}),并将每个单词通过嵌入矩阵(W_e)嵌入到单词空间中,记为(e_j=W_ewj),之后以不同的顺序将它们送入GRU中。
全局文本特征为:
Saliency-weighted Visual Attention (SVA)
目前的显著性检测模型往往过于庞大,因此作者设计了一种轻量级的显著性模型Residual Refinement Saliency Network (RRSNet),结构如图所示:
首先,以ResNeXt-50作为backbone,输出一组不同尺度特征图。在这作者只利用了前三个卷积层的特征图,并将其分为两组。其中低级特征图包含前两个卷积层的特征图,高级特征图为第三个卷积层的特征图。
对于低维特征图,作者首先对第二层卷积的特征图进行上采样,并将其concat起来。然后通过卷积减少冗余的通道数,产生一个低级的集成特征,激活函数选择PReLU。高维特征图同理。
之后,作者采用了Residual Refinement Block(RRB) 来生成特征图,其原理是利用低级特征和高级特征来进行显著性预测。
对于显著性图,作者首先通过平均池化下采样,将显著性图降低到同等尺寸。之后采用Sigmoid和L1-normalization进行归一化。最后利用显著性和特征进行加权求和,计算出显著性特征。(a_{v,i})代表显著性权重。
Saliency-guided Textual Attention (STA)
为了建立两种模态间的非对称连接,作者的方案是借助注意力机制将视觉先验知识导入文本表征的学习过程中。
作者设计了一种门控单元,将集成的视觉特征和全局文本特征输入到门控单元中,公式为:
其中(U_v),(U_t)代表了两个全连接层,(sigma)代表Sigmoid将每个元素缩放到0-1。
之后,作者通过软注意力机制来对文本特征进行加权
最后通过平均池化将全局文本特征(t^{(g)})和STA向量(t^{(s)})进行合并。