1. Abstarct
目前大多数的image caption的模型都严重地依赖成对的图片—语句数据集,但获得他们代价较高,因此在本篇论文中,作者第一次尝试了无监督模型。该模型需要一个图像集、一个语料库和一个视觉检测器。同时,因为现有的语料库大多用于语言研究,与图片相关性不大,因此作者爬取了一个范围大的图片描述语料库,其中包括了200万自然语言句子。
2. Introduction
这幅原文中出现的图片描述了现存的image caption模型在概念上的区别:
图a指的是有监督学习,他需要图像—句子对进行训练。
图b指的是为那些不存在在图像—句子对中但是存在于图像识别数据集中的目标进行产生caption,这样新目标就能被引入进句子中。
图c指的是将从现有的图像—句子对学习到的内容转移泛化到没有配对的数据上。这样,对于新的模型就不用成对的图像—句子数据去进行训练。
图d指的是将图像转化成枢轴语言(中文)的句子,再将枢轴语言翻译成目标语言(英文)。
图e指的是使用一个半监督学习的框架,在其中使用外部的文本语料库进行预训练。
图f即为本文作者提出的无监督学习模型。
在本文模型中有三个关键步骤:
我们使用对抗文本生成方法在句子语料库上训练语言模型,该方法以给定图像特征生成句子。 因为在无监督的情况下,作者没有训练图像的正确描述。 因此,我们采用对抗训练来生成句子。
为了确保生成的字幕包含图像中的内容,作者将视觉检测器提供的知识提取到模型中,即当与图像中检测到的视觉概念相对应的单词出现在生成的句子中,就会得到奖励。
对于给定的图像特征,我们可以解码一个caption,他可以进一步用于重建图像特征。同样,我们也可以从语料库中对句子进行特征编码,然后对句子进行重构。通过双向重构,生成的句子就会表示图像的语义含义,从而改进模型。
总的来说,本文的贡献有四条:
对无监督的image caption做了尝试
提出了训练image caption模型的三个目标
提出使用无标签数据进行初始化管道
爬取了200万个句子,并带来了很好的效果
3、试验细节(模型的初始化)
直接使用不配对的数据来训练效果很差。因此提出了一种方式预训练生成器和鉴别器。
先为每个训练图像生成伪标题,然后使用伪图像标题对来初始化图像标题模型。
(1)首先构建一个由OpenImages数据集中的对象类组成的概念字典。
(2)仅使用句子语料库训练概念到句子(con2sen)模型。给定一个句子,我们使用单层LSTM将句子中的概念词编码为特征表示,并使用另一个单层LSTM将表示解码为整个句子。
(3)使用现有的视觉概念检测器检测每个图像中的视觉概念。利用检测到的概念和概念到句子模型,我们能够为每个图像生成伪标题。
(4)使用标准监督学习方法训练具有伪图像 - 标题对的生成器。
4、 模型附图
5、实验结果附图