• Unsupervised Image Captioning论文笔记


    1. Abstarct
    目前大多数的image caption的模型都严重地依赖成对的图片—语句数据集,但获得他们代价较高,因此在本篇论文中,作者第一次尝试了无监督模型。该模型需要一个图像集、一个语料库和一个视觉检测器。同时,因为现有的语料库大多用于语言研究,与图片相关性不大,因此作者爬取了一个范围大的图片描述语料库,其中包括了200万自然语言句子。

    2. Introduction

    这幅原文中出现的图片描述了现存的image caption模型在概念上的区别:

    图a指的是有监督学习,他需要图像—句子对进行训练。
    图b指的是为那些不存在在图像—句子对中但是存在于图像识别数据集中的目标进行产生caption,这样新目标就能被引入进句子中。
    图c指的是将从现有的图像—句子对学习到的内容转移泛化到没有配对的数据上。这样,对于新的模型就不用成对的图像—句子数据去进行训练。
    图d指的是将图像转化成枢轴语言(中文)的句子,再将枢轴语言翻译成目标语言(英文)。
    图e指的是使用一个半监督学习的框架,在其中使用外部的文本语料库进行预训练。
    图f即为本文作者提出的无监督学习模型。


    在本文模型中有三个关键步骤:

    我们使用对抗文本生成方法在句子语料库上训练语言模型,该方法以给定图像特征生成句子。 因为在无监督的情况下,作者没有训练图像的正确描述。 因此,我们采用对抗训练来生成句子。
    为了确保生成的字幕包含图像中的内容,作者将视觉检测器提供的知识提取到模型中,即当与图像中检测到的视觉概念相对应的单词出现在生成的句子中,就会得到奖励。
    对于给定的图像特征,我们可以解码一个caption,他可以进一步用于重建图像特征。同样,我们也可以从语料库中对句子进行特征编码,然后对句子进行重构。通过双向重构,生成的句子就会表示图像的语义含义,从而改进模型。


    总的来说,本文的贡献有四条:

    对无监督的image caption做了尝试
    提出了训练image caption模型的三个目标
    提出使用无标签数据进行初始化管道
    爬取了200万个句子,并带来了很好的效果

    3、试验细节(模型的初始化)

    直接使用不配对的数据来训练效果很差。因此提出了一种方式预训练生成器和鉴别器。

    先为每个训练图像生成伪标题,然后使用伪图像标题对来初始化图像标题模型。

    (1)首先构建一个由OpenImages数据集中的对象类组成的概念字典。

    (2)仅使用句子语料库训练概念到句子(con2sen)模型。给定一个句子,我们使用单层LSTM将句子中的概念词编码为特征表示,并使用另一个单层LSTM将表示解码为整个句子。

    (3)使用现有的视觉概念检测器检测每个图像中的视觉概念。利用检测到的概念和概念到句子模型,我们能够为每个图像生成伪标题。

    (4)使用标准监督学习方法训练具有伪图像 - 标题对的生成器。


    4、 模型附图

    5、实验结果附图

     

  • 相关阅读:
    suse linux 下的 altera 软件 安装。
    全国教育网DNS(转)
    Upan量产 金士顿 G3
    备忘一 wget
    Linux IP 设置方法
    Linux 如何 mount 挂载 iso 虚拟光驱
    安卓学习资料总结
    自己实现的一个Android上面TreeView效果
    Android 学习资料推荐
    Android ListView下拉刷新 Demo
  • 原文地址:https://www.cnblogs.com/Dearmyh/p/16062094.html
Copyright © 2020-2023  润新知