• NS-VQA:结合符号推理和神经网络进行视觉问答


    原文链接:https://arxiv.org/pdf/1810.02338.pdf

    Motivation

    本文与上两篇文章相同,即visual reasoning。对于图中问题的回答,人类的推理是清晰而可解释的。visual reasoning希望可以将VQA的推理过程清晰地表现出来。

    Structure

    本文的模型包含三个部分。首先,场景解析器(即去渲染器)将输入的图片分割为不同物体(通过Mask R-CNN),然后通过CNN生成结构化的场景描述(即图中的表格,将每个物体的尺寸、形状、材料、颜色、位置进行提取);然后,问题解析器通过LSTM将问题转化为可执行的程序;最后,程序执行器将程序在结构化场景上运行,得到结果。后两个部分类似于上一篇Inferring and Executing Programs中的结构。

    Experiments


    NS-VQA超过了现有的模型的表现,包括上周提到的MAC、IEP等。ground-truth program的数量到270时,准确率可以达到惊人的99.8%,甚至超过了人类的表现。


    作者对模型的训练过程进行了实验。研究发现,NS-VQA在强化学习只需要大约500个programs即可达到state-of-the-art的准确率,表现出了很高的效率。而在相同的ground-truth program数量和训练数据数量上,NS-VQA超过了现有模型,达到了最佳效果。


    作者展示了CLEVR数据集上的定性结果,蓝色代表正确程序/结果,红色代表错误。NS-VQA在程序生成的鲁棒性上超过了IEP的基准。


    最后,作者还根据Minecraft游戏中的图片生成了一些视觉推理问题,制作为数据集,并在此数据集上进行了训练,测试训练效果。结果表明NS-VQA在Minecraft数据集上仍然可以达到比较好的效果。

     
     
     
  • 相关阅读:
    windows中echo的用法
    通过phpMyAdmin写入MySQL,获取webshell
    底部小鱼特效
    kali Linux的简单介绍
    Kali安装gmpy2
    利用kali生成字典的三种方式
    利用kali嗅探HTTP网页用户账户密码
    永恒之蓝(ms017-010)漏洞利用
    如何使用最新Microsoft Edge打开Flash页面
    结对第二次作业
  • 原文地址:https://www.cnblogs.com/zkwang/p/12717202.html
Copyright © 2020-2023  润新知