• NS-VQA:结合符号推理和神经网络进行视觉问答


    原文链接:https://arxiv.org/pdf/1810.02338.pdf

    Motivation

    本文与上两篇文章相同,即visual reasoning。对于图中问题的回答,人类的推理是清晰而可解释的。visual reasoning希望可以将VQA的推理过程清晰地表现出来。

    Structure

    本文的模型包含三个部分。首先,场景解析器(即去渲染器)将输入的图片分割为不同物体(通过Mask R-CNN),然后通过CNN生成结构化的场景描述(即图中的表格,将每个物体的尺寸、形状、材料、颜色、位置进行提取);然后,问题解析器通过LSTM将问题转化为可执行的程序;最后,程序执行器将程序在结构化场景上运行,得到结果。后两个部分类似于上一篇Inferring and Executing Programs中的结构。

    Experiments


    NS-VQA超过了现有的模型的表现,包括上周提到的MAC、IEP等。ground-truth program的数量到270时,准确率可以达到惊人的99.8%,甚至超过了人类的表现。


    作者对模型的训练过程进行了实验。研究发现,NS-VQA在强化学习只需要大约500个programs即可达到state-of-the-art的准确率,表现出了很高的效率。而在相同的ground-truth program数量和训练数据数量上,NS-VQA超过了现有模型,达到了最佳效果。


    作者展示了CLEVR数据集上的定性结果,蓝色代表正确程序/结果,红色代表错误。NS-VQA在程序生成的鲁棒性上超过了IEP的基准。


    最后,作者还根据Minecraft游戏中的图片生成了一些视觉推理问题,制作为数据集,并在此数据集上进行了训练,测试训练效果。结果表明NS-VQA在Minecraft数据集上仍然可以达到比较好的效果。

     
     
     
  • 相关阅读:
    Windows7记事本的五大秘密
    深刻认识clientX,offsetX,screenX
    win7几个小技巧
    怎样开启Win7快速启动栏
    offsetLeft,Left,clientLeft的区别
    更改Windows7下图标查看方式
    让IE6、IE7、IE8支持CSS3的圆角、阴影样式
    windows7桌面右下角显示不止一个时间以及显示日期
    Win7开关机关闭Update方法
    jquery outerHeight方法 outerWidth方法
  • 原文地址:https://www.cnblogs.com/zkwang/p/12717202.html
Copyright © 2020-2023  润新知