• Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers


    Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers

     2020-12-23 11:54:13

    Paperhttps://arxiv.org/pdf/2004.00849  

      预训练模型如火如荼,多模态预训练也没有掉队。其中,image-language 领域,如何将这两者联合学习是一个较为火热的方向。本文提出一种基于跨模态 transformer 的模型,来进行联合特征的学习。整体方法示意图如下:

     

      从上图可以看出,作者用 transformer 模型对 language 进行编码。同时,用 CNN 抽取 图像的特征,然后输入到一个特征映射模块中。该模块的特色是,随机的从中扣取 local feature patch,以防止过拟合。然后 language 和 vision feature 组合在一起,放到 transformer 模型中。本文采用两种训练损失,即:图像文本匹配的训练方法 和 掩模预测的训练方法。

      从计算资源来看,本文在  64 张 V100 上进行了训练。一般人,玩不起。。。

      训练方法上来说,对 CNN 用 SGD, 对 Transformer 部分用 AdamW 分别进行优化。

     

      

  • 相关阅读:
    冲刺NO.2
    冲刺NO.1
    用户场景描述
    【洛谷T2695 桶哥的问题——吃桶】
    【洛谷P4445 【AHOI2018初中组】报名签到】
    清北学堂2019.5.4
    清北学堂2019.5.3
    清北学堂2019.5.2
    清北学堂培训2019.5.1
    清北学堂培训2019.4.30
  • 原文地址:https://www.cnblogs.com/wangxiaocvpr/p/14177823.html
Copyright © 2020-2023  润新知