• Learning Long-term Visual Dynamics with Region Proposal Interaction Networks


    Learning Long-term Visual Dynamics with Region Proposal Interaction Networks

    2021-04-08 16:24:36

    Paper: ICLR2021 

    Codehttps://github.com/HaozhiQi/RPIN 

    Projecthttps://haozhi.io/RPIN/ 

    Youtubehttps://www.youtube.com/watch?v=Fk5oPOcXIc0 

     

      1. Region Proposal Interaction Networks

            

     

      如上图所示,本文将 N帧视频和对应的物体矩形框作为输入,然后输出的是未来 T个时刻的矩形框及其掩模 Mask。对于每一帧,作者利用 CNN 来提取其特征,然后采用 RoIPooling 提取物体的特征。这些特征然后被输入到 CIN 模块中,即 Convolutional Interaction Networks 来进行物体的交互推理,然后用于预测未来的物体矩形框位置及其掩模。整个框架可以做到 E2E 训练。

     

      1.1. Object-Centric Representation

        作者这里用的是 houglass network来提取图像特征。相对比其他 CNN 骨干网络,该模型可以得到较大的感受野,然后用 ROI POOLING 操作,得到物体级别的特征图,维度为 h*w*d。

      

      1.2. Convolutional Interaction Networks

        作者在这里首先介绍了前人基于 MLP 的交互网络,然后提出利用 convolutional 的方式来替换 MLP 的方法。大致思路如下所示:

        

     

        该网络将多个时刻的 m 个物体作为输入,然后进行 object reasoning fO 以及 relational raasoning fR。物体特征的更新就采用上述方式进行。此处,fA 是用于计算 fO, fR 结果的有效性。fZ 用于组合原始的状态和推理效果。最终,fP 在一个或者多个之前的物体状态上进行未来状态的预测。在 IN 中,所用到的网络结构都是 FC layers。

     

        作者在这个工作中,将这个 MLP 改为 Convolutional 的方式,这样就可以充分利用空间信息来进行未来状态的推理。具体来说:

        

     

        其中,* 代表卷积操作,[, ] 是 concatenate 操作,W 代表卷积核大小为 3*3 的可学习权重。在每一个卷积操作后,作者添加了 ReLU 激活函数。

     

      1.3. Learning Region Proposal Interaction Network (RPIN)

      作者提出的模型可以直接预测未来的 BBox 以及每一个物体的 mask。这个 mask 是可选择的。给定编码后的特征,作者利用两层简单地 MLP decoder 来预测矩形框的坐标和 mask。

      矩形框解码器:将折叠后的物体特征图作为输入,首先将其映射为 d 维的向量,然后输出一个 4-d 的坐标;分别代表矩形框的中心点以及宽高;

      掩模解码器:拥有和矩形框解码器相似的结构,但是输出的是 21*21 的维度,对应了空间大小为 21*21 的二值掩模。

      作者这里利用 L2 损失函数来计算 BBox 之间的差异,用交叉熵损失函数来计算掩模的损失,总的来说,损失函数的计算可以总结为:

       

     

    2. Experimental Results: 

     

    Stay Hungry,Stay Foolish ...
  • 相关阅读:
    支付宝H5支付---证书模式
    Redis分布式锁
    Docker+Nginx+Ssl
    Java调用函数传递参数到底是值传递还是引用传递
    Mysql索引查询失效的情况
    mysql索引之最左前缀法则
    数据的三大范式以及什么是反三大范式
    SpringMvc的工作流程
    Android 环境搭建
    Python 爬虫: 抓取花瓣网图片
  • 原文地址:https://www.cnblogs.com/wangxiaocvpr/p/14633034.html
Copyright © 2020-2023  润新知