Learning Long-term Visual Dynamics with Region Proposal Interaction Networks

Learning Long-term Visual Dynamics with Region Proposal Interaction Networks

Learning Long-term Visual Dynamics with Region Proposal Interaction Networks

2021-04-08 16:24:36

Paper: ICLR2021

Code: https://github.com/HaozhiQi/RPIN

Project: https://haozhi.io/RPIN/

Youtube: https://www.youtube.com/watch?v=Fk5oPOcXIc0

　　1. Region Proposal Interaction Networks:

　　如上图所示，本文将 N帧视频和对应的物体矩形框作为输入，然后输出的是未来 T个时刻的矩形框及其掩模 Mask。对于每一帧，作者利用 CNN 来提取其特征，然后采用 RoIPooling 提取物体的特征。这些特征然后被输入到 CIN 模块中，即 Convolutional Interaction Networks 来进行物体的交互推理，然后用于预测未来的物体矩形框位置及其掩模。整个框架可以做到 E2E 训练。

　　1.1. Object-Centric Representation:

　　　　作者这里用的是 houglass network来提取图像特征。相对比其他 CNN 骨干网络，该模型可以得到较大的感受野，然后用 ROI POOLING 操作，得到物体级别的特征图，维度为 h*w*d。

　　

　　1.2. Convolutional Interaction Networks:

　　　　作者在这里首先介绍了前人基于 MLP 的交互网络，然后提出利用 convolutional 的方式来替换 MLP 的方法。大致思路如下所示：

　　　　

　　　　该网络将多个时刻的 m 个物体作为输入，然后进行 object reasoning fO 以及 relational raasoning fR。物体特征的更新就采用上述方式进行。此处，fA 是用于计算 fO, fR 结果的有效性。fZ 用于组合原始的状态和推理效果。最终，fP 在一个或者多个之前的物体状态上进行未来状态的预测。在 IN 中，所用到的网络结构都是 FC layers。

　　　　作者在这个工作中，将这个 MLP 改为 Convolutional 的方式，这样就可以充分利用空间信息来进行未来状态的推理。具体来说：

　　　　

　　　　其中，* 代表卷积操作，[, ] 是 concatenate 操作，W 代表卷积核大小为 3*3 的可学习权重。在每一个卷积操作后，作者添加了 ReLU 激活函数。

　　1.3. Learning Region Proposal Interaction Network (RPIN):

　　作者提出的模型可以直接预测未来的 BBox 以及每一个物体的 mask。这个 mask 是可选择的。给定编码后的特征，作者利用两层简单地 MLP decoder 来预测矩形框的坐标和 mask。

　　矩形框解码器：将折叠后的物体特征图作为输入，首先将其映射为 d 维的向量，然后输出一个 4-d 的坐标；分别代表矩形框的中心点以及宽高；

　　掩模解码器：拥有和矩形框解码器相似的结构，但是输出的是 21*21 的维度，对应了空间大小为 21*21 的二值掩模。

　　作者这里利用 L2 损失函数来计算 BBox 之间的差异，用交叉熵损失函数来计算掩模的损失，总的来说，损失函数的计算可以总结为：

　　

2. Experimental Results：

Stay Hungry，Stay Foolish ...
相关阅读:
Alcatraz的安装和使用
 TableView didSelectRowAtIndexPath 不执行
 iphone6 plus 为什么打印出的宽度是375
GCD的同步异步串行并行、NSOperation和NSOperationQueue一级用dispatch_once实现单例
 strcmp传入nil导致崩溃
 修改工程名称
 Mac OS X 系统12个常用的文本编辑快捷键（移动、选中）
删除配置文件解决OS X各种WiFi无法连接的顽固问题,解决MAC无法连接wif的情况 Preferences
textViewDidChange: crashes in iOS 7
iOS7隐藏状态栏 statusBar
原文地址：https://www.cnblogs.com/wangxiaocvpr/p/14633034.html