Appearance-and-Relation Networks for Video Classification论文笔记 (ARTnet)

ARTnet：

caffe实现：代码

1 Motivation：How to model appearance and relation (motion)

主要工作是在3D卷积的基础上，提升了action recognition的准确率，没有使用光流信息，因为光流的提取速度特别慢，这可能是未来的研究趋势，该方法更不会像IDT那套方法一样计算复杂。

实验以C3D-ResNet18实现的，只以rgb为输入，训练的时候采用了TSN的稀疏采样策略。appearance分支对每帧图片提取特征（可以看作two-stream中RGB流）。relation分支利用multiplicative interactions对多帧提取特征，用于捕获帧与帧之间的关系

ARTNet主要是由SMART blocks 通过堆叠的方法组合起来，就好像ResNet主要是由Residual blocks组合起来一样。它是一种直接输入RGB视频图像的端到端的视频理解模型。

ARTNet在Kinetics上实验的结果表明，仅通过RGB的输入，train from scratch，能够达到RGB上state-of-the-art的性能

模型深挖rgb中的 appearance 和 relation 信息，smart模块对这个两个信息解耦独立建模后融合，上图可以看出，ARTnet利用了双流和c3d各自的优点。

2.1 Multiplicative interaction的数学原理

假设在连续帧上有两个patches，x和y，我们的目标是学习它们之间的变换关系z。一个常见的解决方案是将两个patches concat起来然后进行特征学习，就像3D conv一样：
这里写图片描述
这里学到的 $z_{k}$

$z_{k}$

Factorization and energy models. (2)式实现起来的一个主要问题是它的参数量相当于像素个数的立方，将其因式分解成3个矩阵能够有效地减少参数量，

所以(2)式就可以写成：

$w_{i j k} = \sum_{f = 1}^{F} w_{i f}^{x} w_{j f}^{y} w_{k f}^{z}$

3 网络结构

本文的一大亮点是能量模型，使用了一种近似square-pooling的结构。与原结构不同之处在于三点：第一，从无监督到了有监督；第二，从仅有relation到有appearance和relation；第三，从单层到stacking多层。

appearance分支对位置结构建模，relation分支对时域关系建模

relation分支：C3D加上relation model，其中relation model用到了square-pooling，以及1*1*1的卷积实现的cross-channel-pooling，最后fusion，concat.

cross-channel pooling等于对子空间做sum操作，论文中讲子空间设为2（对应channel的feature map和其相邻的feature map加和），pooling的权重是固定的0.5

其中Z的通道数是U的一半，而U和F通道数相同。reduction layer 的输出channel和appearance的channel一致

这是三种模型结构，第一种是C3D-ResNet18；第二种是ARTNet-ResNet18(s)，就是只在第一层conv换成smart；第三种是ARTNet-ResNet18(d),就是每一层conv都换成smart.

实现细节

训练网络：

bactchsize=256, momentum=0.9, SGD, framed大小128*170，input size112*112*16, 初始学习率为0.1，每当val loss不下降就降10倍。在Kinetics上的总iteration为250000。为减少过拟合，在fc层前加了dropout=0.2。

测试网络：

从整个视频中采样250个clips，具体是随机采取25个128*170*16的clips, 然后10crops(5crops加上水平反转，5crops是中间加上四个角)，最后取这250个的平均。