• 【CV论文阅读】Two stream convolutional Networks for action recognition in Vedios


    论文的三个贡献

    (1)提出了two-stream结构的CNN,由空间和时间两个维度的网络组成。

    (2)使用多帧的密集光流场作为训练输入,可以提取动作的信息。

    (3)利用了多任务训练的方法把两个数据集联合起来。

     

    Two stream结构

    视屏可以分成空间与时间两个部分,空间部分指独立帧的表面信息,关于物体、场景等;而时间部分信息指帧间的光流,携带着帧之间的运动信息。相应的,所提出的网络结构由两个深度网络组成,分别处理时间与空间的维度。

     

    可以看到,每个深度网络都会输出一个softmax层,最后会通过一种方法把两个softmax层的输出融合:一种是平均层,一种是训练一个以这些softmax输出作为特征的SVM。

     

    空间卷积网络

    网络的输入是单帧,这样的分类网络其实有很多,例如AlexNext,GoogLeNet等,可以现在imageNet上预训练,再进行参数迁移。

     

    光流场卷积网络(时间维度网络)

    光流场卷积网络的输入是 stacking optical flow displacement fields between several consecutive frames(不会翻译……),就是多层两帧间的光流场,可以从上图看出。因为光流场可以描述物体的运动信息。

     

    简单光流场叠加

    方法是计算每两帧间的光流,简单地叠加在一起。假设需要追踪L+1帧(会产生L帧的光流),那么会把光流分解成X,Y两个方向的光流,这时会有2L个通道。

     

    轨迹追踪光流叠加

    假设一帧的像素点,可以通过光流来追踪它在视频中的轨迹点,从而计算它在每一帧的相应位置的光流向量。同样的会把光流分解成X,Y两个方向的光流,这时会有2L个通道。

    对于这种方法,我想到DT的论文中谈到的一个问题就是:像素点的“漂移”,这很可能会出现在追踪多帧之后。猜想的是,这个L帧应该不是指训练视频的所有帧,这种方法可以很好地区分出前景和背景。

     

     

    减去平均光流

    这主要是为了消去摄像头运动引起的相对运动。

     

    多任务训练

    对于空间卷积网络,因为它输入的只是图像,而且只是一个分类网络,它有大量的数据集可供预训练,这是为了应对过拟合的问题。

    但是对于时间卷积网络,可供训练的视频集很少。作者使用多任务训练的方法,提供两个softmax输出层,但网络只有一个。论文的依据是,提供两个softmax输出层相当于正则化的过程。这样融合两个数据集对网络进行训练时,其中一个softmax层对其中一个数据集的视频进行分类,另一个softmax层对另一个数据集进行分类,在最后BP算法时,把两个softmax层的输出加和,作为总的误差执行BP算法更新网络的权值。

     

    一些细节问题

    1、计算光流是预处理后保存的,因为这会影响网络的速度。

    2、测试时,对于一个输入视频,随机抽样固定数的帧,它们的时间维度间隔是一样的。对于每帧,又计算它的光流场叠加。而每一帧又会在不同的位置采样,对于一个视频的误差,就是总的误差的平均。

  • 相关阅读:
    hdu 3037 Saving Beans fzu 2020 组合 hit 2813 Garden visiting hrbeu 组合数 fzu 1564 Combination
    PKU 2429 GCD & LCM Inverse
    Discrete Logging hunnu10590 pku2417 fzu 1352 hit 1928 zoj 1898
    HDUBased Game Theory
    Perfect Pth Powers zoj 2124 pku1730 hunnu10585
    More Divisors zoj 2562
    服务器的安全配置技巧总结
    sql server中datetime字段只取年月日如20060421,默认值如何设置?getdate()得到的是包含时分秒的时间
    获取当前打印机的名称、驱动程序、打印端口信息
    如何使用Delphi设计强大的服务器程序
  • 原文地址:https://www.cnblogs.com/jie-dcai/p/5745526.html
Copyright © 2020-2023  润新知