• 论文笔记《Hand Gesture Recognition with 3D Convolutional Neural Networks》


    一、概述

      Nvidia提出的一种基于3DCNN的动态手势识别的方法,主要亮点是提出了一个novel的data augmentation的方法,以及LRN和HRn两个CNN网络结合的方式。

      3D的CNN主要是使用了三维的卷积核去处理视频序列,是视频分析中常用的方法之一。

      这里是可以识别手语这种动态连续的手势的。

      

    二、亮点

      首先..竟然没有state of art...

      1、预处理:因为输入是连续的视频序列,所以需要对他们进行规范化,这里用nearest neighbor interpolation的方法来删除或者重复一些frame,来做出一个32frames的视频序列,然后做了一系列的预处理工作,用sobel算子得到梯度图啊,downsampling之类的,最后CNN的inputs是 57*125*32大小的梯度图和深度图交错的视频序列。

      2、分类:用了两个CNN网络,hign-resolutin network 和low-resolution network,他们分别有一个参数W,两个的区别是,第一个就是正常的前面描述的网络,后面一个是28*62*32的一个input的网络,最后的结果是两个预测的成绩,这里运用了多空间尺度,所以泛化能力得到了提高。

      3、optimation:cost function用了负的log-likelihood,优化用的是Nesterov accelerated gradient,参数设置的方法也是比较新的..具体名字忘了,反正就是对于防止方差过大有很好的抑制作用。

      4、data augmentation:因为是视频序列,所以在时间和空间上做了很多操作,具体可以看论文,这个工作是他们的核心,但暂时不是我个人关注的重点,因为我觉得这个从学术上看,只能说是个不错的trick吧。

    三、结论

      两个网络的fusion我觉得是个很好的想法,或许以后还有进一步的想象空间,data augmentation也确实是提高泛化能力的一个不错的方法。

  • 相关阅读:
    windows命令
    idea 操作git
    zookeeper常见问题
    utf8编码
    烟火云雾识别比赛
    虚树学习笔记
    圆方树学习笔记
    ROS的TF坐标变换
    bootchart
    指定位置读取bin文件中有效信息
  • 原文地址:https://www.cnblogs.com/daihengchen/p/5807684.html
Copyright © 2020-2023  润新知