行为识别/检测(Action Recognition/ Detection)
最终的结果是得到图像或视频段中目标的行为类别。视频中人体行为识别主要分为两个子方向。
行为分类/识别 Action Recognition
- 给定一个包含一段明确的动作的视频片段进行分类,使用的视频序列数据都先将动作分割好了,时间较短(几秒钟)且有唯一确定的标签。所以也可以看作是input为视频,输出为label。
时序动作检测 Temporal Action Detection
主要解决的是两个任务:localization+recognization
1)where:什么时候发生动作,即开始和结束时间;
2)what:每段动作是什么类别
一般把这个任务叫做Temporal Action Detection,有的直接叫Action Detection,还有叫Action Localization、
- 数据是未分割的较长视频序列,不仅要知道一个动作在视频中是否发生,还需要知道动作发生在视频的哪段时间(包括开始和结束时间)(行为检测 Temporal Action Localization)。
特点是需要处理较长的、未分割的视频,且视频中通常有较多干扰,目标动作一般只占视频的一小部分。也可以说是对视频进行指定行为的检测
Action Recegniton和(Temporal Action Detection)之间的关系,同image classification和object detection之间的关系比较像。
基于image classification问题,发展出了许多强大的模型,比如ResNet、VGGNet等,这些模型在object detection的方法中起到了很大的作用。同样的,action recognition的相关模型如two-stream、C3D、iDT等也被广泛的应用在action detection中。
参考文献
行为识别的综述博客:
https://blog.csdn.net/neu_chenguangq/article/details/79504214
给出了行为识别的一些概述及资源合集(文章、代码)
https://blog.csdn.net/Gavinmiaoc/article/details/81179630
时序动作检测综述
http://www.pianshen.com/article/5760138121/
常用的行为分类的数据集:
UCF101:来源为YouTube视频,共计101类动作,13320段视频。共有5个大类的动作:1)人-物交互;2)肢体运动;3)人-人交互;4)弹奏乐器;5)运动。
HMDB51:来源为YouTube视频,共计51类动作,约7000段视频。
骨架数据库,比如MSR Action 3D,HDM05,SBU Kinect Interaction Dataset等。这些数据库已经提取了每帧视频中人的骨架信息,基于骨架信息判断运动类型。
常用的行为检测的数据集:
THUMOS2014:在行为检测任务中只有20类动作的未分割视频是有序行为片段标注的
MEXaction2:骑马和斗牛
ActivityNet:Kinetics目前最大的数据集,同时包含分类和检测两个任务,包含200个动作类别
行为识别的难点:
(1)类内和类间差异, 同样一个动作,不同人的表现可能有极大的差异。
(2)环境差异, 遮挡、多视角、光照、低分辨率、动态背景.
(3)时间变化, 人在执行动作时的速度变化很大,很难确定动作的起始点,从而在对视频提取特征表示动作时影响最大。
(4)缺乏标注良好的大的数据集
行为识别领域内的重要方法
传统方法——iDT
利用光流场来获取视频序列中的一些轨迹,再沿着轨迹提取HOF、HOG、MBH、trajectory等特征。HOF基于灰度图计算,另外几个基于optical(密集光流)计算。最后对其进行特征编码,再基于编码结果训练SVM分类器。iDT利用前后两帧之间的光流和surf关键点进行匹配,从而消除或减弱相机运动带来的影响。
优点:稳定性最高、可靠性高
缺点:速度慢
深度学习——Two-Stream(双流CNN)
对视频序列中每两帧计算密集光流,得到密集光流的序列(即temporal信息)。然后对于视频图像(spatial)和密集光流(temporal)分别训练CNN模型,两个分支的网络分别对动作的类别进行判断,最后直接对两个网格的class score进行fusion(包括直接平均和SVM
两种方法),得到最终的分类结果。
优点:精度高,在UCF-101上达到0.96的准确率
缺点:速度慢
深度学习——C3D(3D卷积)
通过3D卷积操作核去提取视频数据的时间核空间特征。这些3D特征提取器在空间和时间两个维度上操作,因此可以捕捉视频流的运动信息。然后基于3D卷积提取器构造一个3D卷积神经网络,这个架构可以从连续视频帧中产生多通道的信息,然后在每一个通道都分离地进行卷积和下采样操作。最后将所有通道的信息组合起来得到最终的特征描述。
优点:速度快,300fps
缺点:精度低,在UCF-101上为0.85准确率
参考文献:
https://www.jianshu.com/p/2c2c7e96b9b7 按照时间顺序整理了部分视频行为检测&分类方案