一、运动目标检测简介
视频中的运动目标检测这一块现在的方法实在是太多了。运动目标检测的算法依照目标与摄像机之间的关系可以分为静态背景下运动检测和动态背景下运动检测。先简单从视频中的背景类型来讨论。
静态背景下的目标检测,就是从序列图像中将实际的变化区域和背景区分开了。在背景静止的大前提下进行运动目标检测的方法有很多,这些方法比较侧重于背景扰动小噪声的消除,如:
1.背景差分法
2.帧间差分法
3.光流法
4.混合高斯模型(GMM)
5.码本(codebook)
还有这些方法的变种,例如三帧差分,五帧差分,或者这些方法的结合。
运动背景下的目标检测,相对于静态背景而言,算法的思路就有所区别了,一般会更加侧重于匹配,需要进行图像的全局运动估计与补偿。因为在目标和背景同时运动的情况下,是无法简单的根据运动来判断的。运动背景下的运动目标检测算法也有很多,如
1.块匹配
2.光流估计
这些方法总得来在不同的环境下说各有各自的特点吧,也不见得简单的算法就一定比复杂的要弱。有一些博客已经对这些方法进行了对比和评估,有兴趣的同学可以参考这些
(摘自http://blog.csdn.net/zouxy09/article/details/9622401)
推荐一个牛逼的库:http://code.google.com/p/bgslibrary/ 里面包含了各种背景减除的方法,可以让自己少做很多力气活。
还有一篇评估的博文http://www.cnblogs.com/xrwang/archive/2010/02/21/ForegroundDetection.html
二、GMM算法简介
不得不提的是其中的GMM算法(可以参考 Adaptive background mixture models for real-time tracking),这种算法在我平时要用到运动检测的时候一般都会直接用,原因有两个,第一,效果确实不错,噪声可以很快消除,第二,opencv包含了GMM算法,可以直接调用,非常省事。
GMM简单讲,将输入图像的像素与背景模型进行对比,和背景模型相似性比较高的点视为背景,和背景模型相似性比较低的点视为前景,再利用形态学的方法进行运动目标提取。混合高斯模型是由K个(基本为3到5个)单高斯模型加权组成的。在获取新的一帧图像之后,如果当前图像中的像素点与该像素的K个模型中的某一个匹配度比较高,则视为背景,并将当前帧的像素作为一个新模型,更新已存在的K个模型。如果匹配度比较低,则为前景点。整个混合高斯模型算法主要是有方差和均值两个参数,对于这两个参数采取不同的学习机制,直接影响该算法的正确性、稳定性和收敛性。代码网上到处都有,例如http://blog.csdn.net/pi9nc/article/details/21717669,需要的同学可以去看看。
三 、ViBe算法
不过,我今天介绍的主角并不是GMM,而是ViBe算法。在网上各处看到ViBe算法是个很牛逼的算法,据说还把GMM给PK下去了,所以我就拜读了原文 ViBe: a powerful random technique to estimate the background in video sequences。
ViBe算法是由Olivier Barnich 和 Marc Van Droogenbroeck在2011年提出的一种背景建模方法。该算法采用邻域像素来创建背景模型,通过比对背景模型和当前输入像素值来检测前景,可以细分为三个步骤:
第一步,初始化单帧图像中每个像素点的背景模型。假设每一个像素和其邻域像素的像素值在空域上有相似的分布。基于这种假设,每一个像素模型都可以用其邻域中的像素来表示。为了保证背景模型符合统计学规律,邻域的范围要足够大。当输入第一帧图像时,即t=0时,像素的背景模型
其中,表示空域上相邻的像素值,表示当前点的像素值。在N次的初始化的过程中,中的像素点被选中的可能次数为L=1,2,3,…,N。
第二步,对后续的图像序列进行前景目标分割操作。当t=k时,像素点的背景模型为,像素值为。按照下面判断该像素值是否为前景。
这里上标r是随机选的;T是预先设置好的阈值。当满足符合背景#N次时,我们认为像素点为背景,否则为前景。
第三步,背景模型更新方法。ViBe算法的更新在时间和空间上都具有随机性。
时间上的随机性。在N个背景模型中随机抽取一个,设为图像,图2-1表示了图像的x位置及其八邻域内的像素。当我们得到新的一帧图像时,如果图像中的x位置对应的像素被判断为背景,则需要被更新。这个抽取的过程体现了时间上的随机性。
空间上的随机性。在的八邻域中随机抽取一个像素,用的来替换掉,这体现了模型更新空间上的随机性。
以上便是更新的过程,即用来更新及其八邻域。采用八邻域更新的方法,可以去除由于获取的视频细微抖动(摄像机抖动、目标微动)而产生的重影和误差,让检测目标更加准确。
在一般情况下,背景并不会发生较大的变化,所以每次背景模型更新的个数UpdateNum应该是相近的。因此我们把第一帧背景更新的次数InitNum作为比较值,符合下面公式则对背景模型进行重新初始化,这样可以避免由于大面积的光照变化导致的误判。
视频中的初始帧可能是包含目标的,常规的背景建模算法往往无法快速消除Ghost区域,这对于前景检测是不利的。Vibe算法更新模型时利用了该像素值的空间传播特性,背景模型逐渐向外扩散,这也有利于Ghost区域的更快的识别并且消除。下面以ViBe算法下的交通视频前景检测为例
如图上图所示为ViBe算法下前景检测的效果,红色矩形框表示了出现的比较显著的Ghost区域。在第10帧之前,Ghost区域残留严重,随着模型的不断更新,Ghost区域不断消失在第40帧以后,Ghost区域已经完全消失了。说明了Vibe算法在前景检测和背景模型更新上的优势。