原地址:http://www.cnblogs.com/zengqs/archive/2009/02/12/1389208.html
OpenCV训练分类器 OpenCV训练分类器 一、简介 目标检测方法最初由Paul Viola [Viola01]提出,并由Rainer Lienhart [Lienhart02]对这一方法进行了改善。该方法的基本步骤为: 首先,利用样本(大约几百幅样本图片)的 harr 特征进行分类器训练,得到一个级联的boosted分类器。 分类器中的"级联"是指最终的分类器是由几个简单分类器级联组成。在图像检测中,被检窗口依次通过每一级分类器, 这样在前面几层的检测中大部分的候选区域就被排除了,全部通过每一级分类器检测的区域即为目标区域。 分类器训练完以后,就可以应用于输入图像中的感兴趣区域(与训练样本相同的尺寸)的检测。检测到目标区域(汽车或人脸)分类器输出为1,否则输出为0。为了检测整副图像,可以在图像中移动搜索窗口,检测每一个位置来确定可能的目标。为了搜索不同大小的目标物体,分类器被设计为可以进行尺寸改变,这样比改变待检图像的尺寸大小更为有效。所以,为了在图像中检测未知大小的目标物体,扫描程序通常需要用不同比例大小的搜索窗口对图片进行几次扫描。 目前支持这种分类器的boosting技术有四种: Discrete Adaboost, Real Adaboost, Gentle Adaboost and Logitboost。 "boosted" 即指级联分类器的每一层都可以从中选取一个boosting算法(权重投票),并利用基础分类器的自我训练得到。 根据上面的分析,目标检测分为三个步骤: 1、 样本的创建 2、 训练分类器 3、 利用训练好的分类器进行目标检测。 二、样本创建 训练样本分为正例样本和反例样本,其中正例样本是指待检目标样本(例如人脸或汽车等),反例样本指其它任意图片,所有的样本图片都被归一化为同样的尺寸大小(例如,20x20)。 负样本 负样本可以来自于任意的图片,但这些图片不能包含目标特征。负样本由背景描述文件来描述。背景描述文件是一个文本文件,每一行包含了一个负样本图片的文件名(基于描述文件的相对路径)。该文件必须手工创建。 e.g: 负样本描述文件的一个例子: 假定目录结构如下: /img img1.jpg img2.jpg bg.txt 则背景描述文件bg.txt的内容为: img/img1.jpg img/img2.jpg 正样本 正样本由程序craatesample程序来创建。该程序的源代码由OpenCV给出,并且在bin目录下包含了这个可执行的程序。 正样本可以由单个的目标图片或者一系列的事先标记好的图片来创建。 Createsamples程序的命令行参数: 命令行参数: -vec <vec_file_name> 训练好的正样本的输出文件名。 -img<image_file_name> 源目标图片(例如:一个公司图标) -bg<background_file_name> 背景描述文件。 -num<number_of_samples> 要产生的正样本的数量,和正样本图片数目相同。 -bgcolor<background_color> 背景色(假定当前图片为灰度图)。背景色制定了透明色。对于压缩图片,颜色方差量由bgthresh参数来指定。则在bgcolor-bgthresh和bgcolor+bgthresh中间的像素被认为是透明的。 -bgthresh<background_color_threshold> -inv 如果指定,颜色会反色 -randinv 如果指定,颜色会任意反色 -maxidev<max_intensity_deviation> 背景色最大的偏离度。 -maxangel<max_x_rotation_angle> -maxangle<max_y_rotation_angle>, -maxzangle<max_x_rotation_angle> 最大旋转角度,以弧度为单位。 -show 如果指定,每个样本会被显示出来,按下"esc"会关闭这一开关,即不显示样本图片,而创建过程继续。这是个有用的debug选项。 -w<sample_width> 输出样本的宽度(以像素为单位) -h《sample_height》 输出样本的高度,以像素为单位。 注:正样本也可以从一个预先标记好的图像集合中获取。这个集合由一个文本文件来描述,类似于背景描述文件。每一个文本行对应一个图片。每行的第一个元素是图片文件名,第二个元素是对象实体的个数。后面紧跟着的是与之匹配的矩形框(x, y, 宽度,高度)。 下面是一个创建样本的例子: 假定我们要进行人脸的检测,有5个正样本图片文件img1.bmp,…img5.bmp;有2个背景图片文件:bg1.bmp,bg2.bmp,文件目录结构如下: positive img1.bmp …… Img5.bmp negative bg1.bmp bg2.bmp info.dat bg.txt 正样本描述文件info.dat的内容如下: Positive/imag1.bmp 1 0 0 24 28 …… Positive/imag5.bmp 1 0 0 24 28 图片img1.bmp包含了单个目标对象实体,矩形为(0,0,24,28)。 注意:要从图片集中创建正样本,要用-info参数而不是用-img参数。 -info <collect_file_name> 标记特征的图片集合的描述文件。 背景(负样本)描述文件的内容如下: nagative/bg1.bmp nagative/bg2.bmp 我们用一个批处理文件run.bat来进行正样本的创建:该文件的内容如下: cd e:facein CreateSamples -vec e:facea.vec -info e:faceinfo.dat -bg e:faceg.txt -num 5 -show -w 24 -h 28 其中e:facein目录包含了createsamples可执行程序,生成的正样本文件a.vec在e:face目录下。 三、训练分类器 样本创建之后,接下来要训练分类器,这个过程是由haartraining程序来实现的。该程序源码由OpenCV自带,且可执行程序在OpenCV安装目录的bin目录下。 Haartraining的命令行参数如下: -data<dir_name> 存放训练好的分类器的路径名。 -vec<vec_file_name> 正样本文件名(由trainingssamples程序或者由其他的方法创建的) -bg<background_file_name> 背景描述文件。 -npos<number_of_positive_samples>, -nneg<number_of_negative_samples> 用来训练每一个分类器阶段的正/负样本。合理的值是:nPos = 7000;nNeg = 3000 -nstages<number_of_stages> 训练的阶段数。 -nsplits<number_of_splits> 决定用于阶段分类器的弱分类器。如果1,则一个简单的stump classifier被使用。如果是2或者更多,则带有number_of_splits个内部节点的CART分类器被使用。 -mem<memory_in_MB> 预先计算的以MB为单位的可用内存。内存越大则训练的速度越快。 -sym(default) -nonsym 指定训练的目标对象是否垂直对称。垂直对称提高目标的训练速度。例如,正面部是垂直对称的。 -minhitrate《min_hit_rate》 每个阶段分类器需要的最小的命中率。总的命中率为min_hit_rate的number_of_stages次方。 -maxfalsealarm<max_false_alarm_rate> 没有阶段分类器的最大错误报警率。总的错误警告率为max_false_alarm_rate的number_of_stages次方。 -weighttrimming<weight_trimming> 指定是否使用权修正和使用多大的权修正。一个基本的选择是0.9 -eqw -mode<basic(default)|core|all> 选择用来训练的haar特征集的种类。basic仅仅使用垂直特征。all使用垂直和45度角旋转特征。 -w《sample_width》 -h《sample_height》 训练样本的尺寸,(以像素为单位)。必须和训练样本创建的尺寸相同。 一个训练分类器的例子: 同上例,分类器训练的过程用一个批处理文件run2.bat来完成: cd e:facein haartraining -data e:facedata -vec e:facea.vec -bg e:faceg.txt -npos 5 -nneg 2 -w 24 -h 28 训练结束后,会在目录data下生成一些子目录,即为训练好的分类器。 注:OpenCv 的某些版本可以将这些目录中的分类器直接转换成xml文件。但在实际的操作中,haartraining程序却好像永远不会停止,而且没有生成xml文件,后来在OpenCV的yahoo论坛上找到一个haarconv的程序,才将分类器转换为xml文件,其中的原因尚待研究。
原地址:http://www.cnblogs.com/tornadomeet/archive/2012/03/27/2420088.html
总所周知,机器学习前要训练很多数据,一直感觉训练数据是个很神圣的东西,到底怎么训练呢?头脑一直有这么个疑问,但一直没时间去体验。因此最近在学adaboost算法,就要学会怎样训练出一个.xml文件了。方法是相同的,用过一次,以后的训练过程就差不多了。 只是打算进行简单的人脸数据训练,而是在网上下载了yale大学的人脸数据库,由耶鲁大学计算视觉与控制中心创建,包含15位志愿者的165张图片,包含光照,表情和姿态。下载网址为: http://cvc.yale.edu/projects/yalefaces/yalefaces.html。图片如下所示: (右下角是我的系统透明主题的青花瓷照片,别惊讶怎么出来的哈…) Yale大学人脸数据都是bmp格式的,80*80像素大小。由于这次的haartraining只是为了学会其过程,再加上这个算法训练的时间非常长,图片不到1000就需要的时间都是以天为单位。所以为了减少训练时间,我们一方面得减少图片的数量,这里我打算用133张正样本图,另外22个张用来做测试,另一方面打算减小图片的尺寸,将80*80的图片统一到尺寸24*24像素大小。 (这里插2个小知识:1. 理解图片尺寸的概念。比如说图片的尺寸为80*80代表的是图片的大小为80*80,并不是指分辨率,而是说的是80*80像素,即宽度为80个像素,长度也为80个像素。因为一个像素宽在一个显示器件上已经确定了。因此当一副图片被放大时,它的尺寸像素就可能改变,比如变成了100*100像素,因为放大的时候它的长和宽变了。但是其分辨率在放大时并没有变化。另外像素和长度cm的对应关系也得看图形的分辨率,比如通常所说的说1cm=28像素是指在72像素/平方英寸的时候。所以一般所说的数码相机的像素过高的话其实对显示器显示图片清晰度没有太大帮助,像素高只是可以打印出来更大更清晰的照片。 2. 在window下如果一副图片,比如说是bmp格式的。我只需把后缀名改为其他的比如jpg。然后右键查看其属性时竟然是jpg格式,并且也能打开,难道真的就是jpg格式的吗?肯定不是,比较bmp和改后的jpg就会发现两者的大小是一样的。最后用matlab命令的imfinfo来查看图片的信息,也还是bmp格式的。说明上面单独改后缀名是一种误导,以后做图像处理的时候一定要小心。) 接下来所要进行的操作就是把这165张图片的尺寸缩小到24*24像素了,当然这里有一个笨方法,就是用图片查看软件(比如说ACDsee)一张一张转换。不过要是图片成千上万那就麻烦了。也不懂有什么批处理的工具没有,有的话大家也可以提出来共享。 所以打算自己写一个小程序来完成这些批处理工作,图片的缩放就用opencv中现有的函数了。写这个小程序的主要目的是练习对文件名的操作,因为以前一直对这些东西没概念,今天练习了下,收获还是有的。 刚刚在上图可以看出,人脸数据库的命名比如1_s1.bmp表示的是第一个人的第一张人脸图。最后调整后的名字改为1_s1n.bmp。 首先在工程文件目录下,建立yale和yale_small_size文件夹,并把165张人脸数据图片拷贝到yale文件夹中。最后通过程序生成的小尺寸图全部放在yale_small_size文件夹中。如下所示: 其程序代码如下: 1 // change_img_size.cpp : 定义控制台应用程序的入口点。 2 // 3 #include "stdafx.h"//这句头文件一定要放在最上面,否则很容易报错 4 5 #include "opencv2/imgproc/imgproc.hpp" 6 #include "opencv2/highgui/highgui.hpp" 7 8 #include <iostream> 9 #include <stdio.h> 10 11 using namespace cv; 12 using namespace std; 13 14 #define DST_IMG_WIDTH 24 //需要调整图片后的尺寸宽度 15 #define SRC_IMG_HEIGH 24 //需要调整图片后的尺寸高度 16 17 int main(int argc, char* argv[]) 18 { 19 Mat src_img; 20 int i,j; 21 string src_img_name="yale/",dst_img_name="yale_small_size/";//源文件和目的文件的文件夹名字 22 char chari[5],charj[5];//因为人脸数据不是很多,所以下标5足够用 23 for(i=1;i<=15;i++)//15个人的人脸数据 24 { 25 for(j=1;j<=11;j++)//每个人的人脸有11种不同的表情 26 { 27 itoa(i,chari,10);//将变量转换成字符型,此处的chari是字符数组首地址,但是如果定义为char *chari="";则会出现错误,why? 28 itoa(j,charj,10); 29 30 src_img_name+=chari;//原图命名格式为,比如第5个人的第6张图,5_s6.bmp 31 src_img_name+="_s"; 32 src_img_name+=charj; 33 src_img_name+=".bmp"; 34 35 src_img=imread(src_img_name,1); 36 Mat dst_img_rsize(DST_IMG_WIDTH,SRC_IMG_HEIGH,src_img.type()); 37 resize(src_img,dst_img_rsize,dst_img_rsize.size(),0,0,INTER_LINEAR); 38 39 dst_img_name+=chari;//转换后图的命名格式为:例上,5_s6n.bmp 40 dst_img_name+="_s"; 41 dst_img_name+=charj; 42 dst_img_name+="n.bmp"; 43 44 imwrite(dst_img_name,dst_img_rsize); 45 src_img_name="yale/",dst_img_name="yale_small_size/";//每次循环后要重新清0字符数组内的内容,目的文件夹一定要事先建立,否则无效果 46 47 } 48 } 49 return 0; 50 } 最后生成的归一化后的图片截图如下所示(yale_small_size文件夹内): 好吧,很简单的工作已经完成了,没什么含量。以后有时间打算写个界面出来,可以批处理的调整图片到指定的像素大小,为以后搞视觉的图片前期处理带来便利。 作者:tornadomeet 出处:http://www.cnblogs.com/tornadomeet 欢迎转载或分享,但请务必声明文章出处。 (新浪微博:tornadomeet,欢迎交流!)
1.准备正负样本: 在上一讲http://www.cnblogs.com/tornadomeet/archive/2012/03/27/2420088.html 中,我们已经收集到了训练所用的正样本。下面就开始收集负样本了,负样本要求是:不能包含人脸,且图片大小也不需要归一化到正样本尺寸,只需比正样本尺寸大或者相等即可。建议负样本用灰度图,加快训练速度,且负样本一定不能重复,要增大负样本的差异性。 这里我采用的负样本是用的是weizmann团队http://www.wisdom.weizmann.ac.il/~vision/Seg_Evaluation_DB/dl.html 网站上的图像分割数据库,里面有灰色图和彩色图,这里当然选取灰度图了。 总共用了200幅图片,大小大约在300*200像素,截图如下所示: 可以看出这些200多张图片基本都没有人脸,所以说应该是可以的。 正负样本的图片准备好了,下面就开始制作正负样本的描述文件了。 首先建立好文件夹,把图片拷贝好,如下所示: Pos_image中放入的是正样本,neg_image放入的是负样本,test_image放入的是测试样本。并将后面要用到的2个工具.exe文件也拷贝过来(在opencv的安装目录C:Program Filesopencv2.3.1uildcommonx86下)。 2.生成正负样本描述文件: 建立正样本的描述文件: 打开cmd窗口,进入上图所在pos_img文件夹内,可以看到此文件夹图片显示如下: 使用命令dir /b >pos_image.txt。如图所示 且用editplus打开该文件,删除最后一行,最后将名字归一化如下所示: 其中的pos_image/是相对路径名,后面紧接着的是文件名,1代表一个文件,0 0 24 24表示这个文件的2个顶点位置坐标。保存退出即ok! 负样本的描述文件类似,只是不需要考虑其大小位置。 也是进入neg_imgae后在cmd内使用命令dir /b >neg_image.txt,如图所示: 同样删除最后一行文字,且将文件相对路径加入如下所示: 至此,训练数据准备完备了。 3.创建vec文件: 在创建vec文件时,需要把pos_image.txt和neg_image.txt两个样本描述文件剪切到上一目录,如图所示: 然后利用opencv_createsamples.exe应用程序在该目录下使用如下cmd命令: 其中的-vec是指定后面输出vec文件的文件名,-info指定正样本描述文件,-bg指定负样本描述文件,-w和-h分别指正样本的宽和高,-num表示正样本的个数。执行完该命令后就会在当前目录下生产一个pos.vec文件了。 4.使用opencv_haartraining.exe文件进行训练 首先在当前目录下新建一个xml文件夹用于存放生成的.xml文件。 在当前目录使用cmd命令: Opcnv_haartraining.exe –data xml –vec pos.vec –bg neg_image.txt –nsplits 1 –sym –w 24 –h 24 –mode all –mem 1280 截图如下: 其中-data为输出xml中间文件的位置,-sym表示训练的目标为垂直对称,-nsplits 1表示使用简单的stump classfier分类。-mem 1280 表示允许使用计算机的1280M内存,-mode all 表示使用haar特征集的种类既有垂直的,又有45度角旋转的。 因为数据量不是很多,不到半个钟头就训练好了。在当前目录下生产了一个xml.xml文件,将其重名名为face_test.xml。 5.实验结果: 利用上面训练出来的face_test.xml文件来检测下人脸,首先来一张比较正面的人脸图,用奥巴马的,检测结果如下: 为了看看是否不是特别正的,且有背景干扰的结果,用了lena的图,检测结果如下: 上面说明其效果还是不错的。其测试源码和前面的博客http://www.cnblogs.com/tornadomeet/archive/2012/03/22/2411318.html的代码类似,删减了人眼检测的代码而已,源码如下: 1 // face_detect.cpp : 定义控制台应用程序的入口点。 2 // 3 #include "stdafx.h" 4 5 #include "opencv2/objdetect/objdetect.hpp" 6 #include "opencv2/highgui/highgui.hpp" 7 #include "opencv2/imgproc/imgproc.hpp" 8 #include "opencv2/ml/ml.hpp" 9 10 #include <iostream> 11 #include <stdio.h> 12 13 using namespace std; 14 using namespace cv; 15 16 void detectAndDraw( Mat& img, 17 CascadeClassifier& cascade, 18 double scale); 19 20 String cascadeName = "./face_test.xml";//人脸的训练数据 21 22 int main( int argc, const char** argv ) 23 { 24 Mat image; 25 CascadeClassifier cascade, nestedCascade;//创建级联分类器对象 26 double scale = 1.3; 27 // image = imread("obama_gray.bmp",1); 28 image = imread("lena_gray.jpg",1); 29 namedWindow( "result", 1 );//opencv2.0以后用namedWindow函数会自动销毁窗口 30 31 if( !cascade.load( cascadeName ) )//从指定的文件目录中加载级联分类器 32 { 33 cerr << "ERROR: Could not load classifier cascade" << endl; 34 return 0; 35 } 36 37 if( !image.empty() )//读取图片数据不能为空 38 { 39 detectAndDraw( image, cascade, scale ); 40 waitKey(0); 41 } 42 43 return 0; 44 } 45 46 void detectAndDraw( Mat& img, 47 CascadeClassifier& cascade, 48 double scale) 49 { 50 int i = 0; 51 double t = 0; 52 vector<Rect> faces; 53 const static Scalar colors[] = { CV_RGB(0,0,255), 54 CV_RGB(0,128,255), 55 CV_RGB(0,255,255), 56 CV_RGB(0,255,0), 57 CV_RGB(255,128,0), 58 CV_RGB(255,255,0), 59 CV_RGB(255,0,0), 60 CV_RGB(255,0,255)} ;//用不同的颜色表示不同的人脸 61 62 Mat gray, smallImg( cvRound (img.rows/scale), cvRound(img.cols/scale), CV_8UC1 );//将图片缩小,加快检测速度 63 64 cvtColor( img, gray, CV_BGR2GRAY );//因为用的是类haar特征,所以都是基于灰度图像的,这里要转换成灰度图像 65 resize( gray, smallImg, smallImg.size(), 0, 0, INTER_LINEAR );//将尺寸缩小到1/scale,用线性插值 66 equalizeHist( smallImg, smallImg );//直方图均衡 67 68 t = (double)cvGetTickCount();//用来计算算法执行时间 69 70 //检测人脸 71 //detectMultiScale函数中smallImg表示的是要检测的输入图像为smallImg,faces表示检测到的人脸目标序列,1.1表示 72 //每次图像尺寸减小的比例为1.1,2表示每一个候选矩形需要记录2个邻居,CV_HAAR_SCALE_IMAGE表示使用haar特征,Size(30, 30) 73 //为目标的最小最大尺寸 74 cascade.detectMultiScale( smallImg, faces, 75 1.1, 2, 0 76 //|CV_HAAR_FIND_BIGGEST_OBJECT 77 //|CV_HAAR_DO_ROUGH_SEARCH 78 |CV_HAAR_SCALE_IMAGE 79 , 80 Size(30, 30) ); 81 82 t = (double)cvGetTickCount() - t;//相减为算法执行的时间 83 printf( "detection time = %g ms ", t/((double)cvGetTickFrequency()*1000.) ); 84 for( vector<Rect>::const_iterator r = faces.begin(); r != faces.end(); r++, i++ ) 85 { 86 Mat smallImgROI; 87 vector<Rect> nestedObjects; 88 Point center; 89 Scalar color = colors[i%8]; 90 int radius; 91 center.x = cvRound((r->x + r->width*0.5)*scale);//还原成原来的大小 92 center.y = cvRound((r->y + r->height*0.5)*scale); 93 radius = cvRound((r->width + r->height)*0.25*scale); 94 circle( img, center, radius, color, 3, 8, 0 ); 95 smallImgROI = smallImg(*r); 96 } 97 cv::imshow( "result", img ); 98 } 6.参考文献: 1. http://hi.baidu.com/zdd007007/blog/item/b2e7f026eec9e23f8644f959.html 的博客。 2. http://blog.csdn.net/guxj821/article/details/6341239 网友周明才的博客。