• 使用HOG特征+BP神经网络进行车标识别



    先挖个坑,快期末考试了,有空填上w

    好了,今晚刚好有点闲,就把坑填上吧。

    //-------------------------------开篇-------------------------------------------

    首先讲一下,这篇随笔不是讲HOG特征是什么,怎么提取(这种图像特征网上一搜一大把),也不是讲BP神经网络工作原理,发展史啥的(机器学习小白,ANN深究我也不懂)。在这里我要讲的是,车标识别怎么code,怎么使用OpenCV自带的BP神经网络训练,以及识别。好了废话不多说,咱们开始吧。

    //------------------------要准备的东西---------------------------------

    正式讲代码前讲一下正式完成本工程需要什么准备工作。

    1、配置Opencv 2.4.6及以上版本的VS 2010+,OpenCV 3可能改动的比较大,对本工程来说不建议。

    2、一个车标库,尽量多一点,本工程共使用900来张车标样本,分为训练集(560张)和测试集(371张)

        (工程迁移到我的Github仓库了)

    //--------------------------正篇-----------------------------------------

    准备好了以上的东西,我们就可以开始了。

    我将结合代码分几步来讲怎么识别图像特征、喂给BP神经网络来识别车标,一步一步扩充代码

    ////第一步  建立工程

            简单讲一下工程预处理吧,本工程就一个main.cpp文件,因此在建好工程后,建一个main.cpp就可以了。然后将我们的车标库test测试集和train训练集放在和整个工程同一目录下。

            为了读取图片方便,我们使用两个txt文件trainpath、和testpath来保存每张图片的路径(路径文件在车标库里有,但是如果要使用这两个文件,就必须把他们放在main.cpp同一个目录下,同时,车标库也必须放在和工程同一目录下)

    这是车标库和工程的存放位置关系

      

    这是图片路径文件和main.cpp的关系

            为main.cpp添加opencv的头文件,因为对OpenCV的结构不是特别熟,因此大家只要把万用的头文件一股脑写出来就行

    1 #include <iostream>
    2 #include <fstream>
    3 #include <opencv.hpp>
    4 #include <highgui.h>
    5 #include <cxcore.h>
    6 #include <cstring>
    7 #include <ml.h>
    8 #include <vector>
    9 #include <iomanip>

         本工程用了以上头文件。

       哦对了,还有两个名字空间,写一下吧

    1 using namespace std;
    2 using namespace cv;

    有些头文件就用了一两个函数啦,比如cstring就用到了个memset()23333,还有些OpenCV 1.x版本的头文件也挺多余的,不过还是都写上吧,免得报错了

    ////第二步    初始化工作

     然后我们就开始带代码的编写工作了,我们按照main.cpp的代码顺序来讲。

    我们先定义代码要用到的全局变量:

    1 //----------------------------全局变量定义---------------------------------
    2     vector<float> descriptors;               //HOG特征存放向量 
    3     float    data[m_NUM][F_NUM];             //样本特征存放数组
    4     float    f[1][F_NUM];                        //测试样本特征存放数组
    5     float    dataCls[m_NUM][CLASSNUM];       //样本所属类别
    6     int      mClass ;                        //训练样本所属类别
    7     int      dNum;                           //训练样本个数

    其中有几个宏要在之前定义一下

    1 #define  F_NUM    1764     //7*7*9*4  车标特征维数
    2 #define  m_NUM    560      //训练样本个数
    3 #define  CLASSNUM 4        //车标种类 

    解释一下两段数据的设置

    首先讲一下特征数目吧,HOG特征其实是一个1×N维的特征矩阵,N的确定由检测窗口大小、块大小、胞元大小决定。每个胞元9个bin。

    本实验检测窗口定为64×64,就是整张图片的大小,块大小16×16,胞元8×8,步进8×8,这样一张图片就有(64/8-1)*(64/8-1)*9*(16*16)/(8*8)=1764维特征

    那么560个样本就有560*1764个特征,就构成了特征矩阵data[560][1764]。

    来看看OpenCV的神经网络训练函数

    1 int CvANN_MLP::train(const Mat& inputs, const Mat& outputs, const Mat& sampleWeights, const Mat& sampleIdx=Mat(), CvANN_MLP_TrainParams params=CvANN_MLP_TrainParams(), int flags=0 );

    这是我们之后要用到的关键函数,OpenCV自带的神经网络训练函数,我们依次来看下参数

    第一个input是一个num×F_NUM的训练数据输入矩阵,num是样本个数,F_NUM是每个样本的特征数目,是不是刚好对应了我们的data矩阵。但是我们看到,data是浮点型数组,inputs是Mat阵,怎么统一呢?其实OpenCV在初始化Mat的时候,就可以使用一般的二维数组进行赋值,只要数据类型匹配,并且维度相等就行了,就像下面一样

    1 Mat trainDate(m_NUM,F_NUM,CV_32FC1,data);

    这里使用一个data的首地址初始化了trainData这个输入阵。

    再来解释下dataCls为什么是560×4的。

    继续看trian()函数的第二个参数,outputs,是一个num×CLASSNUM的数据阵,num是样本个数,CLASSNUM是样本的总类别数。

    当然对于560个数据,每个数据都要有一个类别。CLASSNUM是4,那么这个阵具体是怎么样初始化的呢?

    举个例子,0号样本属于第1类,那么dataCls[0]={1,0,0,0}   也就是说,对应的那一类初始化为1,其余的都是0。

    我们同样使用上述的初始化数据阵的方法将dataCls的内容复制到trainLable中(注意,dataCls和data数组要严格对齐,就是说,x号样本的特征放在data[x]里,所属类别放在dataCls[x]里)

    1 Mat trainLable(m_NUM,CLASSNUM,CV_32FC1,dataCls);

    对于train的其他参数,除了params需要注意下,其他都是默认的。

    ////第三步   读取训练样本,填充数据矩阵data和类别矩阵dataCls

    首先,我们定义了全局变量,要进行初始化工作,那么写完void main()后的第一件事就是调用init()函数,进行初始化工作,init()代码如下

    /**************************************************
    *名称:init()
    *参数:void
    *返回值:void
    *作用:初始化各类参数
    ****************************************************/
    void  init()
    {
        memset(data,0,sizeof(data));           
        memset(dataCls,0,sizeof(dataCls));
         mClass = -1;                //初始类别为-1
           dNum = 0;                //统计样本个数,其实没软用,对于本工程样本个数固定为560
    }

    之后是读入图像和提取HOG特征,并记录样本所属类别和填充数据矩阵,代码如下

        init();
        ifstream in("trainpath.txt");string s,ss;
        while( in >> s){
            if(ss != s.substr(0,19)){
                mClass++;            //类别是0,1,2,3
                cout<<mClass<<endl;
            }
            ss = s.substr(0,19);
             cout<<s<<endl;
    //------------------------读入图像,缩放图像----------------------------
            Mat imge = imread(s),img;  
            if(imge.empty())
            {
                cout<<"image load error!"<<endl;
                system("pause");
                return 0;
            }
            resize(imge,img,Size(64,64)); 
    
    //------------------------提取HOG特征,放入特征数组---------------------
            getHOG(img);
    
            packData(sta);        //填充特征数组和类别数组
    
        }

    稍微解释一下流程。

    先定义一个文件流用于读取训练集路径文件trainpath.txt,这个txt文件保存了所有训练集的文件路径,一行一个,像这样

    ....data	rainCitroenX-雪铁龙_1350198-01_201502010833146800.jpg 
    ....data	rainCitroenX-雪铁龙_1350198-01_201502010841008800.jpg 
    ....data	rainCitroenX-雪铁龙_1350198-01_201502010845367300.jpg 
    

      而且,不同类别的车标放在一起,举个例子,共400行,前100行是雪铁龙,再100行本田,再100行一汽,再100行福田(每个字符串的前17行是一样的,19行肯定不一样)

    这样有个好处,可以方便地统计这个图片路径对应的图片属于哪个种类的车。我们从代码来看这个过程。

    先定义两个字符串ss和s,文件流一行行读入并保存一行到s,取前19行,如果不等于ss,就让mClass+1。

    可以看到,初始mClass=-1.并且第一个字符串肯定不等于ss(因为此时ss为空),那么第一个图片数据就属于类别0,之后保存ss为s的前19位。

    这样,读完整个图片路径,4种车标就可以很清楚地被区分了。

    然后后面这个是读图保护,不管他,

    然后读入图片,使用resize函数将其压缩到64×64,看到没,这就是我们提取HOG时候的检测窗口大小。

    调用getHog(img)获取图像的HOG特征,这个getHog是自定义函数,写在main函数前面就行,代码如下:

     1 /**************************************************
     2 *名称:getHOG()
     3 *参数:Mat& img
     4 *返回值:void
     5 *作用:获取图像的HOG特征
     6 ****************************************************/
     7 void getHOG(Mat& img)
     8 {
     9     HOGDescriptor *hog = new HOGDescriptor(             
    10             Size(64,64),      //win_size  检测窗口大小,这里即完整的图
    11             Size(16,16),      //block_size  块大小
    12             Size(8,8),        //blackStride 步进
    13             Size(8,8),        //cell_size  细胞块大小
    14             9                   //9个bin
    15             );
    16     hog -> compute(           //提取HOG特征向量
    17         img, 
    18         descriptors,          //存放特征向量
    19         Size(64,64),            //滑动步进
    20         Size(0,0)
    21         );    
    22     delete hog;
    23     hog = NULL;
    24 }

    这里其实就调用了几个openCV自带的函数,对传进来的图片进行特征提取而已。有一点要注意,compute函数的第二个参数

    descriptors是全局变量,记不起来的可以去前面的全局变量定义的地方找找,它就是用来保存提取到的HOG特征。

    刚才我们也计算过了,一张图1764个特征,也就是一次提取,descriptors就放一次1×1764的数据。

    那么提取到一张图的特征后,我们要把他放到data里,那么就是packData了,同样,packData是一个全局函数

    void packData()
    {
            int p = 0;
            for (vector<float>::iterator it = descriptors.begin(); it != descriptors.end(); it++)
            {
                data[dNum][p++] = *it;
            }
            dataCls[dNum++][mClass] = 1.0;
    }

    前一半的for循环用来从descriptors中的向量填到data矩阵中,后一个语句就是更新它对应的类别矩阵。

    循环执行完,我们的数据也填充完毕了,接下来就是建立网络训练了。

    ////第四步   建立神经网络  训练参数矩阵

    先上这部分代码

     1 //------------------------建BP神经网络,开始训练------------------------
     2     CvANN_MLP bp;
     3 
     4     CvANN_MLP_TrainParams params;
     5     params.term_crit=cvTermCriteria(CV_TERMCRIT_ITER+CV_TERMCRIT_EPS,7000,0.001);  //迭代次数7000,最小误差0.001
     6     params.train_method=CvANN_MLP_TrainParams::BACKPROP;   //训练方法反向传播
     7     params.bp_moment_scale=0.1;
     8     params.bp_dw_scale=0.1;
     9    
    10 
    11     Mat layerSizes = (Mat_<int>(1,3) << F_NUM,48,4 );  //3层神经网络
    12     Mat trainDate(m_NUM,F_NUM,CV_32FC1,data);
    13     Mat trainLable(m_NUM,CLASSNUM,CV_32FC1,dataCls);
    14     bp.create(layerSizes, CvANN_MLP::SIGMOID_SYM);          //激活函数sigmoid
    15     system("cls");
    16     cout<<"训练中...训练时间大致需要6分钟,请耐心等待";
    17     bp.train(trainDate,trainLable, Mat(),Mat(), params);  //开始训练
    18     
    19     system("cls");
    20     cout << "训练完成!!" <<endl;

    CvANN_MLP是openCV自带的人工神经网络类,可以直接用,很方便吧。

    我们先定义了一个CvANN_MLP类,然后看第二块,第二块就是神经网络的一些参数的设定,具体注释都有,就不讲了

    第三块:第11行,定义神经网络层数为3层,第一层:F_NUM个神经元,还记得F_NUM吗?全局变量,就是特征数1764!

          总之神经网络就是1764,48,4共3层,每次节点数就是这么几个。

    12-13行,看见没,这就是把我们填充完的数据数组和类别数组赋值给Mat阵,之后就能调用create函数啦,创建一个网络,使用SIGMOID函数什么的。

    然后是训练,train()之前也说过。SO EASY!

    等待6分钟左右,训练就结束了,之后就是测试了

    ////第五步   测试神经网络  

    老规矩,上代码再说

     1 //---------------------------------读入图像,开始测试--------------------------
     2     system("cls");
     3     cout<<"开始测试..."<<endl;
     4     system("cls");
     5     Mat imge,img;
     6 
     7     ifstream ins("testpath.txt");
     8 
     9     int cls = -1;
    10     int num=0,c_num=0;
    11     while( ins >> s){
    12         memset(f,0,sizeof(f));
    13         if(ss != s.substr(0,19)){
    14             cls++;
    15             cout<<cls<<endl;
    16         }
    17         cout<<s<<endl;
    18         ss = s.substr(0,19);
    19         imge = imread(s);
    20         resize(imge,img,Size(64,64));         //使用线性插值
    21         num++;
    22         if (classifier(img,bp) == cls)
    23         {
    24             c_num++;
    25         }
    26     
    27     }
    28     system("cls");
    29     cout<<"测试完成"<<endl;
    30     cout<<"***************************************"<<endl;
    31     cout<<"*样本个数:"<<num<<endl;
    32     cout<<"*正确个数:"<<c_num<<endl;
    33     cout<<"*正确率:"<<setprecision(4)<<(float)c_num/num*100<<"%"<<endl;
    34     cout<<"***************************************"<<endl;
    35     system("pause");

    测试就不说太多了了,无非读一下测试路径集,匹配一下,唯一要讲的就是那个第22行的classiffier函数,这个也是个全局函数,上代码吧2333

    /**************************************************
    *名称:classifier()
    *参数:Mat&  CvANN_MLP&
    *返回值:int
    *作用:求解测试结果最相邻类别
    ****************************************************/
    int classifier(Mat& image,CvANN_MLP& bp)
    {
        
    
        getHOG(image);
        int p = 0;
    for (vector<float>::iterator it = descriptors.begin(); it != descriptors.end(); it++)
     {
             f[0][p++] = *it;
    }
    Mat nearest(1, CLASSNUM, CV_32FC1, Scalar(0)); Mat charFeature(1, F_NUM, CV_32FC1,f); bp.predict(charFeature, nearest); Point maxLoc; minMaxLoc(nearest, NULL, NULL, NULL, &maxLoc); int result = maxLoc.x; return result; }

    这个函数返回神经网络预测测试图片最可能的所属类别。之后就是统计正确个数了。

    //--------------------------结语-----------------------------------------

    代码全写在一个cpp里了2333,为了方便讲解,也方便自己学习嘛,不知道你有没有看明白我讲的呢ww。

    可能以上讲解也有疏漏,如果建完工程还是有问题的话,就直接下载下面的工程对照着这个讲解再看一遍吧Orz(注意,运行前保证环境搭好,而且文件路径不要更改)

    (附完整工程下载地址:https://github.com/Holy-Shine/carLogoRec)  

    有兴趣的小伙伴star一下仓库吧嘻嘻。

     
  • 相关阅读:
    微软开源Counterfit,用于AI系统安全测试的自动化工具
    吴恩达教你如何读论文:绘制进度表格,论文至少看三遍,还要问自己问题
    前帝国理工金融数学PhD易聪先生的书单
    以机器学习的视角来看时序点过程的最新进展
    文献阅读第一利器:文献笔记法(Literature Notes)
    死磕论文前,不如先找齐一套好用的工具
    后悔没早点认识论文工具大盘点!
    写论文、搞科研、读大学必备的28款软件。
    2-1-HC32F460(华大)+BC260Y(NB-IOT)基本控制篇(自建物联网平台)-基础外设例程-工程模板使用说明
    1-HC32F460(华大)+BC260Y(NB-IOT)基本控制篇(自建物联网平台)--硬件使用说明
  • 原文地址:https://www.cnblogs.com/HolyShine/p/5605220.html
Copyright © 2020-2023  润新知