• 理解支持向量机(四)LibSVM工具包的使用


    LibSVM是一款简单易用的支持向量机工具包。包括了C和Java的开发源代码。大家能够訪问其官网进行了解和下载相关文件。
    这里以其官网的第一个数据集a1a 为例。练习使用多项式核和径向基核来对数据集进行分类。

    1、准备工作
    因为从官网下的最新的2015.12月公布的libsvm-3.21版本号中已生成的exe文件不支持Windows32位系统,所以使用的之前的一版libsvm-3.20

    将其下下来打开,里面包括了下面文件:
    这里写图片描写叙述
    当中data里面放的是LibSVM分享的数据集a1a;
    gnuplot是一个图像绘画工具,能够将数据可视化。

    直接点击进行安装。路径能够自己选择,本例中安装路径为F:Program Filesgnuplot。

    libsvm-3.20是一个已开发好的集成工具包,我们拿来直接用。

    将libsvm-3.20压缩包解压。路径能够自己选择。本例中解压路径为F:Program Fileslibsvm-3.20。
    打开tools目录,然后分别打开easy.py和grid.py,将easy.py中出如今else语句中的gnuplot_exe和 grid.py中self.gnuplot_pathname改动为gnuplot.exe所在路径。例如以下:

    这里写图片描写叙述

    这里写图片描写叙述

    如今还差一个工具,就是python。

    没有安装python的能够从python官网 下载安装。

    路径能够自己选择,本例中安装路径为F:Program FilesPython。
    以上几步完毕后,准备工作就结束了。

    2、LibSVM的使用
    0. 假设数据集较小的话,能够直接在libsvm-3.20中的tools 目录下使用命令:python easy.py training_file [testing_file]。否则处理过程例如以下:
    1. 使用网格搜索grid.py训练出最优參数惩处因子C和參数g,g也就是核函数公式中的γ。 过程例如以下:
    首先将data中的两个数据集文件拷贝到刚解压的libsvm-3.20中的tools 目录下,然后打开cmd命令行,通过cd进入到tools目录下。输入例如以下命令。如图:
    这里写图片描写叙述
    按回车后,程序開始运行,运行结束后,会出现例如以下结果:
    这里写图片描写叙述
    最后一行三个数字分别表示,寻找到的最优參数C=2.0,g=0.0078125,准确率=82.9907。
    同一时候会在tools目录下生成一个gnuplot画出结果图片,例如以下:
    这里写图片描写叙述
    能够看到。gnuplot是对数据的可视化表示。

    2 训练模型
    在获得最优參数后。我们就能够对训练数据集进行训练。来获得训练模型,过程例如以下:
    首先从cmd命令行中进入libsvm-3.20中的windows目录。能够看到目录中有svm-toy.exe、svm-scale.exe、svm-train.exe、svm-predict.exe四个可运行文件。当中:
    svm-toy.exe是一个可视化应用程序,显示了对平面中数据点的分类。

    有change、run、clear、save、load及參数设置框,默认最大分类数为3,大家能够点点看,效果例如以下:

    这里写图片描写叙述

    svm-scale.exe是对输入的数据特征进行归一化缩放,从而避免某些过大或过小特征值对分类效果的影响。

    使用方式例如以下:
    svm-scale [options] data_filename,当中options列表有下面几种:
    -l lower : x缩放最小值。默觉得-1
    -u upper : x缩放最大值,默觉得1
    -y y_lower y_upper : y scaling limits (default: no y scaling)
    -s save_filename : save scaling parameters to save_filename
    -r restore_filename : restore scaling parameters from restore_filename

    svm-train.exe对训练集训练,产生训练模型。

    使用方式例如以下:
    svm-train [options] training_set_file [model_file],当中经常使用options列表有下面几种:
    -s svm_type : SVM类型 (默认0)
    0 – C-SVC (多类分类器)
    1 – nu-SVC (多类分类器)
    2 – one-class SVM
    3 – epsilon-SVR (回归)
    4 – nu-SVR (回归)
    -t kernel_type : 核函数类型 (默认 2)
    0 – 线性核:μν
    1 – 多项式核:(γμν+coef0)degree
    2 – 径向基核:exp(γ||μν||2)
    3 – sigmoid核:tanh(γμν+coef0)
    4 – precomputed kernel (kernel values in training_set_file)
    -d degree : 多项式核最高项次数 (default 3)
    -g gamma : 核函数中γ 值(默认1N。N为特征数目)
    -r coef0 : 多项式核与sigmoid核中的參数(default 0)
    -c cost : 设置C-SVC, e -SVR和v-SVR的损失函数(default 1)

    svm-predict.exe利用測试集和生成的训练模型而得到预測模型,使用方式例如以下:
    svm-predict [options] test_file model_file output_file。当中options列表有:
    -b probability_estimates: 是否预測概率预计。用0或1表示(默认0);对于for one-class SVM ,仅仅有0可选。

    介绍完这几个可运行文件后,下面我们就要用它们来训练和预測模型。
    1.对于a1a数据集,特征值为0或者1。故不须要使用svm-scale.exe来缩放数据,若有数据集的特征值差异较大,应首先使用svm-scale.exe进行数据缩放。

    2.命令行进入windows目录。输入命令:svm-train.exe -c 2.0 -g 0.0078125 ../tools/adultTrain.txt ../tools/adultTrain.model,生成训练模型文件adultTrain.model,演演示样例如以下:
    这里写图片描写叙述
    当中,iter表示迭代计算次数。
    nu即核函数中的ν參数;
    obj为二次规划求解的最小值;
    rho为偏置b;
    nSV为标准支持向量个数,即满足0<αi< C的个数。
    nBSV为边界上的支持向量个数。即满足αi= C的个数;
    Total nSV为支持向量总个数。

    3.输入命令:svm-predict.exe ../tools/adultTest.t ../tools/adultTrain.model ../tools/audltPredict.model,利用測试集和训练模型文件获得预測模型文件,并得到模型在測试集上的分类准确率,颜色例如以下:
    这里写图片描写叙述

    4.作为对照。同一时候训练了多项式核函数(參数最优)和径向基核函数(未參数最优)。结果分别例如以下:
    这里写图片描写叙述

    这里写图片描写叙述

    三者比較可知,选择了參数最优的径向基核在该数据集上的分类效果最好,准确率为84.0225。

  • 相关阅读:
    SpringBoot之集成Socket
    SpringBoot之集成WebSocket
    SpringBoot之统一异常处理
    请求的转发和重定向
    5+App使用定位
    将Tomcat注册为Windows服务
    Tomcat环境变量设置
    CentOS7搭建Gitlab详细过程
    Python 12 内置函数
    Python 11 生成器
  • 原文地址:https://www.cnblogs.com/mfmdaoyou/p/7258707.html
Copyright © 2020-2023  润新知