支持向量机（SVM）算法分析——周志华的西瓜书学习

支持向量机（SVM）算法分析——周志华的西瓜书学习

1.线性可分

对于一个数据集：

$egin{array}{l} D = { ({x_1},{y_1}),...,({x_m},{y_m})} \ {x_i} in X subseteq {R^d},{y_i} in { m{Y = { - }}1,1{ m{} }} end{array}$

如果存在一个超平面X能够将D中的正负样本精确地划分到S的两侧，超平面如下：

那么数据集D就是线性可分的，否则，不可分。

w称为法向量，决定了超平面的方向；b为位移量，决定了超平面与原点的距离。

样本空间中的任意点x到超平面X的距离（不太熟悉的可以复习高数中空间几何那一章的内容）可以写为：

使得下面两式成立的训练样本 ${x_i}$ 称为支持向量：

两个异类支持向量（一个等于+1，一个等于-1）到超平面的距离之和为:

它称之为“间隔”

想找到最大间隔的划分超平面，就是使 $gamma$ 最大：

等价于：

这就是支持向量机的基本模型。

对偶问题：

上式的拉格朗日函数可写为：

其中， ${alpha _i} ge 0$

对参数w和b求导可得：

将上式带入到拉格朗日函数中，消去w和b,得到对偶表达式：

采用SMO算法完成对偶问题的求解：

原始论文地址：http://www-ai.cs.uni-dortmund.de/LEHRE/SEMINARE/SS09/AKTARBEITENDESDM/FOLIEN/Joerg_Nitschke_Sequential_minimal_optimization.pdf

核函数：

对于非线性可分的训练样本通过核函数将原始空间映射到更高维的特征空间来使得样本线性可分。

令 $phi (x)$ 表示x映射后的特征向量，那么新的模型可以表示为：

可以得出：

对偶问题表示为：

这里涉及到 $phi {({x_i})^T}phi ({x_j})$ ，这是样本 ${x_i}$ 和 ${x_j}$ 映射到高维特征空间后的內积，我们不直接计算 $phi {({x_i})^T}phi ({x_j})$ ，设计一个函数：

重写为：

求解出 $alpha$ ，即可求出模型：

我会在优化理论里面更仔细地分析核函数。

软间隔和正则化：

软间隔允许某些样本不满足 ${y_i}({w^T}{x_i} + b) ge 1$ 约束，优化目标可以改写为：

${ell _{0/1}}$ 是非凸、非连续的函数，采用其他函数来代替 ${ell _{0/1}}$ ，称为surrogate loss。通常surrogate loss是凸的连续函数且是 ${ell _{0/1}}$ 的上界。下面有三种常用的代理损失函数：

若采用hinge损失：

引入松弛变量 ${xi _i}({xi _i} ge 0)$ ：

得到拉格朗日函数：

其中 ${alpha _i} ge 0,{mu _i} ge 0$ 是拉格朗日乘子。

对偶问题：
相关阅读:
VS20005特殊文件夹
 【Vegas原创】SQL case when 用法
 Session 详解
 How To Connect to Excel
Visual Studio 2005下的Web Application Projects和Web Site Projects两种模型比较
 检索 COM 类工厂中 CLSID 为 {000209FF00000000C000000000000046} 的组件时失败解决方法
 【Vegas原创】GridView前台绑定HyperLink参数&自动编号
 【Vegas原创】GridView设定DataFormatString属性失效的解决方法
 【Vegas原创】TreeView操作数据库的使用方法（VB）
【Vegas原创】VB.NET版的GridView经典使用（编辑，删除，分页，链接列）
原文地址：https://www.cnblogs.com/wzdLY/p/9577121.html