SVM学习笔记-线性支撑向量机

最大间隔超平面

线性分类器回顾

当数据是线性可分的时候，PLA算法可以帮助我们找到能够正确划分数据的超平面hyperplane，如图所示的那条线。

这里写图片描述

哪一条线是最好的？

这里写图片描述

对于PLA算法来说，最终得到哪一条线是不一定的，取决于算法scan数据的过程。
从VC bound的角度来说，上述三条线的复杂度是一样的
$E o u t (w) \leq E i n �� 0 + Ω (H) �� d v c = d + 1$

直观来看，最右边的线是比较好的hyperplane。

为什么最右边的分隔面最好？

对于测量误差的容忍度是最好的。例如对于每张图片中左下角的样本点，当未来要判定与该点非常接近的点（有可能它们的feature本来就是一样的，只不过因为测量的误差的存在，所以feature变得有点不同了）的label的时候，最右边的hyperplane对这些误差会有最大的容忍度。

tolerate more noise
当对测量误差有更大的容忍度的时候，就能更加避免过拟合的情况出现。
所以我们想要找的超平面就是能够更大的容忍测量误差的超平面。直观上来说，就是找这样的一个超平面，离这个超平面最近的点的到这个超平面的距离也是很大的。

这里写图片描述

“胖”分割面

如下图所以，我们想要找的是“最胖”的那条线。

这里写图片描述

最大间隔分类超平面

m a x w

即我们要找一条线

fatness: 正式的表达为margin
correctness: 要求

上述的表达可以进一步数学化为：

m a x w s u b j e c t t o m a r g i n (w) e v e r y

goal: 找最大间隔（margin）的分类超平面

最大间隔问题

点到超平面的距离

上面提到了我们要找最“胖”的线，这里涉及到了一个距离的计算。那么怎么算一个点

这里写图片描述

考虑在平面上的两个点

w T x' = - b, w T x'' = - b

两式相减：

w T (x'' - x') ���������� v e c t o r o n h y p e r p l a n e = 0

那么

d i s t a n c e (x, b, w) = | w T | | w | | ( x - x ' )

到分隔超平面的距离

上一节中推导了点到平面的距离计算方法，

d i s t a n c e (x, b, w) = 1 | | w | | | w T x + b |

y n (w T x n + b) > 0

d i s t a n c e (x n, b, w) = 1 | | w | | y n ( w T x n + b

m a x w . b s u b j e c t t o m a r g i n (w, b)

我们最终想要找的是一个hyperplane，也就是

m i n n = 1, \dots, N y n (w T x n + b) = 1

m a r g i n (w, b) = 1 | | w | |

m a x w . b s u b j e c t t o 1 | | w |

进一步可以变为：

m a x w . b s . t . 1 | | w | | m

最大间隔问题

我们进一步得到了描述比较简单的间隔最大化问题的需求。

m a x w . b s . t . 1 | | w | | m

现在问题的形式变为：

m a x w . b s . t . 1 | | w | |

变为最小为问题：

m i n w . b s . t . 1 2 w T w y n ( w T

支撑向量机

m i n w . b s . t . 1 2 w T w y n ( w T

一个特例

这里写图片描述

图中的样本点

X = ⎡⎣⎢⎢⎢ 0 2 2 3 0 2 0 0 ⎤⎦⎥⎥⎥, Y = ⎡⎣⎢⎢⎢ - 1 - 1 +

根据最优化问题的要求我们需要满足一下4个条件：

- 2 w 1 - 2 w 2 2 w 1 3 w 1 - b \geq 1

我们可以看到有一些离hyperplane很近的点，也就是如图用方框框起来的那些点。这些点就可以确定我们想要的hyperplane，我们把这些点叫做Support Vector。可以理解为这些支撑向量就可以确定我们想要的分割超平面，而不需要其他的点。

SVM的一般解法

m i n w . b s . t . 1 2 w T w y n ( w T

通过分析可知，我们想要最小化的问题是个

标准的二次规划问题

o p t i m a l

所以我们要确定其中的系数

u = [b w]; Q = [0 0 d 0 T d I d]; p = 0 d +

线性可分的硬间隔SVM算法

使用二次规划解决SVM

表示为规范的
return

note：

hard-margin：表明我们坚持要将正例和负例完全的分开。
linear：表明我们是在使用空间中的分割超平面。而没有经过任何的特转换
所以如果我们想要一个非线性的hyperplane，可以使用

相关阅读:
Cookie和Session机制详解
MySQL数据库MyISAM和InnoDB存储引擎的比较
MySQL索引背后的数据结构及算法原理
Qt Meta Object System-元对象系统
Qt事件处理机制
学习STL-介绍一下STL
为什么你有10年经验，但成不了专家？
关于union的那些事儿
关于enum的那些事儿
三子棋局-挑战你的逻辑思维

原文地址：https://www.cnblogs.com/xxr1/p/7355173.html