SVC和SVR

SVC和SVR
SVC和SVR

我们可以发现，在sklearn的SVM中有sklearn.svm.SVC()和sklearn.svm.SVR()两个方法，他们对应的其实是SVM在分类和回归两种问题下的结构:
- support vector classify（SVC）支持分类机做二分类的，找出分类面，解决分类问题
- support vector regression（SCR）支持回归机做曲线拟合、函数回归，做预测，温度，天气，股票
- 这些都会用于数据挖掘、文本分类、语音识别、生物信息，具体问题具体分析
对于SVC，其实就是我们之前学过的SVM，这里就说一下SVR

知乎这个回答讲的非常好，我这里摘录如下:
简介

直观上来讲 SVM 分类（SVC Support Vector Classification）与 SVR（Support Vector Regression）图形上的区别如下：

对于样本 $(\boldsymbol{\text{x}},y)$ ，传统的回归模型通常直接输出 $f(x)$ 与真实输出 $y$ 之间的差别来计算损失，当且仅当 $f(x)$ 与 $y$ 完全相同时，损失才是零。与此不同 SVR 假设我们能容忍 $f(x)$ 与 $y$ 之间最多有 $\epsilon$ 的偏差，即仅当 $f(x)$ 与 $y$ 之间的差别绝对值大于 $\epsilon$ 时才计算损失。这相当于以 $f(x)$ 为中心构建一个宽度为 $2\epsilon$ 的间隔带，若样本落入此间隔带，则认为是预测正确的，如下图：

数学形式

【参考】
- 简书 - SVM系列十三讲--支持向量回归机SVR
- 个站 - SVR，Support Vector Regression，支持向量回归
于是 SVR 问题可以形式化为：

${ \begin{split} \min_{\omega,b}\frac{1}{2}\Arrowvert \omega \Arrowvert^2 + C\sum_{i=1}^{m}\ell_{\epsilon}(f(\boldsymbol{x}_i) - y_i) \end{split} }\tag{C1}$

其中 C 正则化常数， $\ell_{\epsilon}$ 是下图的 ε-不敏感损失（ε-insensitive loss）函数：

${ \ell_{\epsilon}(z) = \begin{cases} 0,&if\;|z|\le \epsilon \\ |z|-\epsilon,&otherwise \end{cases} }\tag{C2}$

引入松弛变量 $\xi_i$ 和 $\hat{\xi}_i$ (间隔两侧的松弛程度有可能不同)，可以将式（C2）重写为：

${ \begin{split} &\min_{\omega,b}\frac{1}{2}\Arrowvert \omega \Arrowvert^2 + C\sum_{i=1}^{m}(\xi_i + \hat{\xi}_i) \\ s.t.\;& f(\boldsymbol{x}_i) - y_i \le \epsilon + \xi_i \\ & y_i - f(\boldsymbol{x}_i) \le \epsilon + \hat{\xi}_i \\ & \xi_i \gt 0\; \hat{\xi}_i \gt 0\;i=1,2,3...m \end{split} }\tag{C3}$

拉格朗日对偶形式

通过引入 $\mu_i \ge 0, \hat{\mu}_i \ge 0,\alpha_i \ge 0, \hat{\alpha}_i \ge 0$ ，由拉格朗日乘子可以得到式(C3) 的拉格朗日函数：

${ \begin{split} &L(\boldsymbol{\omega},b,\boldsymbol{\alpha},\hat{\boldsymbol{\alpha}},\boldsymbol{\xi},\hat{\boldsymbol{\xi}},\boldsymbol{\mu},\hat{\boldsymbol{\mu}}) \\ &= \frac{1}{2}\Arrowvert\boldsymbol{\omega}\Arrowvert^2 + C\sum_{i=1}^{m}(\xi_i + \hat{\xi}i) -\sum_{i=1}^{m}\mu_i\xi_i - \sum_{i=1}^{m}\hat{\mu}i\hat{\xi}_i \\ & + \sum{i=1}^{m}\alpha_i\left(f(\boldsymbol{x}i) - y_i - \epsilon - \xi_i\right) \\ & + \sum{i=1}^{m}\hat{\alpha}_i\left(y_i - f(\boldsymbol{x}_i) - \epsilon - \hat{\xi}_i\right) \ \end{split} }\tag{C4}$

将 $f(\boldsymbol{x}_i) = \boldsymbol{w}^T\boldsymbol{x} + b$ 带入上式，并令 $L(\boldsymbol{\omega},b,\boldsymbol{\alpha},\hat{\boldsymbol{\alpha}},\boldsymbol{\xi},\hat{\boldsymbol{\xi}},\boldsymbol{\mu},\hat{\boldsymbol{\mu}}) 对\omega, b,\xi_i,\hat{\xi}_i$ 的偏导为零，得到：

${ \begin{split} \boldsymbol{\omega} &= \sum_{i=1}^{m}(\hat{\alpha}i - \alpha_i)\boldsymbol{x}_i \\ 0 &= \sum{i=1}^{m}(\hat{\alpha}_i - \alpha_i) \\ C &= \alpha_i + \mu_i\\ C &= \hat{\alpha}_i + \hat{\mu}_i\ \end{split} }\tag{C5}$

将式（C5）带入式（C4）可以得到 SVR 的对偶问题：

${ \begin{split} &\max_{\boldsymbol{\alpha,\hat{\alpha}}}\;\; \sum_{i=1}^{m}y_i(\hat{\alpha}i - \alpha_i) - \epsilon(\hat{\alpha}_i + \alpha_i) \\ & \qquad -\frac{1}{2} \sum_{i=1}^{m}\sum_{j=1}^{m}(\hat{\alpha}i - \alpha_i)(\hat{\alpha}_j - \alpha_j)\boldsymbol{x}_i^{T}\boldsymbol{x}_j\\ &s.t.\;\; \sum_{i=1}^{m}(\hat{\alpha}_i - \alpha_i) = 0 \\ &\qquad\quad 0 \le \alpha_i,\;\hat{\alpha}_i \le C \end{split} }\tag{C6}$

KKT 与最终决策函数

上述过程满足的 KKT 条件为：

${ \begin{cases} \alpha_i\left(f(\boldsymbol{x}_i) - y_i - \epsilon - \xi_i\right) = 0 \\ \hat{\alpha}_i\left(y_i - f(\boldsymbol{x}_i) - \epsilon - \hat{\xi}_i\right) = 0\\ \alpha_i\hat{\alpha}_i = 0,\;\;\xi_i\hat{\xi}_i = 0 \\ (C - \alpha_i)\xi_i = 0,\;\;(C - \hat{\alpha}_i)\hat{\xi}_i = 0 \end{cases} }\tag{C7}$

可以看出，当且仅当 $f(\boldsymbol{x}_i) - y_i - \epsilon - \xi_i = 0$ 时， $\alpha_i$ 能取非零值，当且仅当， $y_i - f(\boldsymbol{x}_i) - \epsilon - \hat{\xi}_i = 0$ 时 $\hat{\alpha}_i$ 能取非零值。换言之，仅当样本 $(\boldsymbol{x}_i, y_i)$ 不落入 ε-间隔带中，相应的 $\alpha_i$ 和 $\hat{\alpha}_i$ 才能取非零值。此外，约束 $f(\boldsymbol{x}_i) - y_i - \epsilon - \xi_i = 0$ 与 $y_i - f(\boldsymbol{x}_i) - \epsilon - \hat{\xi}_i = 0$ 不能同时成立，因此 $\alpha_i$ 和 $\hat{\alpha}_i$ 中至少有一个为零。

将式（C5）第一项带入决策函数，可得最终的决策函数为：

${ \begin{split} f(\boldsymbol{x}) = \sum_{i=1}^n (\hat{\alpha}_i - \alpha_i)\boldsymbol{x}_i^{T}\boldsymbol{x}_j + b \end{split} }\tag{C8}$

能使上式中 $\hat{\alpha}_i - \alpha_i \neq 0$ 成立的样本即为 SVR 的支持向量，他们必然落在ε-间隔带之外。显然 SVR 的支持向量仅是训练样本的一部分，即其解仍然具有稀疏性。

由 KKT 条件可以看出，对于每个样本 $(\boldsymbol{x}_i, y_i)$ 都有 $(C - \alpha_i)\xi_i = 0$ 且 $\alpha_i\left(f(\boldsymbol{x}_i) - y_i - \epsilon - \xi_i\right) = 0$ ，于是在得到 $\alpha_i$ 之后，若 $0 \lt \alpha_i \lt C$ 则必有 $\xi_i = 0$ ，继而有：

${ \begin{split} b = y_i + \epsilon - \sum_{i=1}^n (\hat{\alpha}_i - \alpha_i)\boldsymbol{x}_i^{T}\boldsymbol{x}_j \end{split} }\tag{C9}$

因此，若求解式（C6）得到 alpha_i 后，理论上说可以任意选取满足 $0 \lt \alpha_i \lt C$ 的样本，通过式（C9）求得 b。在实践中采用一种更鲁棒的办法：选择多个（或所有）满足条件 $0 \lt \alpha_i \lt C$ 的样本求解 b 后去平均值。

核函数的形式最终的决策函数为：

${ \begin{split} f(\boldsymbol{x}) = \sum_{i=1}^n (\hat{\alpha}_i - \alpha_i) \kappa(\boldsymbol{x}, \boldsymbol{x}_i) + b \end{split} }\tag{C9}$

其中 $\kappa(\boldsymbol{x}_i, \boldsymbol{x}_j) = \phi(\boldsymbol{x}_i)^{T}\phi(\boldsymbol{x}_j)$ 为核函数。

不同核的回归效果

【参考】
- sklearn - Support Vector Regression (SVR) using linear and non-linear kernels
下面这一段实践建议我个人觉得也是很中用的：
基于 Sklearn 的实践建议

【参考】
- sklearn - Tips on Practical Use
- 避免数据拷贝
- 核缓存的大小：对于 SCV、SVR、NuSVC 和 NuSVR，核函数缓存的大小对于大型问题的运行时间有着非常大的影响。如果有足够多的内存，建议把cache_size的大小设置的尽可能的大。
- 设置 C：1 是一个合理的默认选择，如果有较多噪点数据，你应该较少 C 的大小。
- SVM 算法不是尺度不变，因此强烈建议缩放你的数据。如将输入向量 X 的每个属性缩放到[0,1] 或者 [-1,1]，或者标准化为均值为 0 方差为 1 。另外，在测试向量时也应该使用相同的缩放，已获得有意义的结果。
- 对于SVC，如果分类的数据不平衡（如有很多的正例很少的负例），可以设置class_weight='balanced'，或者尝试不同的惩罚参数 C
- 底层实现的随机性：SVC和NuSVC的底层实现使用了随机数生成器，在概率估计时混洗数据（当 probability 设置为 True），随机性可以通过 random_state 参数控制。如果 probability 设置为False ，这些估计不是随机的，random_state 对结果不在有影响。
- 使用 L1 惩罚来产生稀疏解
Reference
1. https://www.cnblogs.com/ylHe/p/7676173.html
2. https://zhuanlan.zhihu.com/p/50166358
相关阅读:
精华网站链接
 面向对象的CSS注意事项
 java 汉字按照指定字符集转换为二进制编码并把二进制编码转换为对应的汉字方法
 91环境
 windows下git代码提交情况统计
 git分支管理的使用案例及深入分析
 我在软件园二期的小花园捡起了一片树叶
 sslvpn连接:
jetbrains register ways
angular directive实现触底加载效果一则
原文地址：https://www.cnblogs.com/jiading/p/12105232.html

SVC和SVR

简介

数学形式

拉格朗日对偶形式

KKT 与最终决策函数

不同核的回归效果

基于 Sklearn 的实践建议

Reference