SVM函数中的两个超参数 C gamma

SVM的优缺点（复习）

核函数的基本作用就是接受两个低维空间里的向量，能够计算出经过某个变换后在高维空间里的向量内积值。

RBF 核与多项式核相比具有参数少的优点

用交叉验证找到最好的参数 C 和γ 。使用 RBF 核时，要考虑两个参数 C 和γ 。因为参数的选择并没有一定的先验知识，必须做某种类型的模型选择（参数搜索）。目的是确定好的(C,γ)使得分类器能正确的预测未知数据（即测试集数据），有较高的分类精确率。值得注意的是得到高的训练正确率即是分类器预测类标签已知的训练数据的正确率）不能保证在测试集上具有高的预测精度。因此，通常采用交叉验证方法提高预测精度。k 折交叉验证（k-fold cross validation）

C为惩罚系数，C越大，对误差越重视，容易overfitting，C越小，对误差惩罚小，容忍大，越偏向soft margin

gamma大，会比较小，会使高斯分布又瘦又长，会存在overffting ，原文如下

此外大家注意RBF公式里面的sigma和gamma的关系如下：

这里面大家需要注意的就是gamma的物理意义，大家提到很多的RBF的幅宽，它会影响每个支持向量对应的高斯的作用范围，从而影响泛化性能。我的理解：如果gamma设的太大，会很小，很小的高斯分布长得又高又瘦，会造成只会作用于支持向量样本附近，对于未知样本分类效果很差，存在训练准确率可以很高，(如果让无穷小，则理论上，高斯核的SVM可以拟合任何非线性数据，但容易过拟合)而测试准确率不高的可能，就是通常说的过训练；而如果设的过小，则会造成平滑效应太大，无法在训练集上得到特别高的准确率，也会影响测试集的准确率。

相关阅读:
WebService 入门程序（一）
WinXP系统服务详细列表
windows下使用openssl的一种方法
如何搭建Visual Studio的内核编程开发环境
在CentOS下源码安装 Xen并搭建Windows虚拟机
微信聊天记录查看器（程序+源码）
实现了一个简单的key-value存储系统
TFS二次开发系列：五、工作项查询
匿名类型是不是强类型？
近期微博吐槽言论存档，涉及“性能优化”、C++陋习等

原文地址：https://www.cnblogs.com/ChevisZhang/p/12932674.html