常见核函数
线性核 (linear kernel):$$K(x_1,x_2)=x_1cdot x_2+c$$
多项式核 (polynomial kernel):$$K(x_1, x_2)=(x_1cdot x_2 +c)^d$$其中 (dge1),为多项式的次数。
感知器核 (Sigmoid kernel):$$K(x_1, x_2)=tanh(eta(x_1cdot x_2)+c)$$其中 (tanh) 为双曲正切函数,(eta>0, heta<0)。
高斯核 (Gaussian kernel): $$K(x_1,x_2)=exp(-dfrac{left|x_1-x_2 ight|2}{2sigma2}), 也记作:exp(-gamma left|x_1-x_2 ight|2), gamma=frac{1}{2sigma2}$$其中 (sigma>0),为高斯核的带宽(width)。高斯核 也称作 径向基核(RBF)
拉普拉斯核 (Laplace kernel):$$K(x_1, x_2)=exp(-dfrac{left|x_1-x_2 ight|}{sigma}), sigma>0$$
核函数的形式可看出 高斯核 和 拉普拉斯核 为 平移不变核,多项式核 和 感知器核 为 内积核函数,为 旋转不变核。
核函数的本质
将原始输入空间映射到新的特征空间,从而,使得原本线性不可分的样本可能在核空间可分。有效的核函数一定是对称半正定的;往往依赖先验领域知识验证等方案才能选择有效的核函数。
SVM 的参数
1.参数 (C):
显然,(C) 越大,对样本分类正确的要求越严格,间隔宽就带越窄;同时也导致易过拟合。(C=+infty) 则 软间隔SVM 退化为 硬间隔SVM。
2.高斯核的参数 (gamma) ((gamma =frac{1}{2sigma^2})):
显然 (sigma) 和 (gamma) 成反比关系,对于类似于高斯分布形式的 高斯核 而言,(gamma) 越小,PDF(概率密度函数,Probability Density Function)平均,趋近于直线(矮胖);越大,PDF 越集中(高瘦)。
邹博:PDF趋近于直线 即 近似于线性核,分类能力弱化。因为 (gamma) 很小时,通常在 (gamma<0.1) 时就有:(x_1cdot x_2 approx exp(-gammaleft|x_1-x_2
ight|^2))。
小结:
1. (C) 的大小控制了分隔带宽的大小,惩罚 (C) 越大,带宽越小,训练样本上的分类能力越强,容易发生过拟合。
2. (gamma) 控制了分隔线的非线性程度,(gamma) 越大,非线性程度越大,分类能力越强,容易发生过拟合。
(C) 和 (gamma) 越大,训练样本上分类能力越强,同时也容易发生过拟合。
参考下图结果: