1、优点:
* 因为是凸优化,所以求得的解一定是全局最优解
* 适用于线性和非线性问题
* 高维数据也适用,因为只取决于向量而非数据维度
* 理论基础比较完善,不像神经网络很像黑盒。
2、缺点:
* 只适用于二分类问题。当然也可以通过组合多个svm来处理多分类问题。
* 二次规划问题求解会涉及m阶矩阵的计算,因此不适用于超大数据集。
* 对缺失数据比较敏感。因为svm希望数据在特征空间内线性可分,所以对数据依赖性较高。
3、核函数
* 用于将低维空间的数据映射到高维空间,便于更好地划分数据集。高效不易过拟合,但不能解决非线性问题。
* 线性核:当特征维度超过样本数量时(文本分类通常是此情况)使用
* 多项式核:一般很少用,稍显不稳定。
* RBF核:当特征维度比较小,样本数量中等时使用
4、硬间隔
* 硬间隔不允许样本有分类错误
* 通过使间隔最大化,和使样本正确分类来推导。
* 使用了SMO(序列最小优化)算法。
5、软间隔
* 允许分类存在一定程度的错误
6、对偶性
* 在求解过程中,通过对偶性使得求解更加容易。