算法思想:根据现有数据对分类边界建立回归公式,以此分类。
训练分类器的做法就是寻找最佳拟合参数,使用最优化算法。
特点:大部分时间用于训练(确定参数),在确定参数以后分类将会很快
基于Logistic回归和Sigmoid函数分类:
优点:计算代价不高,易于理解和实现。
缺点:容易欠拟合,分类精度可能不高。
适用数据类型:数值型和标称型数据。
为了实现Logistic回归分类器,我们在每个特征上都乘以一个回归系数,然后求和值为Z,将Z带入Sigmoid函数中,进而得到一个值,四舍五入,即得出分类结果。
回归系数的确定方法:
梯度上升法,
梯度下降法
随机梯度上升法(在线学习算法)