3.8.1梯度法
定义:
梯度是一个向量,它的最重要性质就是指出了函数f在其自变量y增加时最大增长率的方向。
负梯度指出f的最陡下降方向 利用这个性质,可以设计一个迭代方案来寻找函数的最小值。
采用梯度法求解的基本思想
对感知器算法
式中的w(k)、xk随迭代次数k而变,是变量。 定义一个对错误分类敏感的准则函数J(w, x)。先任选一个初始权向量w(1),计算准则函数J的梯度,然后从w(1)出发,在最陡方向(梯度方向)上移动某一距离得到下一个权向量w(2) 。
讨论
若正确地选择了准则函数J(w,x),则当权向量w是一个解时,J达到极小值(J的梯度为零)。由于权向量是按J的梯度值减小,因此这种方法称为梯度法(最速下降法)。
为了使权向量能较快地收敛于一个使函数J极小的解,C值的选择是很重要的。
若C值太小,则收敛太慢; 若C值太大,则搜索可能过头,引起发散。
3.8.2固定增量的逐次调整算法
过程说明:
设已由前一步迭代得到w(k)的值。 读入模式样本xk,判别wT(k)xk是否大于0。
在示意图中,xk界定的判别界面为wT(k)xk=0。
当w(k)在判别界面的负区域时, wT(k)xk<0。 校正: w(k+1)= w(k)+ xk ,这里取C=1。 校正后, w(k+1)向量比w(k)向量更接近于模式xk所决定的正区域。
讨论:
若模式是线性可分的,选择合适的准则函数J(w,x),算法就能给出解。 若模式不是线性可分的,算法的结果就会来回摆动,得不到收敛。
作业:
采用梯度法和准则函数 式中实数b>0,试导出两类模式的分类算法。
3.8.3 最小平方误差(LMSE)算法
出发点
感知器算法只是当被分模式可用一个特定的判别界面分开时才收敛,在不可分情况下,只要计算程序不终止,它就始终不收敛。 即使在模式可分的情况下,也很难事先算出达到收敛时所需要的迭代次数。 这样,在模式分类过程中,有时候会出现一次又一次迭代却不见收敛的情况,白白浪费时间。
为此需要知道:发生迟迟不见收敛的情况时,到底是由于收敛速度过慢造成的呢,还是由于所给的训练样本集不是线性可分造成的呢?
最小平方误差(LMSE)算法,除了对可分模式是收敛的以外,对于类别不可分的情况也能指出来。
几个重要的公式:
小结
固定增量算法:
实现相对简单,可直接引伸到多类模式的分类情况,但未提供模式线性可分的测试特征; LMSE算法:相对复杂,需要对XTX求逆(维数高时求逆比较困难),但对两类情况,提供了线性可分的测试特征。