• 势函数法


    势函数主要用于确定分类面,其思想来源于物理。

    1 势函数法基本思想

    • 假设要划分属于两种类别$omega_1$和$omega_2$的模式样本,这些样本可看成是分布在$n$维模式空间中的点$x_k$。
    • 把属于$omega_1$的点比拟为某种能源点,在点上,电位达到峰值。
    • 随着与该点距离的增大,电位分布迅速减小,即把样本$x_k$附近空间$x$点上的电位分布,看成是一个势函数$K(x, x_k)$。
    • 对于属于$omega_1$的样本集群,其附近空间会形成一个"高地",这些样本点所处的位置就是"山头"。
    • 同理,用电位的几何分布来看待属于$omega_2$的模式样本,在其附近空间就形成"凹地"。
    • 只要在两类电位分布之间选择合适的等高线,就可以认为是模式分类的判别函数。

    2. 判别函数的产生

    • 模式分类的判别函数可由分布在模式空间中的许多样本向量${x_k,k=1,2,cdots ext{且},x_kin omega_1cup w_2}$的势函数产生。
    • 任意一个样本所产生的势函数以$K(x,x_k)$表征,则判别函数$d(x)$可由势函数序列$K(x, x_1),K(x,x_2),cdots$来构成,序列中的这些势函数相应于在训练过程中输入机器的训练模式样本$x_1,x_2,cdots$。
    • 在训练状态,模式样本逐个输入分类器,分类器就连续计算相应的势函数,在第$k$步迭代时的积累位势决定于在该步前所有的单独势函数的累加。
    • 以$K(x)$表示积累位势函数,若加入的训练样本$x_{k+1}$是错误分类,则积累函数需要修改,若是正确分类,则不变。

    3.判别函数产生逐步分析

        设初始势函数$K_0(x) = 0$

        第一步:加入第一个训练样本$x_1$,

    则有  

    [{K_1}(x) = left{ {egin{array}{*{20}{c}}
    {K(x,{x_1})}&{{ m{if}};{x_1} in {omega _1}}\
    { - K(x,{x_1})}&{{ m{if}};{x_1} in {omega _2}}
    end{array}} ight.]

    这里第一步积累势函数$K_1(x)$描述了加入第一个样本时的边界划分。当样本属于$omega_1$时,势函数为正;当样本属于$omega_2$时,势函数为负。

          第二步:加入第二个训练样本$x_2$,

    则有

    1. 若$x_2in omega_1$且$K_1(x_2)>0$,或$x_2in omega_2$且$K_1(x_2)<0$,则分类正确,此时$K_2(x) = K_1(x)$,即积累势函数不变。
    2. 若$x_2in omega_1$且$K_1(x——2)<0$,则[K_2(x)=K_1(x)+K(x,x_2)=pm K(x,x_1)+K(x,x_2)]
    3. 若$x_2in omega_2$且$K_1(x_2)>0$,则

    [K_2(x)=K_1(x)-K(x,x_2)=pm K(x,x_1)-K(x,x_2)]

         以上(ii)、(iii)两种情况属于错分。假如$x_2$处于$K_1(x)$定义的边界的错误一侧,则当$xin omega_1$时,积累位势$K_2(x)$要加$K(x, x_2)$,当$xin omega_2$时,积累位势$K_2(x)$要减$K(x, x_2)$。

          第$K$步:设$K_k(x)$为加入训练样本$x_1,x_2,cdots,x_k$后的积累位势,则加入第$(k+1)$个样本时,$K_{k+1}(x)$决定如下:

    1. 若$x_{k+1}in omega_1$且$K_k(x_{k+1})>0$,或$x_{k+1}in omega_2 $且$K_k(x_{k+1})<0$,则分类正确,此时$K_{k+1}(x) = K_k(x)$,即积累位势不变。

    2. 若$x_{k+1}in omega_1$且$K_k(x_{k+1})<0$,则$K_{k+1}(x)=K_k(x)+K(x,x_{k+1})$;

    3. 若$x_{k+1}in omega_2$且$K_k(x_{k+1})>0$,则$K_{k+1}(x)=K_k(x)-K(x,x_{k+1})$.

         因此,积累位势的迭代运算可写成:$K_{k+1}(x)=K_k(x)+r_{k+1}K(x,x_{k+1})$,$r_{k+1}$为校正系数:     

    [{r_{k + 1}} = left{ {egin{array}{*{20}{c}}
    0&{if;{x_{k + 1}} in {omega _1};{ m{and}};{K_k}({x_{k + 1}}) > 0}\
    0&{if;{x_{k + 1}} in {omega _2};{ m{and}};{K_k}({x_{k + 1}}) < 0}\
    1&{if;{x_{k + 1}} in {omega _1};{ m{and}};{K_k}({x_{k + 1}}) < 0}\
    { - 1}&{if;{x_{k + 1}} in {omega _2};{ m{and}};{K_k}({x_{k + 1}}) > 0}
    end{array}} ight.]

          若从给定的训练样本集${x_1, x_2, cdots, x_k, cdots}$中去除不使积累位势发生变化的样本,即使$K_j(x_{j+1})>0$且$x_{j+1}in omega_1$,或$K_j(x_{j+1})<0$且$x_{j+1}in omega_2$的那些样本,则可得一简化的样本序列${ {mathord{uildrel{lower3pthbox{$scriptscriptstylefrown$}} over x} _1},{mathord{uildrel{lower3pthbox{$scriptscriptstylefrown$}} over x} _2}, ldots ,{mathord{uildrel{lower3pthbox{$scriptscriptstylefrown$}} over x} _j}, ldots } $,它们完全是校正错误的样本。此时,上述迭代公式可归纳为:

    [{K_{k + 1}}(x) = sumlimits_{{{mathord{uildrel{lower3pthbox{$scriptscriptstylefrown$}}
    over x} }_j}} {{a_j}K(x,{{mathord{uildrel{lower3pthbox{$scriptscriptstylefrown$}}
    over x} }_j})} ]

    其中         

    [{a_j} = left{ {egin{array}{*{20}{c}}
    { + 1}&{for;{{mathord{uildrel{lower3pthbox{$scriptscriptstylefrown$}}
    over x} }_j} in {omega _1}}\
    { - 1}&{for;{{mathord{uildrel{lower3pthbox{$scriptscriptstylefrown$}}
    over x} }_j} in {omega _2}}
    end{array}} ight.]

    也就是说,由$k+1$个训练样本产生的积累位势,等于$omega_1$类和$omega_2$类两者中的校正错误样本的总位势之差。

     

          从势函数可以看出,积累位势起着判别函数的作用:当$x_{k+1}$属于$omega_1$时,$K_k(x_{k+1})>0$;当$x_{k+1}$属于$omega_2$时,$K_k()x_{k+1}<0$,则积累位势不做任何修改就可用作判别函数。

    由于一个模式样本的错误分类可造成积累位势在训练时的变化,因此势函数算法提供了确定$omega_1$和$omega_2$两类判别函数的迭代过程。判别函数表达式:取$d(x)=K(x)$,则有:$d_{k+1}(x)= d_k(x)+r_{k+1}K(x, x_{k+1})$.

    4 构成势函数的两种方式:

        第一类势函数和第二类势函数 

         第一类势函数

         可用对称的有限多项式展开,即:

    [K(x,{x_k}) = sumlimits_{i = 1}^m {{phi _i}(x){phi _i}({x_k})} ]

    其中{}在模式定义域内为正交函数集。将这类势函数代入判别函数,有:

    [{d_{k + 1}}(x) = {d_k}(x) + {r_{k + 1}}sumlimits_{i = 1}^m {{phi _i}({x_{k + 1}}){phi _i}(x)}  = {d_k}(x) + sumlimits_{i = 1}^m {{r_{k + 1}}{phi _i}({x_{k + 1}}){phi _i}(x)} ]

    得迭代关系:

    [{d_{k + 1}}(x) = sumlimits_{i = 1}^m {{C_i}(k + 1){phi _i}(x)} ]

    其中

    [{C_i}(k + 1) = {C_i}(k) + {r_{k + 1}}{phi _i}({x_{k + 1}})]

    因此,积累位势可写成:

    [{K_{k + 1}}(x) = sumlimits_{i = 1}^m {{C_i}(k + 1){phi _i}(x)} ]

    $Ci$可用迭代式求得。 

         第二类势函数:

         选择双变量$x$和$x_k$的对称函数作为势函数,即$K(x, x_k) = K(x_k, x)$,并且它可展开成无穷级数,例如:

    (a)  $K(x,{x_k}) = {e^{ - alpha {{left| {x - {x_k}} ight|}^2}}}$

    (b)  $K(x,{x_k}) = frac{1}{{1 + alpha {{left| {x - {x_k}} ight|}^2}}}$, $alpha$是正常数

    (c)  $K(x,{x_k}) = left| {frac{{sin alpha {{left| {x - {x_k}} ight|}^2}}}{{alpha {{left| {x - {x_k}} ight|}^2}}}} ight|$

    5.势函数法

    实例1:用第一类势函数的算法进行分类

    1. 选择合适的正交函数集{}

    选择Hermite多项式,其正交域为(-∞, +∞),其一维形式是

    其正交性:

    其中,Hk(x)前面的乘式为正交归一化因子,为计算简便可省略。因此,Hermite多项式前面几项的表达式为

    H0(x)=1,        H1(x)=2x,        H2(x)=4x2-2,

    H3(x)=8x3-12x,        H4(x)=16x4-48x2+12

    1. 建立二维的正交函数集

    二维的正交函数集可由任意一对一维的正交函数组成,这里取四项最低阶的二维的正交函数

    1. 生成势函数

    按第一类势函数定义,得到势函数

    其中

    1. 通过训练样本逐步计算累积位势K(x)

    给定训练样本:ω1类为x=(1 0)T, x=(0 -1)T

    ω2类为x=(-1 0)T, x=(0 1)T

    累积位势K(x)的迭代算法如下

    第一步:取x=(1 0)T∈ω1,故

    K1(x)=K(x, x)=1+4x1·1+4x2·0+16x1x2·1·0=1+4x1

    第二步:取x=(0 -1)T∈ω1,故K1(x)=1+4·0=1

    因K1(x)>0且x∈ω1,故K2(x)=K1(x)=1+4x1

    第三步:取x=(-1 0)T∈ω2,故K2(x)=1+4·(-1)=-3

    因K2(x)<0且x∈ω2,故K3(x)=K2(x)=1+4x1

    第四步:取x=(0 1)T∈ω2,故K3(x)=1+4·0=1

    因K3(x)>0且x∈ω2

    故K4(x)=K3(x)-K(x,x)=1+4x1-(1+4x2)=4x1-4x2

    将全部训练样本重复迭代一次,得

    第五步:取x=x=(1 0)T∈ω1,K4(x)=4

    故K5(x)=K4(x)=4x1-4x2

    第六步:取x=x=(0 -1)T∈ω1,K5(x)=4

    故K6(x)=K5(x)=4x1-4x2

    第七步:取x=x=(-1 0)T∈ω2,K6(x)=-4

    故K7(x)=K6(x)=4x1-4x2

    第八步:取x=x=(0 1)T∈ω2,K7(x)=-4

    故K8(x)=K7(x)=4x1-4x2

    以上对全部训练样本都能正确分类,因此算法收敛于判别函数

    d(x)= 4x1-4x2

     

    实例2:用第二类势函数的算法进行分类

    选择指数型势函数,取α=1,在二维情况下势函数为

    这里:ω1类为x=(0 0)T, x=(2 0)T

    ω2类为x=(1 1)T, x=(1 -1)T

    可以看出,这两类模式是线性不可分的。算法步骤如下:

    第一步:取x=(0 0)T∈ω1,则

    K1(x)=K(x,x)=

    第二步:取x=(2 0)T∈ω1

    因K1(x)=e-(4+0)=e-4>0,

    故K2(x)=K1(x)=

    第三步:取x=(1 1)T∈ω2

    因K2(x)=e-(1+1)=e-2>0,

    故K3(x)=K2(x)-K(x,x)=

    第四步:取x=(1 -1)T∈ω2

    因K3(x) =e-(1+1)-e-(0+4)=e-2-e-4>0,

    故K4(x)=K3(x)-K(x,x)

    =

    需对全部训练样本重复迭代一次

    第五步:取x=x=(0 0)T∈ω1,K4(x)=e0-e-2-e-2=1-2e-2>0

    故K5(x)=K4(x)

    第六步:取x=x=(2 0)T∈ω1,K5(x)=e-4-e-2-e-2=e-4-2e-2<0

    故K6(x)=K5(x)+K(x,x)

    =

    第七步:取x=x=(1 1)T∈ω2,K6(x)=e-2-e0-e-4+e-2=2e-2-e-4-1<0

    故K7(x)=K6(x)

    第八步:取x=x=(1 -1)T∈ω2,K7(x)=e-2-e-4-e0+e-2=2e-2-e-4-1<0

    故K8(x)=K7(x)

    第九步:取x=x=(0 0)T∈ω1,K8(x)=e0-e-2-e-2+e-4=1+e-4-2e-2>0

    故K9(x)=K8(x)

    第十步:取x=x=(2 0)T∈ω1,K9(x)=e-4-e-2-e-2+e0=1+e-4-2e-2>0

    故K10(x)=K9(x)

    经过上述迭代,全部模式都已正确分类,因此算法收敛于判别函数

    势函数分类算法评价:

    1.用第二类势函数,当训练样本维数和数目都较高时,需要计算和存储的指数项较多。

    2. 正因为势函数由许多新项组成,因此有很强的分类能力。

  • 相关阅读:
    [题解] [JSOI2011] 任务调度
    [题解] [JSOI2011] 棒棒糖
    [题解] [JSOI2011] 柠檬
    [题解] [JSOI2010] 排名
    [湖南集训] 谈笑风生
    BZOJ 4695 最假女选手 线段树
    HNOI 2010 物品调度 并查集 置换
    Luogu P4299 首都 LCT
    BZOJ 2738 矩阵乘法 整体二分
    51nod 1175 区间第k大 整体二分
  • 原文地址:https://www.cnblogs.com/huadongw/p/4106290.html
Copyright © 2020-2023  润新知