• 感知机模型


    感知机是神经网络与支持向量机的基础

    原始形式

    定义: 感知机 假设输入空间(mathcal{X} subseteq mathbb{R}^{n}),输出空间(mathcal{Y}={+1,-1}), 如下函数(f:mathcal{X} ightarrow mathcal{Y})称为感知机

    [f(x)=mbox{sign}(wcdot x+b) ]

    定义: 线性可分 给定数据集(T=left{left(x_{1}, y_{1} ight),left(x_{2}, y_{2} ight), cdots,left(x_{N}, y_{N} ight) ight}),如果存在超平面(w cdot x+b=0)
    将数据集的正实例点和负实例点完全正确地划分到超平面的两侧,即对每个(y_i=+1)的点有(w cdot x_i+b>0),对每个(y_i=-1)的点有(w cdot x_i+b<0)则称(T)为线性可分数据集(linearly separable data set), 否则,称数据集T线性不可分.

    损失函数

    首先,自然的想法是误分类点的数目,但损失函数对(w,b)不是连续可导,不宜优化。另一方面考虑选择误分类点到超平面的总距离。
    单个点的距离:(frac{1}{|w|}left|w cdot x_{0}+b ight|)
    误分类点满足:(-y_{i}left(w cdot x_{i}+b ight)>0)
    误分类点到超平面的距离:(-frac{1}{|w|} y_{i}left(w cdot x_{i}+b ight))如果被正确分类,则该值为0
    感知机损失函数即误分类点到超平面的总距离:(L(w, b)=-sumlimits_{x_{i} in M} y_{i}left(w cdot x_{i}+b ight))

    得到最优化问题

    [min _{w, b} L(w, b)=-sumlimits_{x_{i} in M} y_{i}left(w cdot x_{i}+b ight) ]

    随机梯度下降法(stocastic gradient descent

    任选初值(w_0,b_0)

    [egin{array}{l}{ abla_{w} L(w, b)=-sumlimits_{x_{i} in M} y_{i} x_{i}} \ { abla_{b} L(w, b)=-sumlimits_{x_{i} in M} y_{i}}end{array} ]

    随机选择一个误分类点,更新

    [egin{array}{l}{w leftarrow w+eta y_{i} x_{i}} \ {b leftarrow b+eta y_{i}}end{array} ]

    收敛性

    (hat{w}=(w^T,b)^T, hat{x} = (x^T,1)^TRightarrow hat{w}cdot hat{x}=wcdot x+b)

    Novikoff定理(T)是线性可分的。

    (1) 存在满足条件(|hat{w}_{opt}|=1)的超平面(hat{w}_{opt}cdot hat{x}=w_{opt}cdot x+b_{opt})将训练数据集完全正确分开;且存在(gamma>0), 对所有(i=1,2,cdots, N), (y_{i}left(hat{w}_{mathrm{opt}} cdot hat{x}_{i} ight)=y_{i}left(w_{mathrm{opt}} cdot x_{i}+b_{mathrm{opt}} ight) ge gamma).

    (2) 令(R=max _{1 le i le N}left|hat{x}_{i} ight|), 则感知机算法在训练数据集上的误分类次数满足(k leqleft(frac{R}{gamma} ight)^{2}).

    1.误分类的次数k是有上界的,当训练数据集线性可分时,感知机学习算法原始形式迭代是收敛的.
    2.感知机算法存在许多解,既依赖于初值,也依赖迭代过程中误分类点的选择顺序.
    3.为得到唯一分离超平面,需要增加约束,如SVM.
    4.线性不可分数据集,迭代震荡.

    对偶形式

    (w)(b)表示为实例(x_i)和标记(y_i)的线性组合的形式,通过求解其系数而求得(w)(b),对误分类点:(left{egin{array}{l}{w leftarrow w+eta y_{i} x_{i}} \ {b leftarrow b+eta y_{i}}end{array} ight.)
    (w)(b)修改了(n)次,其中第(i)个实例误分了(n_i)次,令(alpha=n_ieta), 最终学习到的(w)(b)为:(left{ egin{array}{l}w =sum_{i=1}^{N} alpha_{i} y_{i} x_{i} \ b =sum_{i=1}^{N} alpha_{i} y_{i}end{array} ight.)

    input: (T,eta)

    output: (alpha = (alpha_1,alpha_2,alpha_3 dots alpha_N)^T,b)

    Step1. (alpha = 0,b = 0)

    Step2.Choose ((x_i,y_i)) randomly,

    if (y_{i}left(sum_{j=1}^{N} alpha_{j} y_{j} x_{j} cdot x_{i}+b ight) leqslant 0):

    [egin{array}{l}{alpha_{i} leftarrow alpha_{i}+eta} \ {b leftarrow b+eta y_{i}}end{array} ]

    Step3: return to Step2 until all the points are classified correctly

    总结

    1.感知机是根据输入实例的特征向量(x)对其进行二类分类的线性分类模型. 感知机模型对应于输入空间(特征空间)中的分离超平面.
    2.感知机学习的策略是极小化损失函数;损失函数对应于误分类点到分离超平面的总距离.
    3.感知机学习算法是基于随机梯度下降法的对损失函数的最优化算法,有原始形式和对偶形式. 算法简单且易于实现. 原始形式中, 首先任意选取一个超平面, 然后用梯度下降法不断极小化目标函数. 在这个过程中一次随机选取一个误分类点使其梯度下降.
    4.当训练数据集线性可分时, 感知机学习算法是收敛的. 感知机算法在训练数据集上的误分类次数K满足不等式:(k leqleft(frac{R}{gamma} ight)^{2}).

  • 相关阅读:
    [BZOJ1578] [Usaco2009 Feb]Stock Market 股票市场(DP)
    [BZOJ1576] [Usaco2009 Jan]安全路经Travel(堆优化dijk + (并查集 || 树剖))
    [BZOJ1575] [Usaco2009 Jan]气象牛Baric(DP)
    [BZOJ1574] [Usaco2009 Jan]地震损坏Damage(贪心 + dfs)
    [BZOJ1572] [Usaco2009 Open]工作安排Job(贪心 + 堆)
    [luoguP2862] [USACO06JAN]把牛Corral the Cows(二分 + 乱搞)
    [luoguP3668] [USACO17OPEN]Modern Art 2 现代艺术2(栈)
    [luoguP3608] [USACO17JAN]Balanced Photo平衡的照片(树状数组 + 离散化)
    [luoguP3110] [USACO14DEC]驮运Piggy Back(SPFA || BFS)
    [BZOJ2342] [Shoi2011]双倍回文(manacher)
  • 原文地址:https://www.cnblogs.com/Akarinnnn/p/11587540.html
Copyright © 2020-2023  润新知