• 机器学习十讲(三)分门别类,各得其所--分类


    1.数学知识回顾:

      点到平面的距离:

        

    2.梯度下降法:

     

    3.随机梯度下降

    • 机器学习中,优化目标和梯度具有特定结构:
    L(W)=i=1nl(yi,f(xi;w))L(w)=i=1nl(yi,f(xi;w))=i=1nLi(w)L(W)=∑i=1nl(yi,f(xi;w))∇L(w)=∑i=1n∇l(yi,f(xi;w))=∑i=1n∇Li(w)
    • 更新参数只用一个样本的梯度,即随机梯度下降法
    w(t+1)w(t)ηtLi(w(t))w(t+1)←w(t)−ηt∇Li(w(t))
    • 收敛充分条件t=1ηt=∑t=1∞ηt=∞,t=1η2t<η∑t=1∞ηt2<η
    • 需要随着迭代次数的增加降低学习率

    4.最大似然估计

    • "似然":likelihood可能性
    • 最大似然法,一种求解概率模型参数的方法
    • 最早是遗传学家以及统计学家罗纳德·费雪在1912年至1922年间开始使用
    • 假设有nn个从概率模型pθ(x)pθ(x)独立生成的样本xini=1xii=1n
    • 似然函数L(θ)=ni=1pθ(x)L(θ)=∏i=1npθ(x)
    • 通过最大化L(θ)L(θ)求解模型参数的方法叫做最大似然法
    dNLL(θ)L(θ)=∏θm(1−θ)nNLL(θ)=−mlogθ−nlog(1−θ)dNLL(θ)dθ=−mθ+n1−θ,可得θ=mm+n

    5.如何做分类

    • 线性回归:f(x)=wTx,y(,+)f(x)=wTx,y∈(−∞,+∞)

    • 二分类中,y1,1y∈−1,1,用回归的方法做分类,在回归结果上添加映射函数H(f)H(f):

      H(f)={+1,f>01,f0H(f)={+1,f>0−1,f≤0
    • HH的其他选择:

      • H(f)=tanh(f)H(f)=tanh(f)
      • H(f)=σ(f)=11+efH(f)=σ(f)=11+e−f

    6.感知机、支持向量机和逻辑回归

    • 线性可分训练集D=xi,yini=1,y{1,1}D=xi,yii=1n,y∈{−1,1}
    • 感知机:
      • 找到一条直线,将两类数据分开即可
    • 支持向量机:
      • 找到一条直线,不仅将两类数据正确分类,还使得数据离直线尽量远
    • 逻辑回归:
      • 找到一条直线使得观察到的训练集的“可能性”最大

    7.感知机

    • f(x)=wTx,w=(w1,w2,...,wd,w0)Tf(x)=wTx,w=(w1,w2,...,wd,w0)T为系数,模型为
    y=H(f(x))={+1,wTx>01,wTx0y=H(f(x))={+1,wTx>0−1,wTx≤0
    • 决策超平面为:wTx=0wTx=0
    • 线性可分训练集D=(x1,y1),...,(xn,yn)D=(x1,y1),...,(xn,yn),点(xi,yi)(xi,yi)到决策超平面的距离为
    di=|wTxi|||w||2=yiwTxi||w||2yiwTxi||w||2=1di=|wTxi|||w||2=yiwTxi||w||2→yiwTxi不妨令||w||2=1
    • 优化目标:误分类样本离超平面距离之和最小

    8.感知机算法

    • 输入:训练数据X,yX,y,学习率ηη,迭代步数TT
    • 初始化参数W(0)W(0)
    • fort=1,...,Tfort=1,...,T
      • 找出误分类样本集合MM;
      • MM中随机采样一个样本ii
      • 更新参数w(t+1)w(t)+ηtyixiw(t+1)←w(t)+ηtyixi
    • 输出ww

    9.支持向量机

    • 线性可分训练集D=(x1,y1),..,(xn,yn),(xi,yi)D=(x1,y1),..,(xn,yn),点(xi,yi)到决策超平面的距离为di=yiwTxi||w||2di=yiwTxi||w||2

    • 间隔:训练集中离超平面最小距离miniyiwTxi||w||2miniyiwTxi||w||2

    • 间隔最大化

    maxwminiyiwTxi||w||2maxw1||w||2miniyiwTximaxwminiyiwTxi||w||2⇔maxw1||w||2miniyiwTxi
    • 不妨令miniyiwTxi=1miniyiwTxi=1,则上述目标等价于
    maxw1||w||2minw12||w||22maxw1||w||2⇔minw12||w||22
    • 非线性:核技巧,映射trick,将数据点从2维空间映射到3维空间,使得数据线性可分

    10.逻辑回归

    • f(x)=wTx,w=(w1,w2,...,wd,w0)Tf(x)=wTx,w=(w1,w2,...,wd,w0)T为系数
    • 训练集D={xi,yi}ni=1,y{1,1}D={xi,yi}i=1n,y∈{−1,1},概率解释:
      • p(y=1|x)=11+ewTxp(y=1|x)=11+e−wTx
      • p(y=1|x)=1p(y=1|x)=11+ewTxp(y=−1|x)=1−p(y=1|x)=11+e−wTx
    • 考虑到y{1,1}y∈{−1,1},则样本(xi,yi)(xi,yi)概率为:
    p(yi|xi)=11+eyiwTxip(yi|xi)=11+e−yiwTxi
  • 相关阅读:
    记录自己的缺点
    JavaScript算法系列之-----------------变态跳台阶(JS实现)
    JavaScript算法系列之-----------------跳台阶(JS实现)
    JavaScript算法系列之-----------------求1+2+..+n(JS实现)
    JavaScript算法系列之-----------------用两个栈实现队列(JS实现)
    react react-transition-group实现动画
    React 学习笔记
    javascript 面向对象-面试题实例
    javascript 面向对象
    python functools
  • 原文地址:https://www.cnblogs.com/zwx655/p/14465269.html
Copyright © 2020-2023  润新知