• 【Linear Models for Binary Classification】林轩田机器学习基石


    首先回顾了几个Linear Model的共性:都是算出来一个score,然后做某种变化处理。

    既然Linear Model有各种好处(训练时间,公式简单),那如何把Linear Regression给应用到Classification的问题上呢?到底能不能迁移呢?

    总结了如下的集中Linear Model的error functions的表达式:

    这里都提炼出来了ys这一项,y表示需要更正的方向{+1,-1},s表示需要更正的幅度(score)

    三种error function可以这么理解:

    (1)0/1 error : 幅度s固定,y表示方向

    (2)square error : y很正或很负,error都非常大(注意这里只需要y很大或很下,error就收不住了);只有当ys很接近1的时候,error才可能接近0

    (3)cross-entropy error : 如果ys很负的话,那么error就无穷大;如果ys很正的话,那么error无限接近0

    再画出几种model的error function,可以看到:

    (1)square error是不太合适的,ys>>1的时候,error衡量的过了,不合适。

    (2)cross-entropy error也不太合适,因为在0到-1之间位于0/1 error下面了

    如果想合适的话,可以对cross-entropy进行放缩:把ln换成log2,就OK了。

    这里有个Point值得关注,为啥要放缩呢?错误率低不是更好么?

    其实这跟目的有关:

    (1)首先我们的目的是要用regression来代替classification(为啥要替代?因为PLA/Pocket是NP-hard的问题,不好整;而Linear Model在最优化之后,求解比较容易了),如果regression和classification在性能上差不多,那就可以替代了。

    (2)因此,我们把cross-entropy error来scale成0/1 error的upper bound,目的就是让cross-entropy error低的时候,0/1error也低,放缩一下是为了说bound住这个事情

    再简单些就是说,如果实际中linear model用regression给出来的方法分类效果好,那么PLA/Pocket分类效果也好。

    接下来对比了PLA、Linear Regression 和 Logistic Regression的方法优缺点:

    (1)PLA:线性可分时候很犀利;如果不可分,那就只好Pocket

    (2)Linear Regression:最优化可以求出来analytics close solution;但是当|ys|很大的时候,positive direction和negative direction的bound都太松太松了

    (3)Logistic Regression:gradient descent可以求解;但是negatvie direction方向bound比较松

    总结一些实际经验:linear regression可以作为PLA/Pocket/Logistic Regression的初始值设置。

    接下来讲了一种Stochastic Gradient Descent的方法:

    (1)原来是所有点在算梯度,然后取平均,再更新w;随机梯度下降,是不用每次算所有点了,每次算一个点,用这个点代替所有点的平均。

    (2)敢这么做的原因:是因为 stochastic gradient = true gradient + zero-mean 'noise' directions;因为是zero-mean的noise,所以可以得到average true gradient ≈ average stochastic gradient

    (3)SGD方法在logistic regression的应用公式,非常像PLA的公式

    (4)从实际情况出发,一般迭代次数达到一定,可以认为SGD已经获得了最佳的结果;ita在实际经验中,一般取值为0.1左右合适。

    随后,由binary classification问题延伸到了multiclass的问题,总体来说有两种方法:

    1. One-Versus-ALL (OVA) Decomposition

     

    意思就是

    (1)每次把一个class和非这个class的当成目标两类,用logistic regression分这两类

    (2)分类时输入某个点,然后看这个点上取哪一类的概率最大

    这里有一点点儿问题:(2)点中不一定所有类别的概率和是1,虽然实际中影响不大,但是统计学的还是有严谨的方法(multinomial logistic regression)

    当类别很多的时候(比如,K=100)那么,每次用logistic regression的时候,正样本和负样本的差别非常大,这样不容易得出正确结果。

    为了解决OVA的unbalance问题:每次只取两个类,一共有K类,做C(K,2)次logistic regression就OK了;当给一个输入点的时候,用这C(K,2)个分类器给所有K个类别投票,取票数大的作为输出结果。

    这种方法的缺点是:可能效率会低一些(K次变成C(K,2)次)。

    但是,如果类别很多,每一类的样本量都差不多的时候,其实OVO的方法不一定比OVA方法效率低。

  • 相关阅读:
    css backgroud属性与雪碧技术
    css margin 外边距塌陷问题
    css 浮动元素与清除浮动
    css 盒模型的概念与使用
    七年iOS架构师教你如何一举拿下35K的Offer,(附面试技巧)
    iOS开发者月薪想要突破30K,需要经历+提升些什么?
    月薪 8K 与30K的程序员 区别到底在哪里?
    那些月薪35K以上的iOS开发者 都掌握了什么技能?
    从事 iOS 开发8年的面经——送给准备跳槽的你!
    想进BAT大厂的 iOS程序员,看完这个你还觉得Offer难拿吗???
  • 原文地址:https://www.cnblogs.com/xbf9xbf/p/4603769.html
Copyright © 2020-2023  润新知