• 机器学习技法总结(四)(aggregation,vote,bootstrap...)


    研究的动机是:我们采用了不同的模型得到T个不同的g,那么我们是不是可以通过这些不同的g的融合得到更加出色的G呢?因此,便有了以上四种不同的方法;1)(select)直接选择最好的一个作为融合的结果;2)(uniform)所有的g公平vote;3)(non-uniform)相当于你比较相信某个结果,就赋予它较高的vote权重,这种类似于二次回归问题,就是说,先对不同模型进行优化得到不同的g,然后再次优化做出回归;4)很简单的predictions conditionally。前面的都可以看作是后面的特例。


    上图解释了通过aggregation,通过均匀的弱的hypothesis的mix,我们可以实现比较弯弯曲曲的分界线,这是不是实现了特征转换,使得Ein比较小?另外,这样多次的mix,可能使得PLA取得比较靠中间的那个hypothesis,这样是不是就类似了svm中的large margin的效果,这样aggregation就类似于能够较好的实现特征转换和正则化。

    在设计融合的时候,要注意一点,如果我们直接从Ein中选择最小的作为目标的话,这就像是扩大了Hypothesis set的大小,那么VC dimension则变大了,很容易出现overfitting,因此,最好的办法还是通过validation来赛选g-,然后再回传g进行融合。如下图所示:


    下面如何得到不同的g呢?主要有以下几种:不同模型,不同的参数,不同的数据等...


    借助统计中的一个bootstrap可以实现对data的重新采样,得到了一下的方法:


    林老师讲了一个利用PLA作为算法,然后借助bootstrap-aggregation得到了如下的效果:


    从图中的效果可以看出,其实效果还不错。

    主要关注两个方向:一个是g的diversity,二是democracy。


  • 相关阅读:
    Excel表格信息导入和导出
    sql server执行一条sql时操作两张表
    解决tomcat一直报缓存值溢出等..
    GPS小数坐标不精确转换标准形式
    javac’不是内部或外部命令错误解决方法
    mysql开启远程访问命令
    solr查询条件设置
    osgb文件格式文档
    modbus4j中使用modbus tcp/ip和modbus rtu over tcp/ip模式
    Milo-OPC UA处理Subscription和Triggering
  • 原文地址:https://www.cnblogs.com/huty/p/8519340.html
Copyright © 2020-2023  润新知