• 【dlbook】正则化


    对学习算法的修改——旨在减少泛化误差而不是训练误差

    显著减少方差而不过度增加偏差。

    【参数范数惩罚】

    通常只对权重做惩罚而不对偏置做惩罚,原因是拟合偏置比拟合权重容易很多。

    不同层使用不同惩罚的代价很大,会在所有层使用相同的权重衰减。

    L2正则化的效果: 在Hessian阵特征值较大的方向,正则化的影响比较小,在特征值比较小的方向,会比较快速的趋近到0

      让算法感知到较高方差的x,从而与

    L1正则化的效果:

      参数向一个方向移动一个特定的距离,如果移动之后变号,那么置为0。

      会产生稀疏解

    【欠约束问题】

    对矩阵XTX求逆,只要奇异就会出问题,现实数据中只要在某些方向没有差异,或者在一些方向没有观察到方差,矩阵就是奇异的。

    (通常在我们的数据中不会发生)

    【噪声稳定性】

    bishop 1995: 对x添加方差极小的噪声等价于对权重进行范数惩罚

    在一般情况下,注入噪声远比简单的收缩参数强大,尤其是添加到隐藏单元!

    另外一种方式是对循环神经网络的权重加噪声,实际上是基于贝叶斯思想。

    【early stop】

    代价:

    1、需要多次评估validation集

    2、需要保存最佳参数副本

    正则化效果:

    将参数空间控制在初始值的小邻域内,如果初始值足够小,那么是有效的。

    比weight decay更有效

    【稀疏表示】

    【Bagging】

    【Dropout】

    可以认为是廉价的Bagging, 

    小批量、小步长的学习算法,

    还需要继续学习。。。

  • 相关阅读:
    python入门1
    查找字段 和查找组件
    DBGRID 拖动滚动条 和 鼠标滚轮的问题
    数据集 过滤时 RecordCount 属性
    查找字段 如何 过滤
    数据集控件 放在 数据模块 上后,如何写事件代码
    取TTable 过滤后的记录数
    判断 Windows操作系统是32位还是64位
    MatchText MatchStr 区别
    EClassNotFound
  • 原文地址:https://www.cnblogs.com/yesuuu/p/8391907.html
Copyright © 2020-2023  润新知