• 统计学习及监督学习概论(3)


    《统计学习方法》(第二版)1.4 1.5

    1.4 模型评估与模型选择

    1.4.1 训练误差与测试误差

    当评估时使用的损失函数给定时,训练误差和测试误差成为学习方法评估的标准。

    测试误差反映了学习方法对未知的测试数据集的预测能力(泛化能力[1])。

    1.4.2 过拟合与模型选择

    当选择的模型复杂度过大时,过拟合现象就会发生。

    过拟合是指学习时选择的模型所包含的参数过多,以至出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。

    两种常用的模型选择方法:正则化和交叉验证

    1.5 正则化与交叉验证

    1.5.1 正则化

    如前所示,正则化是结构风险最小化策略的实现,具体参见: https://www.cnblogs.com/angelica-duhurica/p/10884104.html

    正则化项可以取不同的形式。

    e.g.回归问题:损失函数是平方损失。

    • 正则化项可以是参数向量的(L2)范数(向量的长度)

      [L(w)=frac{1}{N}sum_{i=1}^N(f(x_i;w)-y_i)^2+lambda ||w||^2 ]

    • 正则化项可以是参数向量的(L1)范数(向量中各个元素绝对值之和)

      [L(w)=frac{1}{N}sum_{i=1}^N(f(x_i;w)-y_i)^2+lambda ||w||_1 ]

    各个范数解释参考: https://blog.csdn.net/zouxy09/article/details/24971995

    正则化符合奥卡姆剃刀原理:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型,也就是应该选择的模型。

    1.5.2 交叉验证

    • 理想:样本数据充足,将其分为训练集(用来训练模型)、验证集(用于模型的选择)、测试集(用于对学习方法的评估)。
    • 实际:样本数据不充足,采用交叉验证

    交叉验证:重复地使用数据,将切分的数据进行组合。

    简单交叉验证

    随机地将数据分为两部分,分别是训练集和测试集。

    S折交叉验证 S-fold cross validation

    随机地将数据分为S个互不相交、大小相同的子集,利用S-1个子集作为训练集,余下的1个作为测试集;将S种选择重复进行,选择S次中平均测试误差最小的。

    留一交叉验证

    S折交叉验证中S=N。适合数据缺乏的情况。N为给定数据集的容量。


    1. 测试误差评价泛化能力依赖于测试数据集,很有可能不可靠。 ↩︎

  • 相关阅读:
    应用实例:用户登录(2009.10.23)
    ASP.NET学习笔记:服务器控件 (2009.11.9)
    小实例:模拟电话簿
    用Iframe实现左边TreeView导航,右边显示相应内容的布局
    HTML&CSS&JaveScript学习笔记(2009.11.19)
    C#中问号(?)的用法
    GridView的简单分页等
    GridView正反双向排序
    代码理解(2009.11.20)
    ASP.NET学习笔记:数据库操作 (2009.11.10)
  • 原文地址:https://www.cnblogs.com/angelica-duhurica/p/10884848.html
Copyright © 2020-2023  润新知