• 机器学习(3)


    一、模型评估与选择

    2.2.1留出法

    1、直接将数据集划分为两个互斥的集合,即D=sUt,s∩t=空集

    2、在s上训练出模型,用t来评估其测试误差

    3、s/t的划分尽可能保持数据分布的一致性,至少要保持样本的类别比例相似

    4、若s,t中的样本比例差别很大,则误差估计将由训练/测试数据分布的差异而产生偏差

    5、在给定训练/测试集的样本比例之后,仍存在多种划分方式对初始数据集D进行分割。这些不同的划分将导致不同的训练/测试集

    6、在使用留出法时,一般要采用若干次随机划分,重复进行试验后取平均值作为留出法的评估结果

    2.2.2交叉验证法

    1、先将数据集D划分为k个大小相似的互斥子集

    即每个子集Di都尽可能保持数据分布的一致性,即从D中通过分层采样得到,然后,每次用k-1个子集的并集作为训练集,

    余下的自己作为测试集(总过划分为k个子集)这样便可获得k组训练/测试集,从而进行k次训练和测试,最终返回k个测试结果的均值

    2、k最常使用的取值为10

    3、将数据集D划分为k个子集存在多种划分方式。k折交叉验证通常要随机使用不同的划分重复p次,最终取这p次k折交叉验证的均值作为结果

    2.2.3自助法

    1、在前两者中,由于保留了一部分样本用于测试,因此是实际评估的模型所使用的训练集比D小。这会导致些许误差

    2、“自助法”直接以自助采样法为基础,给定包含m个样本的数据集D,我们对它进行采样产生数据集d,每次随机从D中挑选一个样本,将其拷贝放入d,

    使得该样本在下次采样时仍可能被采到,将这个过程重复执行n次,就得到了包含n个样本的数据集d,这就是自助采样的结果

  • 相关阅读:
    Windows下使用Visual Studio Code搭建Go语言环境
    无缓冲和带缓冲channel的区别
    Asp.Net MVC如何返回401响应码
    从这里开始我的博客园
    java判定字符串中仅有数字和- 正则表达式匹配 *** 最爱那水货
    主席树
    Mybitis+springMVC 套路
    jeeplus ani 文档路径
    jquery easyui datagrid 多选只能获取一条数据
    python写入文件编码报错
  • 原文地址:https://www.cnblogs.com/funny-and-point/p/13547004.html
Copyright © 2020-2023  润新知